腾讯优图贾佳亚：人工智能的多模态发展丨CCF-GAIR 2019(16)

2019-07-19

但是很少人问，这张图像里是不是个羚羊，没有问这些问题的时候，系统就学不到否定性的答案，在你的数据集上就会出现很大的偏差。

第二是这个问题缺乏多模态的监管，也就是说有这样一个图像，我们只有一个简单的问题，比如 “这里面的桌子是什么颜色的” ，实际上图片中并没有桌子，但它还是要给你一个答案，这就是缺乏监督的原因。

还比如说，这张图像里有多个人员，我要把它区分出来是非常难的，人眼可以精确分割碗里的每一粒米，但是现在的算法想分割出每一粒米，并不是很容易。

基于腾讯的一个巨大的内容平台，我们每天要处理百亿计的视频，包括长视频、短视频、小视频。

我们基于多模态的处理方式，从视频本身得到很多视频特征，然后进行多模态融合，目前做得效果不错。

最后讲讲多模态的未来发展。

推荐阅读

上一篇：夜空中的星河，彗星形成的云区，揭秘奥尔特云与柯伊伯带

下一篇：商汤王晓刚：你所不知的商汤三维视觉产品世界丨CCF-GAIR 2019