腾讯优图贾佳亚:人工智能的多模态发展丨CCF-GAIR 2019(16)

但是很少人问 , 这张图像里是不是个羚羊 , 没有问这些问题的时候 , 系统就学不到否定性的答案 , 在你的数据集上就会出现很大的偏差 。

第二是这个问题缺乏多模态的监管 , 也就是说有这样一个图像 , 我们只有一个简单的问题 , 比如 “这里面的桌子是什么颜色的” , 实际上图片中并没有桌子 , 但它还是要给你一个答案 , 这就是缺乏监督的原因 。

还比如说 , 这张图像里有多个人员 , 我要把它区分出来是非常难的 , 人眼可以精确分割碗里的每一粒米 , 但是现在的算法想分割出每一粒米 , 并不是很容易 。

基于腾讯的一个巨大的内容平台 , 我们每天要处理百亿计的视频 , 包括长视频、短视频、小视频 。

我们基于多模态的处理方式 , 从视频本身得到很多视频特征 , 然后进行多模态融合 , 目前做得效果不错 。

最后讲讲多模态的未来发展 。

推荐阅读