腾讯优图贾佳亚：人工智能的多模态发展丨CCF-GAIR 2019(15)

2019-07-19

目前，我们还只是在一些关键的语句上做得比较好，当我们把这些语料库提供给政府、学校使用的时候，可能还需要一个多月甚至更长的时间去开发。

语言和图像联合处理方面，给一张图片，问一个问题，机器能够回答的也是寥寥可数，包括我们现在能做到的也是非常简单的，稍微复杂一点的都做不了。

比如说上图中，问这个花是什么颜色？它会回答我这是黄色。

同样一张图，问花是放在哪里的？你要得到“花瓶里”的信息，它会告诉你这是一个花瓶。这里面涉及到对图像的细粒度理解，也涉及到自然语言的融合和解答过程。

这是我们当时设计的一个模型来做这件事情。

我们回头来看，多模态还有什么问题，第一是数据集存在巨大的Bias ，比如看到这张图象，绝大部分人问的问题都是，这是不是长颈鹿，绝大部分的答案都是“是的” 。

推荐阅读

上一篇：夜空中的星河，彗星形成的云区，揭秘奥尔特云与柯伊伯带

下一篇：商汤王晓刚：你所不知的商汤三维视觉产品世界丨CCF-GAIR 2019