腾讯优图贾佳亚:人工智能的多模态发展丨CCF-GAIR 2019(15)

目前 , 我们还只是在一些关键的语句上做得比较好 , 当我们把这些语料库提供给政府、学校使用的时候 , 可能还需要一个多月甚至更长的时间去开发 。

语言和图像联合处理方面 , 给一张图片 , 问一个问题 , 机器能够回答的也是寥寥可数 , 包括我们现在能做到的也是非常简单的 , 稍微复杂一点的都做不了 。

比如说上图中 , 问这个花是什么颜色?它会回答我这是黄色 。

同样一张图 , 问花是放在哪里的?你要得到“花瓶里”的信息 , 它会告诉你这是一个花瓶 。 这里面涉及到对图像的细粒度理解 , 也涉及到自然语言的融合和解答过程 。

这是我们当时设计的一个模型来做这件事情 。

我们回头来看 , 多模态还有什么问题 , 第一是数据集存在巨大的Bias , 比如看到这张图象 , 绝大部分人问的问题都是 , 这是不是长颈鹿 , 绝大部分的答案都是“是的” 。

推荐阅读