腾讯优图贾佳亚：人工智能的多模态发展丨CCF-GAIR 2019( 七 )_7月12日-7月14日

而多模态人工智能还存在不少技术难点：第一是数据模态多种多样，包括2D图像、3D模型、结构化信息、文本、声音及更多无法量化的数据；

第二是多模态数据的不对应，如从图像到文字，从文字到图像，都是“一对多”的过程，会有多种的描述和呈现；

第三是多模态数据的融合，一个软件或算法的进步较为容易，但多个算法叠加在一起，难度将几何级上升，如“告诉机器人拿桌子左边的瓶子” ，会经过语言模型、三维建模、自动寻路、图像分析等步骤；

第四是多模态监督， “如何告诉机器人拿错了”“哪一个步骤拿错了”也是目前的难点。

而要解决这些多模态信息的难题，贾佳亚教授提出要更好研究嗅觉、味觉、触觉、心理学等难以量化的信号问题，通过多模态数据使得计算成为可能，进行协同学习、用一个资源丰富的模态信息辅助另一个资源贫瘠的模态。

多模态人工智能问题的解决，就会是人工智能更多落地的未来。

以下是贾佳亚教授大会现场全部演讲内容，雷锋网作了不改变原意的整理及编辑：

腾讯优图贾佳亚：人工智能的多模态发展丨CCF-GAIR 2019( 七 )