腾讯优图贾佳亚:人工智能的多模态发展丨CCF-GAIR 2019(12)

不管是车与车之间的交流 , 还是车与道路之间的交流 , 其实车更像一个机器人 , 而且在不久的将来 , 我相信随着车厂和各个技术的融合 , 这个行业会产生非常多有趣的应用 。

除此之外 , 多模态还有很多无法量化的数据 , 比如说嗅觉现在还没法去量化 , 比如闻到一个香味 , 到底怎么量化它?

第二个难点是多模态数据的不对应 。

举一个简单的例子 , 假设人们看到上面这张图的时候 , 其实我们有非常多的方法去形容 。

但是当我们用多模态数据表述的时候 , 如何能把两种不相关的数据完整地、像人一样自然地表达出来 , 这是非常难的事情 。

第三是多模态数据的融合 。

我一直说一个软件或者是算法的进步是很容易的 , 但是多个算法连在一起 , 它的难度是几何级上升的 。

现在很多机器人可以跳舞、可以交互 , 但还没有一个厂商能在五年内完成一个指令:去帮我拿桌子上左边的瓶子 。

推荐阅读