何晓冬|他在京东每天做1000万次图灵测试( 四 )


文章图片

△何晓冬等在CVPR2015发表的关于视觉和语言多模态图像描述的论文
而且不仅只是语言、图像 , 何晓冬和他的同事后来又将知识融入到了多模态模型中 。
这样做的效果 , 便是AI在“看”到有具体人物、地标的图片时 , 就不仅仅会将其描述为“一个运动员”这样的笼统的信息 。
而是会把描述的语言变得更加细致 , 例如AI就会把图片中的具体人物“纳德拉”都说出来 。
2016年 , 微软CEO纳德拉在微软Build大会中便展示了这项技术 。

何晓冬|他在京东每天做1000万次图灵测试
文章图片

△Business Insider媒体报道CaptionBot
何晓冬带领团队开发的这款名为CaptionBot的AI 应用 , 精准描述了图片中纳德拉的言行举止 , 还能够描述人物情绪 。
一时间 , 跨语言、视觉以及知识的多模态技术迅速实用化 , 该应用也迅速走进了大众的视野当中 。
深度学习崛起和发展过程中有种种“巧合” , 但其实更有赖于很多技术人对技术执著的 “信念” 。 何晓冬自嘲说 , 感觉他就像电影《阿甘正传》里的阿甘一样 , 很幸运的见证了这一轮AI复兴浪潮的关键节点 , 还有幸能在其中做了一点贡献 , 也像是经历了一个技术人的“奇幻之旅 。 ”
回国 , 加盟京东
时间拨转到2018年 , 彼时在微软雷蒙德研究院已经工作十余载的何晓冬 , 选择回到国内 , 并加盟京东 。
这一决定在外界看来或许有些突然 , 但于其本人而言 , 或许更是一种必然 。
就像第一台通用计算机刚刚被发明出来时一样 , 最大的问题是如何让它去做我们想让它做的事 , 发挥出它的潜力和价值 。
作为深度学习新一轮浪潮的亲历者与参与者 , 何晓冬深感应用之于AI的意义 。
而在和人类沟通的过程中 , AI不仅要听懂人类说的话或者看懂人类输入的文字 , 还要理解人的深层意图去组织语言 , 甚至还是一系列的博弈与决策 (比如该做什么、该怎么回复、该询问补充信息还是立刻回答、该采取什么交互策略等等)……这一切使得实用场景成了最好的训练场 。

何晓冬|他在京东每天做1000万次图灵测试
文章图片

△售前咨询对话的一个案例
何晓冬针对AI的进展做了一个判断 , 当下AI技术的三要素已经从 (静态的)数据、 (单一任务的)算法、算力转化为 (交互行为的)场景、 (多任务协同的)系统和算力新三要素 。
根据复杂的应用中发现的问题反过来推动基础技术的发展 , 也成为如今AI发展的一种新趋势 。
由此 , 何晓冬在2018年更紧密的拥抱场景、走向京东 。

推荐阅读