文章图片
△何晓冬等在CVPR2015发表的关于视觉和语言多模态图像描述的论文
而且不仅只是语言、图像 , 何晓冬和他的同事后来又将知识融入到了多模态模型中 。
这样做的效果 , 便是AI在“看”到有具体人物、地标的图片时 , 就不仅仅会将其描述为“一个运动员”这样的笼统的信息 。
而是会把描述的语言变得更加细致 , 例如AI就会把图片中的具体人物“纳德拉”都说出来 。
2016年 , 微软CEO纳德拉在微软Build大会中便展示了这项技术 。
文章图片
△Business Insider媒体报道CaptionBot
何晓冬带领团队开发的这款名为CaptionBot的AI 应用 , 精准描述了图片中纳德拉的言行举止 , 还能够描述人物情绪 。
一时间 , 跨语言、视觉以及知识的多模态技术迅速实用化 , 该应用也迅速走进了大众的视野当中 。
深度学习崛起和发展过程中有种种“巧合” , 但其实更有赖于很多技术人对技术执著的 “信念” 。 何晓冬自嘲说 , 感觉他就像电影《阿甘正传》里的阿甘一样 , 很幸运的见证了这一轮AI复兴浪潮的关键节点 , 还有幸能在其中做了一点贡献 , 也像是经历了一个技术人的“奇幻之旅 。 ”
回国 , 加盟京东
时间拨转到2018年 , 彼时在微软雷蒙德研究院已经工作十余载的何晓冬 , 选择回到国内 , 并加盟京东 。
这一决定在外界看来或许有些突然 , 但于其本人而言 , 或许更是一种必然 。
就像第一台通用计算机刚刚被发明出来时一样 , 最大的问题是如何让它去做我们想让它做的事 , 发挥出它的潜力和价值 。
作为深度学习新一轮浪潮的亲历者与参与者 , 何晓冬深感应用之于AI的意义 。
而在和人类沟通的过程中 , AI不仅要听懂人类说的话或者看懂人类输入的文字 , 还要理解人的深层意图去组织语言 , 甚至还是一系列的博弈与决策 (比如该做什么、该怎么回复、该询问补充信息还是立刻回答、该采取什么交互策略等等)……这一切使得实用场景成了最好的训练场 。
文章图片
△售前咨询对话的一个案例
何晓冬针对AI的进展做了一个判断 , 当下AI技术的三要素已经从 (静态的)数据、 (单一任务的)算法、算力转化为 (交互行为的)场景、 (多任务协同的)系统和算力新三要素 。
根据复杂的应用中发现的问题反过来推动基础技术的发展 , 也成为如今AI发展的一种新趋势 。
由此 , 何晓冬在2018年更紧密的拥抱场景、走向京东 。
推荐阅读
- 京东方|消息称京东方 2022 年扩张带鱼屏产品线
- 影像|京东零售集团CEO辛利军空降小米“跑进2022”活动直播间为米粉送福利
- 出货|消息称京东方 2022 年推 40 英寸带鱼曲面屏:4K+分辨率
- 服贸|京东云助力打造“永不落幕的服贸会”案例入选中国信通院“云安全守卫者计划”
- 平台|京东云助力打造“永不落幕的服贸会”案例入选中国信通院“云安全守卫者计划”
- jbhcfw|京东慧采适合什么样的企业入驻,我们公司合适么?
- 汽车|阿联酋批准国药新疫苗用作加强针;京东方重庆第6代AMOLED(柔性)生产线正式量产 | 思维独角兽
- 硬件|投资465亿 京东方重庆第6代AMOLED柔性生产线正式量产
- 硬件|京东方晶芯首个玻璃基4K产品交付 百万级对比度、115%色域
- 技术|京东方晶芯 MLED 首个玻璃基 AM P0.9 直显 4K 产品成功交付
