未来组织大会前,钉钉放出全球首款“多模态”智能无人前台( 二 )

事实上,从多模态交互技术的概念被提出至今,即便人工智能技术的发展逐步多样化,但真正意义上将多模态交互技术实现产品化的却至今未有。达摩院机器智能技术语音实验室研究员付强(花名:先声)介绍,钉钉智能无人前台M2S是全球首个在小型智能设备上运用多模态交互技术,且工程优化成熟的产品。

目前业界主流的语音交互产品,都需要通过“唤醒词+语音指令”的方式进行交互。而钉钉智能无人前台M2S能够通过图像算法准确检测到人靠近机器的距离,同时结合钉钉的组织关系,自动判断身份然后主动发起交互,无需唤醒词即可唤醒设备,这也更适用于企业办公场景下的人机交互。

未来组织大会前,钉钉放出全球首款“多模态”智能无人前台

在技术上,M2S基于图像识别的人脸检测和运动轨迹判断,通过云端处理引擎,将音视频信息充分融合在一起,再结合基于麦克风阵列的声源定位和语音分离算法,即使多人同时在设备前,M2S也能轻松分辨交互用户机器倾听、理解来人语义的能力进一步提升。在信号处理层面的另一亮点是应用了基于深度学习的回声消除算法,可以有效应对消费级电子设备上的非线性声学效应。·

推荐阅读