未来组织大会前，钉钉放出全球首款“多模态”智能无人前台( 二 )_据媒体爆料

事实上，从多模态交互技术的概念被提出至今，即便人工智能技术的发展逐步多样化，但真正意义上将多模态交互技术实现产品化的却至今未有。达摩院机器智能技术语音实验室研究员付强（花名：先声）介绍，钉钉智能无人前台M2S是全球首个在小型智能设备上运用多模态交互技术，且工程优化成熟的产品。

目前业界主流的语音交互产品，都需要通过“唤醒词+语音指令”的方式进行交互。而钉钉智能无人前台M2S能够通过图像算法准确检测到人靠近机器的距离，同时结合钉钉的组织关系，自动判断身份然后主动发起交互，无需唤醒词即可唤醒设备，这也更适用于企业办公场景下的人机交互。

在技术上，M2S基于图像识别的人脸检测和运动轨迹判断，通过云端处理引擎，将音视频信息充分融合在一起，再结合基于麦克风阵列的声源定位和语音分离算法，即使多人同时在设备前，M2S也能轻松分辨交互用户机器倾听、理解来人语义的能力进一步提升。在信号处理层面的另一亮点是应用了基于深度学习的回声消除算法，可以有效应对消费级电子设备上的非线性声学效应。·