智能音箱的中局,胜负手在技术内核里( 四 )

客观来看 , 今天的智能音箱产品 , 在交互的自然、流畅与可持续能力上 , 依旧具有极大的阻碍 , 每一台设备的语音交互都不足以称为完整形态 。 主要来看 , 有三大问题萦绕在智能音箱左右:

1、唤醒效率问题 。 是否能适应远场与复杂声源环境的唤醒 。 这是一个软硬一体化问题 , 需要算法创新与芯片侧的联合创新 。

2、语义理解的深度问题 。 这个问题决定了对话是否能被理解 , 方言、个性化的语言习惯、中英夹叙、复杂长句的理解等领域构成了这一问题的主要挑战 。

3、机器记忆体验的问题 。 这个问题决定了对话是否能够持续 , 主要挑战包括机器能否有效记忆、筛选文本和跨时间保留对话 。

三大基础标准之外 , 多种AI技术的交互融合则构成了未来智能音箱的技术体验 。 包括语音与视觉的结合 , 例如结合唇语的视觉识别来提升语音交互准确度一;以及语音与知识的结合 , 比如机器能否理解用户表达的专用词汇、形容式表达以及暗示 。

推荐阅读