百度超谷歌跃升全球第二,硬核语音技术成抢夺智能音箱“C位”的王牌( 三 )

而百度,除了面临所有智能音箱产品都面临的此类挑战外,还存在其内部独有的唤醒技术难点,包括,第一,“小度小度”作为百度智能音箱的唤醒词,虽朗朗上口,但它相对于市面上其他音箱常用的“你好xx”、“xx同学”技术上更不容易控制误报率;第二,百度的产品矩阵丰富,更使得唤醒技术所面临的外部环境更加复杂多变,因而对唤醒的精度和误报的控制提出了更高的挑战。

针对这些挑战和技术难点,百度首先从算法层面实现了语音唤醒技术的突破,即将误唤醒的控制由对着测试集手工调节变成了海量数据训练驱动的过程,并具体从两个方面提升了模型的建模能力:

第一,利用大量容易获得的无标注负例数据,以及有限的有标注正例数据,索负样本的描述和挖掘方法、正样本的加噪扩充以及构造海量的训练样例;

第二,探索新的模型学习策略,采用聚焦学习的方法,让有限体积的模型能够从海量的数据中高效地学习有用的知识,同时简化系统的流程。

不仅如此,百度还直接从唤醒技术的维度对小度智能音箱的语音唤醒功能进行优化和改进,研发出了一套纯端到端的声学模型/决策模型的二级唤醒技术,能够兼顾高召回率和极低的误报率。其中,声学模型还采用粗粒度的唤醒词音节作为建模单元,引入海量负例数据优化,利用唤醒词音节尖峰搜索代替了维特比解码,大幅度提高了声学模型的检出效果;而决策模型则采用了深层卷积网络,可对唤醒词进行整词置信估计,同时实现了高唤醒召回、低误报率和较低的资源占用。

推荐阅读