用脑电图也能做语音识别?新研究造福语音障碍者( 四 )

受深度神经网络在语音识别中的成功应用启发,研究人员对DNN在说话人建模中的应用进行了研究,发现与传统方法相比,判别性深度神经网络(DNN)具有更好的说话人嵌入性能。

目前大多数的深度说话人嵌入框架都采用softmax损失函数作为优化准则,这与较先进的基于边缘的分类损失函数相比存在一定的不足。研究人员使用了三种不同的基于边际损失的方法来解决这一挑战,这三种方法不仅将不同的类别分开,而且要求类别之间有固定的边际。

结果表明,通过训练一个DNN语音分类器并从中提取嵌入信息,可以直接建立一个高性能的说话人识别系统。

用脑电图也能做语音识别?新研究造福语音障碍者

图2/6

在使用两个公共文本独立的任务(包括VoxCeleb1和Speaker in The Wild,即SITW)来评估后,这一方法展现了先进的性能:与使用softmax交叉熵损失的基线相比,新方法降低了两个任务25-30%的相等误差率(EER),取得了在VoxCeleb1测试集熵2.238%的EER和SITW核心测试集上2.761%的EER。

推荐阅读