用脑电图也能做语音识别？新研究造福语音障碍者( 四 )_大数据文摘专栏作品作者：ChristopherD

受深度神经网络在语音识别中的成功应用启发，研究人员对DNN在说话人建模中的应用进行了研究，发现与传统方法相比，判别性深度神经网络(DNN)具有更好的说话人嵌入性能。

目前大多数的深度说话人嵌入框架都采用softmax损失函数作为优化准则，这与较先进的基于边缘的分类损失函数相比存在一定的不足。研究人员使用了三种不同的基于边际损失的方法来解决这一挑战，这三种方法不仅将不同的类别分开，而且要求类别之间有固定的边际。

结果表明，通过训练一个DNN语音分类器并从中提取嵌入信息，可以直接建立一个高性能的说话人识别系统。

图2/6

在使用两个公共文本独立的任务（包括VoxCeleb1和Speaker in The Wild，即SITW）来评估后，这一方法展现了先进的性能：与使用softmax交叉熵损失的基线相比，新方法降低了两个任务25-30%的相等误差率（EER），取得了在VoxCeleb1测试集熵2.238%的EER和SITW核心测试集上2.761%的EER。