中国AI又夺一冠!依图刷榜全球声纹识别挑战赛,大比分夺魁( 三 )

这些名人涉及不同的性别,种族,口音,职业和年龄,并且音频中存在各种各样的背景噪声,包括环境突发噪声、背景人声、笑声、回声,室内噪声和录音设备噪声等等。

比赛的测试集则全部没有标注,属于“盲测”,保证了竞赛的公平与公正。

中国AI又夺一冠!依图刷榜全球声纹识别挑战赛,大比分夺魁

图2/8

面对如此挑战,想让AI准确提取声学特征、说话人特征,并实现准确的识别匹配,并非易事。

在发表于Interspeech 2018的论文中,VoxCeleb2的作者牛津大学Visual Geometry Group实验室训练出的ResNet-50达到了3.95%的等错误率(EER),超越了当时的基线方法。

而就在这场比赛中,依图不仅大幅刷新该纪录,将EER压缩至0.98%,还超出第二名(1.42%)一个身位,以绝对优势夺冠。

中国AI又夺一冠!依图刷榜全球声纹识别挑战赛,大比分夺魁

推荐阅读