全球最大|出门问问联合发布全球最大多领域中文语音识别数据集WenetSpeech( 三 )



全球最大|出门问问联合发布全球最大多领域中文语音识别数据集WenetSpeech
文章图片

WenetSpeech 2.0
虽然 WenetSpeech 将开源中文语音识别训练数据规模提升到一个新的高度 , 然而希望进一步进行扩展和完善:
1.从领域角度 , 现有数据集在口音、中英文混合、会议、远场、教育、电话、语音助手等场景仍覆盖不足 。
2.从数据量角度 , 现有的2万+小时的总数据 , 对于无监督学习仍然远远不够 。
【全球最大|出门问问联合发布全球最大多领域中文语音识别数据集WenetSpeech】因此 , WenetSpeech 在设计之初 , 就考虑到了未来做进一步扩展 。 目前出门问问已经开始 WenetSpeech 2.0 的工作 , 并且在 2.0 中 , 希望更多的行业机构和开发者能参与进来 , 能够集行业之力更好、更快地去做一个更大更泛化的数据集 , 从而进一步反哺和造福整个行业 。

推荐阅读