简单粗暴而有效的改图:自动语音识别数据扩增的“一条野路”( 五 )
图 | 扩增训练集与否的两个模型在数据集 LibriSpeech 上有噪音测试集和无噪音测试集的表现。(来源:Daniel S. Park,et al/ Google Brain)
对于过拟合问题,虽然训练集上利用扩增的模型表现与无扩增相差并不是很多,但在开发集上,WER 有明显的降低,说明模型泛化能力提升,可以预测未训练过的数据,过拟合得到解决。
图 | 扩增训练集与否的两个模型在训练集、有噪音开发集和无噪音开发集集上的表现(来源:Daniel S. Park,et al/ Google Brain)
这个模型啥水平?
1)优于现有最佳 ASR 模型
扩增训练集后调整模型参数以及适当训练迭代,使得模型表现达到最佳,在数据集 LibriSpeech 960h 和 Switchboard 300h 有无噪音的测试集上,扩增模型表现与现有最佳模型的错词率结果对比发现,扩增方法明显取胜。无论是传统 ASR 模型(如 HMM)还是端到端的神经网络模型(如 CTC/ASG),采用 SpecAugment 方法训练后的 LAS 模型表现都明显更好。
推荐阅读
- 三国杀|三国杀:谁是技能最简单的武将,返璞归真,这就是武将基本元素!
- ag战队|关键的卡位赛,AG超玩会却上了猫神,原因很简单,但是却很心酸
- ps3|魔兽怀旧服:专业打“补丁”的装备,虽然获取简单,但能弥补短处
- 地下城堡|LOL手游上分总结,中单最简单上单没人帮,快手投大钱招新主播
- |《英雄联盟手游》当前版本最强上分英雄公布,阿克尚最强团战“利器”,上分很简单
- 黄忠|五个能秒坦克的射手,香香仅排第五,榜首瞬秒脆皮太简单
- 炸弹人|英雄联盟手游:炸弹人+石头人走下,简单又强力啊
- 貂蝉|高难度英雄等于高操作英雄?非也,有些英雄简单,但你却玩不好
- 冒险游戏|DNF:“大作战”活动真实有效!各大欧皇比拼,相当于送梦想白金
- 原神|原神:新深渊出炉后,钟离最终还是倒了?削弱一个角色太简单了