原创<br> 百度语音的「一小步」,可能是语音技术「登月计划」的一大步( 三 )
但这个技术长期以来无法得以大规模应用。一方面,无法解决流式解码的问题,传统的注意力模型大都是基于整句的建模,比如 Google 的 LAS 模型就是其中的代表。整个建模过程需要通过云端/服务器的解码能力。这也意味着,当用户通过语音交互时,语音需要上传到云端,这对于移动设备的用户体验影响非常大。
另一方面,如上文所言,在传统的注意力模型里,一般是通过机器学习提取整句音频信息,也就是说语音输入的句子越长,进行特征选择的难度越大。出错的概率越高,而一旦某个环节出现错误,错误的传导还会进一步增加错误率,最终反映在用户体验上的感受则是,用户语音说完一段话后,机器完全理解不了。
这也是此次百度流式多级的截断注意力模型 SMLTA 所要解决的难题。主要包括两个重要的技术突破,其一,利用 CTC 语音识别算法,对连续语音进行自动截断,然后在这一系列语音小段的基础上搭建注意力模型。其二,引入一种特殊的多级Attention机制,实现特征层层递进的更精准的特征选择。
根据百度官方的说法,由于所有计算通过 CPU 实现,不需要额外增加GPU,整个云端的计算资源消耗与此前的语音模型持平。而在输入法精度上,大量数据测试结果显示,相对于早先的模型,相对准确率提升了 15%。
推荐阅读
- ag战队|一诺果真AG“亲儿子”,赛后语音曝光:月光强令一诺做最终决策,网友吐槽难怪输那么惨
- 王者荣耀|王者荣耀:异界灵契技能特效升级优化,拒霜思语音二选一,上官婉儿或获得亚运会专属
- 原神|T1再次证实FPX训练赛强,队内语音迟迟未放出,LNG也意难平!
- 穿越火线|原神:米哈游开始急了,刚告完B站,现在又来搞百度
- 原神|AG赛前语音曝光,猫神自黑玩梗求血包,语气卑微让人心疼
- ag战队|AG局内语音曝光,一诺再也不用指挥了,最初一句话拯救队伍
- 机战|机战30:原创女主三叶收获极高评价 夏亚坦言这是自己的新妈妈
- ag战队|AG队内语音曝光,月光只是傀儡,真正做BP的“主教练”是他!
- 明日方舟|明日方舟会出男性限定吗?年的语音中有提到,可能性不低
- RNG|伞皇接入了RNG队内语音?赛后却被爆破:赢四号种子像夺冠一样