百度超谷歌跃升全球第二,硬核语音技术成抢夺智能音箱“C位”的王牌( 九 )
需要注意的是,虽然学术界对于将多注意力模型引入智能语音任务中的尝试不少,然而此前一直都尚未成功应用到工业界的商用智能语音服务中,因而百度提出的SMLTA模型,是工业界大规模使用注意力模型进行语音识别的首例。
从技术层面来看,SMLTA模型所实现的创新,可以用四个点来概括:截断、流式、多级、基于CTC & 注意力。下面我们逐个来看。
SMLTA模型可以看成是让 DeepPeak2 通过结合注意力机制来获取更大范围和更有层次的上下文信息,其中的“流式”表示可以直接对语音的小片段(而不是必须整句),进行一个片段一个片段地增量解码;“多级”表示堆叠多层注意力模型;而最后的“截断”则表示利用 CTC 模型的尖峰信息,把语音切割成一个一个小片段,使得注意力模型建模和解码都可以在这些小片段上展开,进而能够克服传统注意力模型在大范围内进行注意力建模带来精度不佳的问题。
进一步,考虑到CTC模型得到的尖峰的描述信息存在一定的插入和删除错误,容易造成截断得到的子块边界的不准确性,进而影响系统的识别性能。为此,百度在该模型中又创新性地提出两级Attention结构对截断的子块特征进行逐级筛选,最后再经过解码器的LSTM模型输出最后的概率分布。
推荐阅读
- 穿越火线|原神:米哈游开始急了,刚告完B站,现在又来搞百度
- 原神|谷歌全球数据展示原神热度趋势,一直是话题焦点,靠的是啥?
- 原神|原神:角色百度百科被篡改,主机玩家帆船带节奏?
- 原神|百度贴吧“胡桃吧”被原神玩家占领,吧主疯狂删帖引起网友围攻!
- 百度百科|王者荣耀:最菜的玩家有多菜?这位玩家居然登上了百度百科!
- 百度|华为nova8pro参数对比荣耀v40pro+哪个好 区别评测
- 三星|百度Q3财报:营收282亿元,核心在线广告收入占比达65%
- 输入法|压倒五笔的最后一根稻草?百度输入法推出滑行输入,手速提升一倍
- 华为鸿蒙系统|华为推送新系统,37款手机全覆盖!优先升级鸿蒙OS,无惧谷歌断供
- 刘一手|百度神豪:跟汪总比不了!快手出台关闭收礼物功能!刘一手前女友起诉!