原创<br> 语音识别进化简史:从造技术到建系统( 五 )

原创<br> 语音识别进化简史:从造技术到建系统

比如2013年百度的语音识别技术还主要基于mel-bank的子带CNN模型;2014年就独立发展出了Sequence Discriminative Training(区分度模型);2015年初推出基于LSTM –HMM的语音识别,年底发展出基于LSTM-CTC的端对端语音识别系统;2016年和2017年将Deep CNN模型和 LSTM、CTC结合起来,2018年推出Deep Peak 2模型,2019年又发布了流式多级的截断注意力模型……

而在不久前结束的百度AI开发者大会上,百度还推出了针对远场语音交互的鸿鹄芯片,可以实现远场阵列信号实时处理,高精度超低误报语音唤醒以及离线语音识别。

其次,语音识别进入到生态化、产业化的时代。

在Google发布了语音开放API后,对Nuance产生了致命的打击,不仅仅是Google在产品和技术上的优势,也来自于Google强大的人工智能技术生态,例如以TensorFlow为代表的深度学习引擎。

同样的逻辑,百度在2015年就开放了上百项智能语音专利,与海尔、京东、中兴通讯、中国普天等组建了智能语音知识产权产业联盟,同时PaddlePaddle、Warp-CTC、百度大脑的开放和开源,对中文语音识别有着潜移默化的影响,成为了中国语音识别领域标准的制定者。

推荐阅读