百度超谷歌跃升全球第二,硬核语音技术成抢夺智能音箱“C位”的王牌( 九 )

需要注意的是,虽然学术界对于将多注意力模型引入智能语音任务中的尝试不少,然而此前一直都尚未成功应用到工业界的商用智能语音服务中,因而百度提出的SMLTA模型,是工业界大规模使用注意力模型进行语音识别的首例。

从技术层面来看,SMLTA模型所实现的创新,可以用四个点来概括:截断、流式、多级、基于CTC & 注意力。下面我们逐个来看。

SMLTA模型可以看成是让 DeepPeak2 通过结合注意力机制来获取更大范围和更有层次的上下文信息,其中的“流式”表示可以直接对语音的小片段(而不是必须整句),进行一个片段一个片段地增量解码;“多级”表示堆叠多层注意力模型;而最后的“截断”则表示利用 CTC 模型的尖峰信息,把语音切割成一个一个小片段,使得注意力模型建模和解码都可以在这些小片段上展开,进而能够克服传统注意力模型在大范围内进行注意力建模带来精度不佳的问题。

进一步,考虑到CTC模型得到的尖峰的描述信息存在一定的插入和删除错误,容易造成截断得到的子块边界的不准确性,进而影响系统的识别性能。为此,百度在该模型中又创新性地提出两级Attention结构对截断的子块特征进行逐级筛选,最后再经过解码器的LSTM模型输出最后的概率分布。

推荐阅读