AI进入无障碍时代:手语识别翻译的应用,究竟意味着什么?( 四 )

至于识别模型上,业内也有全新的算法搭建概念,例如通过2D卷积神经网络和3D卷积神经网络分别提取手势中静态和动态的信息,经由综合处理来提升视频识别效果,彻底摆脱其他传感器的桎梏。同时针对手语表达的整句化的现象,在视频帧的最后加入了词级信息挖掘,对特征提取器提出的信息进行核验,进一步去确定手势对词语表达边界,除了提升识别精准度以外,还能提升对自然手语中地域表达的总结能力。在此基础上,还可以算法模型中引入了上下文理解能力,以便于面对更加复杂的手语识别翻译需求。

不过技术虽然得以提升,应用场景端仍然会受到一些限制。例如手语识别可能会依赖较强大的算力,短时间内很难便携化、消费化。但完全可以通过和政府的合作,让手语识别进入一些公共服务场景。或者像爱奇艺一样,从手语生成方面入手,同样也能帮助到听障人士。

其实我们不难发现,可如果将技术拆分来看就能发现,手语AI取得的进步,并不是因为在某项基础科学上突然取得了什么惊人的突破,而是有越来越多的企业和学者在研发和数据累积上一贯长期的投入,才能解脱于以往手语语料库匮乏的困境,在算法上不断迭代。

推荐阅读