游戏|《英雄联盟》S11直播延迟30秒 这次网友反应有点不太一样( 二 )
从技术本身来看,实时字幕用的是语音识别,具体分为人工识别和自动语音识别(ASR)两种 。
此前,由于ASR准确率上不去(尤其是中文识别),人工识别又需要好几分钟延迟,大型比赛直播中采用实时AI字幕的不多 。
这些年AI技术上来了,视频中应用自动语音识别ASR制作字幕的也多了起来,具体又分为流式ASR和非流式ASR 。
非流式,指整段输入语音、再输出文字的结果;流式,指像“流水线一样”实时输出转文字结果 。
文章图片
目前的流式ASR可以做到速度极快(毫秒级,肉眼看起来是实时)的输出,经过训练也能达到不错的准确率;但与此同时,它也还有不少优化空间 。
对于不同直播来说,选择语音识别方法时,主要会从准确率和识别速度进行考量,像新闻直播更重视准确率,娱乐赛事直播更侧重识别速度 。
文章图片
BUT,对于无障碍来说,赛事直播还会出现新的挑战:
由于听障人士无法快速建立视听之间的联系,错字词需要更多反应时间,字幕的准确性要更高;此外,转录的字句需要有一定视觉流畅性;最后,赛事直播的延迟也不能太高 。
一方面,受限于语音的停顿、音频切分的长度,流式ASR目前能做到低延迟和基本的准确率,但往往视觉阅读的流畅性会有所降低,“每个字都会,停顿后就看不懂了”:
文章图片
每个字都会,就是看不懂
另一方面,流式ASR模型需要满足一定长度的音频输入,才会处理并输出文字,非常依赖语速和说话流畅度的稳定 。
例如,主持人通常在电竞团战或是进球前夕等情况下,语速变得非常快(例如华少最快能达到18秒215字),或是因为思考出现频繁断句,就会严重影响流式ASR技术的“发挥” 。
在这种情况下,流式ASR语音识别的结果如不经过处理、直接输出的话,就会出现字幕空白、频繁停顿,或是大段爆发输出的情况 。
为了让字幕流更加稳定(能输出整段整句)、准确率也更高,B站在采用讯飞听见技术进行流式ASR识别(毫秒级延迟)时,选择将无障碍直播间整体进行适当延迟,来确保阅读流畅性,主要做了这些操作:
其一,B站专门梳理了英雄联盟赛事相关的500+专有词汇,包括战队、选手、赛区、游戏英雄名称、比赛术语、解说相关术语、S赛名句等等,将这些词汇接入到讯飞听见服务器中,进行转译结果优化处理;
推荐阅读
- 幻塔|《幻塔》原能信标藏哪里不容易被发现?大神想出无敌点位
- 任天堂|爆料称任天堂Switch在2022年有大量优质独占游戏
- 人才|再见,2021年的游戏行业
- 玩家|Epic:小黑盒 App 绑定 Epic 账号,可以直接领取限免游戏
- 玩家|GRIME:在这个游戏里你甚至可以用头来弹反敌人
- Among|吉田修平分享2021最爱独立游戏《暗影火炬城》上榜
- 评级|《老头环》ESRB评级定为17+:战斗场面太“狠”
- 幻塔|《幻塔》“虫洞”没法通关?选对正确BUFF,萌新也能打满24积分
- 幻想三国志5|《幻想三国志5》新DLC及系列游戏将于1月登陆Steam
- steam|Steam特惠:《港诡实录》新史低,多款年度大作半价甩卖