谷歌开源语音引擎:分享9大语音功能,为长篇对话提供字幕( 三 )

其中,FLAC可以保持转录的准确性,但不能保存太多的数据,并且具有明显的延迟;AMR-WB能够节省大量数据,但它在嘈杂环境中的转录不够精确;Opus允许使用比大多数音乐流服务还要低很多倍的数据速率,还能同时保留音频信号的重要细节。

此外,谷歌还可以在长时间的静音期间,通过语音检测来关闭网络连接。总体而言,谷歌能够在不影响转录准确性的情况下,将数据使用量减少10倍。

为了进一步降低延迟,Live Transcribe使用了自定义Opus编码器,能提高比特率,使延迟在视觉上无法区分发送但未压缩的音频。

谷歌开源语音引擎:分享9大语音功能,为长篇对话提供字幕

三、Live Transcribe的9项语音引擎功能

谷歌列出了Live Transcribe的9项功能文档,但不包括说话人识别:

1、无限流媒体;

2、支持70多种语言;

3、当用户在网络和Wi-Fi之间切换时,可简化网络丢失。并且文字只会延迟,不会丢失;

推荐阅读