谷歌开源语音引擎：分享9大语音功能，为长篇对话提供字幕( 三 )

2019-08-19

其中，FLAC可以保持转录的准确性，但不能保存太多的数据，并且具有明显的延迟；AMR-WB能够节省大量数据，但它在嘈杂环境中的转录不够精确；Opus允许使用比大多数音乐流服务还要低很多倍的数据速率，还能同时保留音频信号的重要细节。

此外，谷歌还可以在长时间的静音期间，通过语音检测来关闭网络连接。总体而言，谷歌能够在不影响转录准确性的情况下，将数据使用量减少10倍。

为了进一步降低延迟，Live Transcribe使用了自定义Opus编码器，能提高比特率，使延迟在视觉上无法区分发送但未压缩的音频。

三、Live Transcribe的9项语音引擎功能

谷歌列出了Live Transcribe的9项功能文档，但不包括说话人识别：

1、无限流媒体；

2、支持70多种语言；

3、当用户在网络和Wi-Fi之间切换时，可简化网络丢失。并且文字只会延迟，不会丢失；

推荐阅读

上一篇：传统汽车行业景气度下行精锻科技上半年营收净利双降

下一篇：科士达2019年上半年净利润同比下降19.94%