谷歌开源语音引擎：分享9大语音功能，为长篇对话提供字幕( 二 )_：谷歌开源语音引擎：分享9大语音功能

Live Transcribe实质上是一种交流工具，一方面，它可以用70多种语言和方言来描述实时口语单词。另一方面，用户也可以通过输入文字来进行转录。

此外，Live Caption和Live Transcribe还有一个主要的区别。Live Transcribe可以在18亿台安卓设备上使用，而Live Caption只适用于部分Android Q设备。

二、如何解决云上工作的潜在弊端？

目前，谷歌的Cloud Speech API并不支持发送无限长的音频流。此外，它依赖云来使用的特性，也意味着它在网络连接、数据成本和延迟方面都有潜在问题。

因此，语音引擎会在请求超时之前关闭并重启，还会在长时间的静默期间重启会话，以及在检测到语音暂停时关闭会话。在会话期间，语音引擎还会在本地缓冲音频，当网络重新连接时便可发送。

基于这些设计，谷歌避免了工具转录时会出现截断的句子或单词，并减少了对话中丢失的文本量。为了降低带宽需求和成本，谷歌还评估了不同的音频编解码器，包括FLAC（无损音频编解码器）、AMR-WB（新型宽带语音编解码器）和Opus（有损音频编解码器）。

谷歌开源语音引擎：分享9大语音功能，为长篇对话提供字幕( 二 )