谷歌开源语音引擎:分享9大语音功能,为长篇对话提供字幕( 二 )

Live Transcribe实质上是一种交流工具,一方面,它可以用70多种语言和方言来描述实时口语单词。另一方面,用户也可以通过输入文字来进行转录。

此外,Live Caption和Live Transcribe还有一个主要的区别。Live Transcribe可以在18亿台安卓设备上使用,而Live Caption只适用于部分Android Q设备。

谷歌开源语音引擎:分享9大语音功能,为长篇对话提供字幕

二、如何解决云上工作的潜在弊端?

目前,谷歌的Cloud Speech API并不支持发送无限长的音频流。此外,它依赖云来使用的特性,也意味着它在网络连接、数据成本和延迟方面都有潜在问题。

因此,语音引擎会在请求超时之前关闭并重启,还会在长时间的静默期间重启会话,以及在检测到语音暂停时关闭会话。 在会话期间,语音引擎还会在本地缓冲音频,当网络重新连接时便可发送。

基于这些设计,谷歌避免了工具转录时会出现截断的句子或单词,并减少了对话中丢失的文本量。 为了降低带宽需求和成本,谷歌还评估了不同的音频编解码器,包括FLAC(无损音频编解码器)、AMR-WB(新型宽带语音编解码器)和Opus(有损音频编解码器)。

推荐阅读