谷歌开源语音引擎:分享9大语音功能,为长篇对话提供字幕( 四 )

4、对扩展网络丢失具有鲁棒性,即使网络中断数小时,仍会重新连接。但没有连接就无法进行语音识别;

5、可以轻松启用和配置Opus、AMR-WB和FLAC编码;

6、包含文本格式库,可用于可视化ASR(自动语音识别)置信度,发言人ID等;

7、可扩展到离线模式;

8、内置支持语音检测器,可在延长静音期间内用于停止ASR,以节省资金和数据;

9、内置支持扬声器识别,可用于根据扬声器编号标记或着色文本。

该文档还指出,这些库与生产应用程序Live Transcribe中运行的库几乎相同。谷歌已经对它们进行了广泛的现场测试和单元测试,但测试本身并不是开源的。

谷歌将为开发人员们提供APK(安卓安装包),让他们能够在不构建任何代码的情况下试用该库。

谷歌开源语音引擎:分享9大语音功能,为长篇对话提供字幕

推荐阅读