Meta发布机器学习模型Voicebox:可从文本生成语音 精通六门语言
生活网6月19日 消息:日前,meta平台的人工智能研究部门推出了名为Voicebox的机器学习模型,可以将文本转换为语音 。
与其他文本转语音模型不同的是,Voicebox能够执行许多未经过训练的任务,包括编辑、去除噪音和样式转换 。
为训练模型,meta的研究人员使用了一种名为“ “Flow Matching” ”的方法 , 该方法比其他生成模型中使用的扩散学习方法更高效和通用 。由于担心滥用,meta并没有发布Voicebox,以及将来可以支持很多应用 。
Voicebox是一种生成模型 , 可以在英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言中合成语音 。它通过学习将语音音频样本映射到其转录本的模式来进行训练,从而可以用于许多下游任务 。
与特定应用程序训练的生成模型不同,Voicebox在训练过程中使用文本作为训练目标 , 训练过程中,模型会预测语音片段 , 中间部分被屏蔽,根据周围的音频和文本转录本进行推理学习,学习使用文本生成自然语言语音 。
【Meta发布机器学习模型Voicebox:可从文本生成语音 精通六门语言】Voicebox的一个有趣应用是语音采样 。该模型可以从单个文本序列中生成各种语音样本 。这种能力可用于生成合成数据来训练其他语音处理模型 。“我们的结果表明,在Voicebox生成的合成语音上训练的语音识别模型的性能几乎与在真实语音上训练的模型一样好 , 错误率下降了1%,而在以前的文本到语音模型中,合成语音的错误率下降了45%到70%,”meta写道 。
不过Voicebox也有一定限制 。由于它已经过有声读物数据的训练 , 因此它不能很好地转移到随意且包含非语言声音的对话语音中 。它也不能完全控制生成的语音的不同属性 , 例如语音风格、语气、情感和声学条件 。meta团队还在探索技术来克服这些限制 。
官方介绍网址:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/
推荐阅读
- 科技前沿:微信11 for 黑莓10 下载发布 支持Q10全键盘
- 科技前沿:微软向Win7发布修复版KB2862330补丁下载
- 科技前沿:裸奔必备 沙盘Sandboxie 506正式版发布下载
- 科技前沿:微软发布2017年1月Win7安全更新补丁包下载
- 酷市场 科技前沿:酷安713版本发布 增今夜白主题、表情等
- 奇瑞集团发布百亿购车钜惠行动
- 科技前沿:戴尔发布全新S系列HDR显示器 边框可忽略
- 科技前沿:CES2015 D-Link发布“恐怖”无线路由器
- 科技前沿:Win8QQ简体中文版官方正式发布下载
- 科技前沿:安卓手机QQ61正式版发布下载 新增口令红包
