Meta发布机器学习模型Voicebox：可从文本生成语音精通六门语言

生活网6月19日消息:日前，meta平台的人工智能研究部门推出了名为Voicebox的机器学习模型，可以将文本转换为语音。
与其他文本转语音模型不同的是，Voicebox能够执行许多未经过训练的任务，包括编辑、去除噪音和样式转换。
为训练模型，meta的研究人员使用了一种名为“ “Flow Matching” ”的方法，该方法比其他生成模型中使用的扩散学习方法更高效和通用。由于担心滥用，meta并没有发布Voicebox，以及将来可以支持很多应用。
Voicebox是一种生成模型，可以在英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言中合成语音。它通过学习将语音音频样本映射到其转录本的模式来进行训练，从而可以用于许多下游任务。
与特定应用程序训练的生成模型不同，Voicebox在训练过程中使用文本作为训练目标，训练过程中，模型会预测语音片段，中间部分被屏蔽，根据周围的音频和文本转录本进行推理学习，学习使用文本生成自然语言语音。
【Meta发布机器学习模型Voicebox：可从文本生成语音精通六门语言】Voicebox的一个有趣应用是语音采样。该模型可以从单个文本序列中生成各种语音样本。这种能力可用于生成合成数据来训练其他语音处理模型。“我们的结果表明，在Voicebox生成的合成语音上训练的语音识别模型的性能几乎与在真实语音上训练的模型一样好，错误率下降了1%，而在以前的文本到语音模型中，合成语音的错误率下降了45%到70%，”meta写道。
不过Voicebox也有一定限制。由于它已经过有声读物数据的训练，因此它不能很好地转移到随意且包含非语言声音的对话语音中。它也不能完全控制生成的语音的不同属性，例如语音风格、语气、情感和声学条件。meta团队还在探索技术来克服这些限制。
官方介绍网址:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/

Meta发布机器学习模型Voicebox：可从文本生成语音精通六门语言

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)

Meta发布机器学习模型Voicebox：可从文本生成语音 精通六门语言

推荐阅读

Meta发布机器学习模型Voicebox：可从文本生成语音精通六门语言