技术|“声音复刻”来了，克隆的声音可以唤醒声纹吗？_训练|语音|声音|音色|支持|克隆

“声音复刻”又称“声音克隆” ，是语音合成技术（TTS， Text To Speech）的个性化应用，用户可通过少量的录音进行模型训练，得到与用户本人在音色和发音风格上非常相似的声音模型，快速“复刻”个性化声音，该“复刻”声音可使用在讲故事、播天气、读小说、导航播报等功能场景。

文章图片

TTS（Text-To-Speech ，语音合成）对比熟悉的ASR（语音识别）技术，是将文字转化为声音“朗读出来” ，常见的Siri、小爱同学等语音助手的声音，都是TTS技术的“杰作” 。
近日，思必驰DUI开放平台上线“声音复刻”技术服务，支持男声、女声、童声的复刻，支持中、英文文本，支持UTF-8等多种文本格式，支持SSML标签控制。同时，该服务支持8k、16k、32k等多种采样率，支持合成mp3、wav、pcm等多种音频格式……
快速定制专属音色如果想用爱豆或亲人的声音做终端设备的语音播报，用户只需要录制≤5分钟语音内容，等待10分钟左右即可获得“专属音色” 。
思必驰语音合成技术是如何通过少量的数据，训练出一个高还原度的声音模型呢？
思必驰TTS技术，基于多年累积的多说话人的声学特征，将新数据输入既有的模型参数里进行迁移学习和精调，通过20句录音等少量语料，就可训练出高相似度的声音模型。模型通过短时间训练完成“克隆” ，保持了较高的MOS值（中文普通话场景下，相似度≥90%），还原度高。 TTS技术上线DUI开放平台后，使用更便捷，提供API、SDK接入方式，满足标准化的服务要求。
技术的升级是渐进的，思必驰充分利用基于Attention的机制，及迁移学习技术，提升了声音复刻的效果，改善用户体验。受限于较少的数据量，如何保证稳定输出是训练模型时要面对的挑战。但在未来，少样本音色克隆仍是研究趋势。
复刻的声音还安全吗？以智能语音技术的另一项黑科技——“声纹识别”来作为参照。人的“声纹”是类比指纹一样独一无二的存在，常被用作身份验证和解锁。常见的支付宝、微信的声音锁背后都是声纹技术。
“克隆”的声音可以 “瞒过”声纹唤醒吗？是否会有安全隐患？
常规声纹解锁，使用“复刻”的声音确实能解锁设备。但当思必驰在声纹技术中增加了反欺诈技术后，声音复刻便无法闯关带有防欺诈的声纹，安全性得到保障。
【技术|“声音复刻”来了，克隆的声音可以唤醒声纹吗？】“克隆”专属声音，不仅是新鲜感、娱乐性，更是AI技术拓展应用惠及到了普通大众，能克隆出妈妈声音的音箱带给了孩子更多陪伴。

技术|“声音复刻”来了，克隆的声音可以唤醒声纹吗？

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)