“声音复刻”又称“声音克隆” , 是语音合成技术(TTS, Text To Speech)的个性化应用 , 用户可通过少量的录音进行模型训练 , 得到与用户本人在音色和发音风格上非常相似的声音模型 , 快速“复刻”个性化声音 , 该“复刻”声音可使用在讲故事、播天气、读小说、导航播报等功能场景 。
文章图片
TTS(Text-To-Speech , 语音合成)对比熟悉的ASR(语音识别)技术 , 是将文字转化为声音“朗读出来” , 常见的Siri、小爱同学等语音助手的声音 , 都是TTS技术的“杰作” 。
近日 , 思必驰DUI开放平台上线“声音复刻”技术服务 , 支持男声、女声、童声的复刻 , 支持中、英文文本 , 支持UTF-8等多种文本格式 , 支持SSML标签控制 。 同时 , 该服务支持8k、16k、32k等多种采样率 , 支持合成mp3、wav、pcm等多种音频格式……
快速定制 专属音色 如果想用爱豆或亲人的声音做终端设备的语音播报 , 用户只需要录制≤5分钟语音内容 , 等待10分钟左右即可获得“专属音色” 。
思必驰语音合成技术是如何通过少量的数据 , 训练出一个高还原度的声音模型呢?
思必驰TTS技术 , 基于多年累积的多说话人的声学特征 , 将新数据输入既有的模型参数里进行迁移学习和精调 , 通过20句录音等少量语料 , 就可训练出高相似度的声音模型 。 模型通过短时间训练完成“克隆” , 保持了较高的MOS值(中文普通话场景下 , 相似度≥90%) , 还原度高 。 TTS技术上线DUI开放平台后 , 使用更便捷 , 提供API、SDK接入方式 , 满足标准化的服务要求 。
技术的升级是渐进的 , 思必驰充分利用基于Attention的机制 , 及迁移学习技术 , 提升了声音复刻的效果 , 改善用户体验 。 受限于较少的数据量 , 如何保证稳定输出是训练模型时要面对的挑战 。 但在未来 , 少样本音色克隆仍是研究趋势 。
复刻的声音 还安全吗? 以智能语音技术的另一项黑科技——“声纹识别”来作为参照 。 人的“声纹”是类比指纹一样独一无二的存在 , 常被用作身份验证和解锁 。 常见的支付宝、微信的声音锁背后都是声纹技术 。
“克隆”的声音可以 “瞒过”声纹唤醒吗?是否会有安全隐患?
常规声纹解锁 , 使用“复刻”的声音确实能解锁设备 。 但当思必驰在声纹技术中增加了反欺诈技术后 , 声音复刻便无法闯关带有防欺诈的声纹 , 安全性得到保障 。
【技术|“声音复刻”来了,克隆的声音可以唤醒声纹吗?】“克隆”专属声音 , 不仅是新鲜感、娱乐性 , 更是AI技术拓展应用惠及到了普通大众 , 能克隆出妈妈声音的音箱带给了孩子更多陪伴 。
推荐阅读
- 快报|“他,是能成就导师的学生”
- 技术|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- bug|这款小工具让你的Win10用上“Win11亚克力半透明菜单”
- 重大进展|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- 历史|科普:詹姆斯·韦布空间望远镜——探索宇宙历史的“深空巨镜”
- 空间|(科技)科普:詹姆斯·韦布空间望远镜——探索宇宙历史的“深空巨镜”
- 精度|将建模速率提升10倍,消费级3D扫描仪Magic Swift在2021高交会大显“身手”
- 四平|智慧城市“奥斯卡”揭晓!祝贺柯桥客户荣获2021世界智慧城市治理大奖
- |南安市司法局“加减乘除” 打造最优法治营商环境
- 选型|数据架构选型必读:2021上半年数据库产品技术解析