技术|出门问问歌唱合成技术助力中国数字音乐谷 谱写国际级科技+音乐新篇章

近年来 , 随着数字技术、信息技术、互联网技术等相关领域的快速发展 , 技术力量的驱动作用明显加强 , 音乐作品品牌化、商业化等悄然兴起 。

技术|出门问问歌唱合成技术助力中国数字音乐谷 谱写国际级科技+音乐新篇章
文章图片

立足于国家音乐产业基地萧山园区的中国数字音乐谷落地开园 , 总建筑面积2.02万㎡ , 这是继北京、上海、广东、成都后全国第五个音乐产业基地 。 中国数字音乐谷凭借国际化视野 , 以“音乐科技创新城”为核心定位 , 整合国内“音乐+科技”的顶级资源 , 精准服务数字音乐产业 。 展厅运用智能AI技术、沉浸式互动等高科技展示手段 , 打造多业态城市会客空间、科技文化融合音乐双创基地和面向未来的国际级数字人文地标 。

技术|出门问问歌唱合成技术助力中国数字音乐谷 谱写国际级科技+音乐新篇章
文章图片

出门问问AI歌唱合成技术助力中国音乐数字谷展示互动区的深化设计与呈现 , 其打造的“读诗成曲”展览互动区把音乐文化和产业数字技术完美演绎 , 可将朗读的古诗通过AI技术实时转化成歌曲 , 并分享给朋友 , 为给观众带来一场美轮美奂的梦幻音乐展示之旅 。
AI技术赋能读诗成曲 |《子夜歌》吴越风情杭扇双面投影
中国数字音乐谷的展示互动区 , 以“音乐+科技=无限可能”为策展主线 , 多采用高科技互动展陈形式 , 深挖“数字音乐”产业内涵 。
其中 , 配合展示诗词与音乐的关联 , 展区通过结合AI语音识别技术 , 观众可通过pad朗读专门描写杭州春夏秋冬的诗词 , 保存提交后生成读诗的歌唱音频 。
同时 , 采用个性化歌唱合成技术 , 将观众的朗读声结合唱段的特点实时自动转化成曲 。 歌曲生成后 , 以杭州非遗杭扇为造型的圆扇投影 , 还能配合歌曲播放动画影像 。

技术|出门问问歌唱合成技术助力中国数字音乐谷 谱写国际级科技+音乐新篇章
文章图片

那么 , 读诗成曲的《子夜歌》吴越风情杭扇双面投影 黑科技到底是怎么做的呢?让我们一探究竟 。
我们先来欣赏一下美妙的乐谱图(这里指五线谱 , 世界上通用的记谱法) , 《大鱼》- 周深 。

技术|出门问问歌唱合成技术助力中国数字音乐谷 谱写国际级科技+音乐新篇章
文章图片

根据乐谱图产生的音乐 , 在语音上(声学信号层面)是怎么表示的呢?我们再欣赏一下频谱图 。

技术|出门问问歌唱合成技术助力中国数字音乐谷 谱写国际级科技+音乐新篇章
文章图片

对于读诗成曲 , 我们的AI技术要做的事情非常简单 , 理解歌曲的乐谱 , 把人声频谱信息转换为音乐频谱信息 。
为了解决这个任务 , 我们的工程师特地搜索了一下五线谱 , 看看影响乐谱的关键因素是什么?搜索结果如下:
“五线谱(Musical Notation)是世界上通用的一种记谱法 , 通过在五根等距离的平行横线上标以不同时值的音符及其他记号来记载音乐 , 属于运用最广泛的乐谱之一 。 ”
工程师发现了两个重要的点 , 一个时值 , 一个音符 。 结合KTV唱歌的经验 , 说话和音乐的差异在于每个字的音高(音符: MIDI Note)以及时长不同 。 所以整个AI歌唱的算法主要有以下三部分:
1.资源制作
a.已知混BGM音乐 , 利用音乐分离工具 , 分离BGM和干声(vocal)
b.通过自动化工具 , 提取干声音符信息(MIDI)以及每个字的时长信息
c.把BGM、MIDI Note以及时长信息存储为AI歌唱特定格式 , 存放到歌曲资源库
2. 歌唱合成
a.用户录入音频 , 根据SNR , 对音频降噪以及去混响
【技术|出门问问歌唱合成技术助力中国数字音乐谷 谱写国际级科技+音乐新篇章】b.对处理过的音频 , 提取与用户相关的带有音色的声学特征以及人声音高信息
c.根据资源库的歌曲时长信息 , 对声学特征进行拉伸 , 使之与歌曲对应
d.根据歌曲音符信息(MIDI)以及人声音高信息 , 对音高进行优化
e.结合拉伸过的声学特征以及优化过的音高经过声码器 , 得到最终的歌唱干声(vocal)
3.后处理
a.混入BGM
b.采用人声增强、EQ、改善人声以及均衡器等方法 , 使得音乐更优美
整个流程图如下所示:

技术|出门问问歌唱合成技术助力中国数字音乐谷 谱写国际级科技+音乐新篇章
文章图片

出门问问AI技术与音乐展馆的深度快速定制
对于《子夜歌》吴越风情杭扇双面投影 项目 , 根据客户需求 , 语音技术团队深度快速制定了解决方案 。
客户需求:现场是一个展览馆 , 要求所有随行参观者都可以看到从录音到试听的整个过程 , 所以有以下需求:
1.投影展现展馆中录制过程;
2.在播放合成歌曲时 , 实时切换歌曲风格 。
3.需要外接投影设备及功放音箱 。
定制方案:开发一个后端服务来处理展馆的投影服务器与平板间的通信 , 使得用户在使用平板的时候 , 投影画面会有相对应的交互 。 为了让投影服务器与平板进行通信 , 我们的服务实现了以下的功能:
1.平板的每个功能都会通过websocket在局域网内与投影服务器交互 , 这样将操作实时反应在投影屏幕上;
2.针对实时切换歌曲风 , 我们采用了多线程下载技术 , 让多种风格的歌曲下载等待时间和一种风格的下载时间相差无几 , 保证了使用者的等待时间最小化;
3.合成歌曲下载结束后 , 通过web页面播放歌曲 。 平板在切换播放风格时通过websocket同步切换web端上播放的合成歌曲 。
AI歌唱合成满足虚拟形象、泛娱乐等场景应用
出门问问自研的AI歌唱合成技术 , 使用户低成本的get到歌唱的技能 , 这种形式上的创新 , 为AI歌唱增加了很多想象空间 。
●读诗成曲 , 结合非遗文物 , 通过歌曲可以使得用户更好的了解非遗文物 。
●寓教于乐 , 通过改编歌词 , 可以让学生更好的熟悉某一知识点或者原理 。
●娱乐功能 , 短视频平台用户创作的福利 , 通过自行改编歌曲 , 可以创造出不一样的歌唱场景 。
此外 , AI歌曲合成也可助力用户个性化表达 , 结合出门问问的AI配音平台魔音工坊 , 通过短视频形式 , 用户可以自由创作合成歌曲 , 感受技术给音乐带来的改变 。 人工智能技术正在悄然改变着我们聆听音乐的方式 , 生活中无处不是 AI 的 “声” 影。

    推荐阅读