Google|谷歌推出全能扒谱AI:只要听一遍歌曲 钢琴小提琴的乐谱全有了
听一遍曲子 , 就能知道乐谱 , 还能马上演奏 , 而且还掌握“十八般乐器” , 钢琴、小提琴、吉他等都不在话下 。这就不是人类音乐大师 , 而是谷歌推出的“多任务多音轨”音乐转音符模型 MT3 。
文章图片
首先需要解释一下什么是多任务多音轨 。通常一首曲子是有多种乐器合奏而来 , 每个乐曲就是一个音轨 , 而多任务就是同时将不同音轨的乐谱同时还原出来 。
事实上 , 谷歌 MT3 在还原多音轨乐谱这件事上 , 达到了 SOTA 的结果 。谷歌已将该论文投给 ICLR 2022 。
还原多音轨乐谱
相比与自动语音识别 (ASR) , 自动音乐转录 (AMT) 的难度要大得多 , 因为后者既要同时转录多个乐器 , 还要保留精细的音高和时间信息 。
多音轨的自动音乐转录数据集更是“低资源”的 。现有的开源音乐转录数据集一般只包含一到几百小时的音频 , 相比语音数据集动辄几千上万小时的市场 , 算是很少了 。
文章图片
先前的音乐转录主要集中在特定于任务的架构上 , 针对每个任务的各种乐器量身定制 。因此 , 作者受到低资源 NLP 任务迁移学习的启发 , 证明了通用 Transformer 模型可以执行多任务 AMT , 并显著提高了低资源乐器的性能 。作者使用单一的通用 Transformer 架构 T5 , 而且是 T5“小”模型 , 其中包含大约 6000 万个参数 。
该模型在编码器和解码器中使用了一系列标准的 Transformer 自注意力“块” 。为了产生输出标记序列 , 该模型使用贪婪自回归解码:输入一个输入序列 , 将预测出下一个出现概率最高的输出标记附加到该序列中 , 并重复该过程直到结束 。
MT3 使用梅尔频谱图作为输入 。对于输出 , 作者构建了一个受 MIDI 规范启发的 token 词汇 , 称为“类 MIDI” 。
文章图片
生成的乐谱通过开源软件 FluidSynth 渲染成音频 。此外 , 还要解决不同乐曲数据集不平衡和架构不同问题 。
作者定义的通用输出 token 还允许模型同时在多个数据集的混合上进行训练 , 类似于用多语言翻译模型同时训练几种语言 。这种方法不仅简化了模型设计和训练 , 而且增加了模型可用训练数据的数量和多样性 。
推荐阅读
- 界面新闻|谷歌母公司面临环保投资者施压:修改设备维修政策以减少电子垃圾
- CNMO|魅族推出PANDAER×猫王XOG赛博音箱 机甲风拉满
- IT之家|魅族超触感透明机械键盘将于年后发售:还将推出白金独角兽键帽
- IT之家|三星Galaxy S22系列将仅搭载骁龙8 Gen 1,Exynos 2200延迟推出
- 服务|抖音针对快递派送不电联等问题推出“音尊达”服务
- Google|拆解报告:Google谷歌30W PD快充充电器G9BR1
- 尺寸|全汉推出 2400W 小尺寸电源,80 PLUS 白金牌认证
- 路由器|TP-LINK 推出 AX7800 盛世之环 Wi-Fi 6E 路由器,首发 2499 元
- 时间|Alphabet量子公司横空出世!Sandbox将与谷歌、DeepMind成姊妹
- 21世纪经济报道|荣耀推出首个高端折叠屏手机,京东方、沃特股份亮明合作关系