平安首创AVM自动变奏模型,探秘全球首部AI交响变奏曲背后硬核技术( 十 )

AI 编曲的数据之本

对于机器学习模型,数据是最重要的,要学会生成一般的变奏段落,就要求有海量的基本段落和变奏段落;要学会各种曲调风格特征,就要求有各种音乐标签,从而确定不同的旋律到底代表什么语义标签。平安 AI 团队表示,训练数据使用了超过 70 万首乐曲,包括各类题材的古典音乐作品、红色歌曲,以及民歌等作品。研究者用此数据集进行结构化训练,让机器学习及理解音乐重要特征。

除了乐曲的积累,平安 AI 团队表示,他们还积累了全方位的音乐数据,包括歌词、各种专家规则、多种乐器的音源、人类的声音源等声音相关的数据。只有累积了多领域、全方位的音乐数据,才能将它们组合在一起构建更优秀的模型。

多样化的音乐特征标注

有了海量的音乐数据后,这些乐曲应该经过什么样的标注才能满足训练机器学习模型的要求?

在项目中,平安 AI 团队主要从两个层面对结构化的乐曲进行标注。第一,团队需要确定训练用的乐曲表达了什么样的主题、描述了什么样的内容、呈现了什么样的情绪,并按照确定好的主题内容对对应的旋律进行标注。有了这些标注,才能向模型灌输带有语义标签的音乐数据,创造出描述故事脉络和特定主体情绪的变奏曲,这一层面的标注由音乐家和自动化的程序配合完成。

推荐阅读