完全图解GPT-2:看完这篇就够了(二)(17)

一段演奏可以被表征为一系列的 one-hot 向量。一个 MIDI 文件可以被转换成这样的格式。论文中展示了如下所示的输入序列的示例:

完全图解GPT-2:看完这篇就够了(二)

图34/36

这个输入序列的 one-hot 向量表征如下:

完全图解GPT-2:看完这篇就够了(二)

图35/36

我喜欢论文中用来展示音乐 transformer 中自注意力机制的可视化图表。我在这里加了一些注释:

完全图解GPT-2:看完这篇就够了(二)

图36/36

这段作品中出现了反复出现的三角轮廓。当前的查询向量位于后面一个「高峰」,它关注前面所有高峰上的高音,一直到乐曲的开头。图中显示了一个查询向量(所有的注意力线来源)和正要处理的以前的记忆(突出了有更高 softmax 概率的音符)。注意力线的颜色对应于不同的注意力头,而宽度对应于 softmax 概率的权重。

推荐阅读