完全图解GPT-2：看完这篇就够了（二）(17)

2019-08-26

一段演奏可以被表征为一系列的 one-hot 向量。一个 MIDI 文件可以被转换成这样的格式。论文中展示了如下所示的输入序列的示例：

图34/36

这个输入序列的 one-hot 向量表征如下：

图35/36

我喜欢论文中用来展示音乐 transformer 中自注意力机制的可视化图表。我在这里加了一些注释：

图36/36

这段作品中出现了反复出现的三角轮廓。当前的查询向量位于后面一个「高峰」，它关注前面所有高峰上的高音，一直到乐曲的开头。图中显示了一个查询向量（所有的注意力线来源）和正要处理的以前的记忆（突出了有更高 softmax 概率的音符）。注意力线的颜色对应于不同的注意力头，而宽度对应于 softmax 概率的权重。

推荐阅读

上一篇：做产品时，如何利用人性8大弱点？

下一篇：用Attention玩转CV，一文总览自注意力语义分割进展