自注意力中的不同的掩码介绍以及他们是如何工作的?( 三 )
注意力的前瞻掩码Look-ahead mask (前瞻掩码)最初来自 Attention is All You Need的论文 。 使用前瞻掩码的目的是一次在整个文本序列上训练模型而不是一次训练一个单词 。 原始的 Transformer 模型就是所谓的自回归模型 , 它仅使用过去的数据进行预测 。 因为最初的Transformer 是为翻译而制作的 , 所以这种类型的模型是有意义的 。 在预测翻译后的句子时 , 模型会一次预测一个单词 。 比如:
“How are you”
该模型一次将句子翻译成西班牙语:
预测1:给定“” , 模型预测下一个词是“cómo”
预测 2:给定“cómo” , 模型预测下一个词是“estás”
预测 3:给定“cómo estás” , 模型预测下一个词是“” , 表示序列的结束
如果想让模型学习这种翻译怎么办?如果一次输入一个词 , 则需要输入三次并且做三次的预测 , 这个过程非常缓慢 , 因为它需要模型的 S(序列长度)个预测才能从模型中获得单句翻译 。 但是如果将整个句子“cómo estás ...”提供给它 , 并使用巧妙的掩码技巧 , 让模型就不能向前看到未来的令牌 , 只能看到过去的令牌 。 这样 , 只需要一个推理步骤就能从模型中获得整个句子的翻译 。 这就是Look-ahead mask 的由来 , 所以我们这里将他翻译为前瞻掩码 。
使用前瞻掩码进行自注意力的公式与填充掩码相同 。 唯一的变化与掩码有关 。
前瞻掩码的矩阵在右上角有一个三角形 -∞ , 在其他地方是 0 。让我们看看这如何影响权重矩阵的 softmax 。
使用前瞻掩码的掩码查询键矩阵的 Softmax时 , 权重矩阵会得到一些有趣的结果 。第一行 aQ 仅由自身 a? 加权 。由于 a 是序列中的第一个令牌 , 因此它不应受到序列中任何其他令牌的影响 , 没有不存在其他令牌 。
在第二行 , b 同时受到 a 和 b 的影响 。由于 b 是第二个令牌 , 它应该只受第一个令牌 a 的影响 。
同理在最后一行中 , 序列中的最后一个令牌 D 受到所有其他令牌的影响 , 因为它是序列中的最后一个令牌 , 应该具有序列中所有其他令牌的上下文 。
让我们看看掩码如何影响注意力函数的输出 。
使用前瞻掩码时自注意力的最终结果 , 与权重矩阵类似 , 结果向量仅受该向量中表示的令牌之前的令牌的影响 。a 的新令牌嵌入在结果向量的第一行 。由于这个令牌只有它自己的上下文 , 它只会是它自己的组合 。
第二个令牌 b 具有 a 的上下文 , 因此结果向量是 a 和 b 的组合 。
最后一个令牌 D 具有所有其他令牌的上下文 , 因此结果向量是所有其他令牌的组合 。
矩阵结果对比为了可视化生成的矩阵有何不同 , 我将他们放在一起 , 下图是使用 no mask、padding mask 和 look-ahead mask 时的 self-attention 函数的最终结果
在多层中使用掩码最后一点要说明的是为什么要在多层中使用相同的掩码 。 如果你仔细看了矩阵就会发现 。
首先注意力函数时可以总结为从矩阵X到矩阵a的一个单一变换 。
矩阵间的自注意力变换
向量的向量之间的自注意力变换
上面已经讲过了 , 自注意力转换保留了每个向量的上下文 。 输出序列只是输入序列的形式变换 。
假设我们想要屏蔽所有PAD令牌 , 并且我们认为上面问题定义中的D 是一个PAD令牌 。那么输出 D? 仍然是一个 PAD令牌 , 只是这个令牌已经被表示为一个转换后的嵌入了 。所以任何正在进行的自注意力都需要一个掩码来确保 PAD令牌不会影响任何其他令牌 。
我们甚至可以把一个transformer想象成一系列的self-attention函数 。线性层和归一化层不会弄乱令牌之间的序列关系 , 所以在本例中可以忽略不计 。
向量的向量之间的多重自注意力转换 , 由于保留了自注意力层之间的序列 , 每个自注意力函数都需要使用相同的掩码 。在填充掩码的例子中 , 如果 掩码只用在第一个自注意力层上 , 那么序列将不受第一个自注意力层中的PAD令牌的影响 。而在所有其他层中因为缺少掩码序列将会受到PAD令牌的影响 , 这样就会产生糟糕的结果 。
总结注意力掩码本质上是一种阻止模型看我们不想让它看的信息的方法 。 这不是一种非常复杂的方法 , 但是它却非常有效 。 我希望这篇文章能让你更好地理解掩码在自注意力中的作用 , 希望以上的矩阵计算是正确的 , 如果有错误 , 欢迎指出 。
https://avoid.overfit.cn/post/1042640faa8249da92e405db1cbc3738
【自注意力中的不同的掩码介绍以及他们是如何工作的?】
推荐阅读
- 盘点NBA自毁基业的六笔交易,湖人一蹶不振,76人目光短浅
- 量子力学:人不会死去,人本身就不存在,人来自个人定义
- 来自旅行者1号和2号的数据表明,在太阳系边界处存在未知涟漪结构
- 拜仁最悔恨的一笔交易:赫内斯的自大,促成拜仁最优秀的中场,成皇马四冠王功臣
- 高手在民间!云南一小伙捡松果自制桌子,创意满满,成品惊艳众人
- 案例:孕妇追求自我不穿胸罩上班,遭无业青年惦记拖入果园酿悲剧
- “人类从鱼进化而来”被证实后,我们吃鱼,是在吃自己的祖先?
- 丈母娘要48万彩礼遭拒,女儿多年未嫁后降彩礼求娶,女婿:自私活该!
- “黑洞”是什么?“黑洞”能吸入大气层中的气体吗?
- 美女房东强拉我去相亲,不料相亲对象是她自己,她并因此赖上了我