自注意力中的不同的掩码介绍以及他们是如何工作的?( 二 )
但是本文中是讨论的掩码遮蔽 , 这时等式就有点不同了 , 我将在接下来的部分中解释 。
首先QK?矩阵计算如下 。
看很复杂 , 但是这个其实是由Q和K转置相乘得到的矩阵 , 我们可以把它化简成向量积的形式 。 并且令牌行和列 , 这样以帮助可视化矩阵表示的内容 。
这样是不是就好很多了 , 每个值基本上都乘以另一个值 , 包括矩阵中的自己 。 这个值表示当将V应用到这个矩阵时V中的每个分量将得到多少权重 。
不带掩码的注意力在学习如何掩码注意力之前 , 我们首先需要查看没有掩码的注意力是如何工作的 。
计算序列注意力的下一步是对QK?矩阵应用softmax函数 。 那么就出现了一个问题 , softmax应该应用在什么维度上?在论文提出的自注意力中 , softmax函数应用于每一行 。
在没有掩码的情况下 , softmax函数只是一个归一化函数 。 所以为了减少可视化的复杂度 , 我们可以不在这个矩阵中表示它 。
现在只剩下最后一步了 , 将QK?矩阵乘以V矩阵 。 QK?矩阵与V矩阵乘积就得到了子注意力计算的结果 。
矩阵中的每个编码是QK?矩阵中的值和权重的线性组合 。 实际上得到的矩阵中的每一行都是QK?矩阵中的相应行和V矩阵中的相应列的线性组合 。 不带掩码的注意力模块的输出可以理解为让每个令牌注意所有其他令牌 。 这意味着每一个令牌对所有其他令牌都有影响 。
对得到的矩阵也重新格式化一下:
QK?矩阵与V矩阵乘积的向量表示 , 注意力转换本质上产生了一组新的向量 , 序列中的每个单词对应一个向量 。
注意力的填充掩码在使用填充掩码(padding mask)计算注意力之前 , 我们需要将掩码 M 添加到等式中:
我们已经有了QK?和V , 但是M是什么样的呢?我们的序列是
\" a b c D \"
用一个更实际的例子替换这些任意:
I like coffee <PAD>
注意这里有一个PAD令牌 。 这个令牌出现的原因是 , 句子的长度是变化的而矩阵并不能处理不同的大小 。 所以为了把很多句子放在一起作为一批处理 , 可以在较短句子中添加令牌 , 使所有句子的长度相同 。
但是使用PAD令牌的一个问题是PAD成为句子中最频繁出现的部分 。 而训练时模型会注意到这一点 , 并错误的认为PAD是句子的基础 , 这样就会产生很多问题 。
为了防止模型对 PAD令牌进行建模 , 我们可以通过找到 QK? 矩阵中PAD位置并进行屏蔽的方法来实现 。如上例所示 , D 是一个PAD令牌 , 如果我们想要屏蔽它则需要使用与 QK? 具有相同维度的掩码 , 并在表示在要掩码的列上使用 -∞ 。M矩阵将如下所示:
填充掩码的矩阵表示中 D? 列是被屏蔽的 , 但 DQ 行不是 。下一步是将M添加到QK?
任何数值与-∞ 相加结果都变为 -∞ , 所以结果列 D? 是 -∞ 列 。那么当 softmax 应用于矩阵时会发生什么?
Softmax后D?都是0 , 基本上不会影响权重矩阵中其他值的权重 。这里的D 不是其他行的一部分 , 而是仅在其自己的 DQ 行中 。这里我们不会担心非∞ 值的 softmax, 因为该函数只是起到归一化的作用 。最后让我们看看将权重矩阵乘以 V 矩阵时得到的矩阵的样子 。
通过将屏蔽QK?矩阵与V矩阵相乘得到最终的自注意力结果 , 让我们仔细看看最终的矩阵 。
结果矩阵中的每一行如何没有 D? 分量 。 所以D对任何其他元素都没有影响 , 这意味着任何PAD令牌(这里的D)对序列的其余部分都没有影响 。 这就是使用对填充进行掩码的原因:不希望它影响序列中的任何其他令牌 。
那么DQ 呢 , 它仍然存在并且没有被遮蔽掉 。 这是因为如果 DQ 被屏蔽了 , 矩阵中的 DQ 向量将在应用 softmax 变换后产生一个均匀值的向量 , 也就是说 DQ 将丢失它之前拥有的所有信息 。 而我们进行掩码遮蔽的目的不是完全去除 D 的所有信息而是让它不影响其他令牌 。 所以在结果矩阵中仍然需要关于 D 的信息 , 也就是说我们要告诉模型的是那里有一个PAD令牌 , 我们只希望PAD令牌不与其他的令牌令牌产生影响 , 但是PAD令牌的位置和信息模型还是要知道的 。
那么如果同时屏蔽了 DQ 和 D? , 生成的矩阵将如下所示:
填充掩码同时覆盖DQ和D?时的结果可以看到 , 由于 DQ 和 D? 是常数 , 因此它们不会对结果增加太多 。但是矩阵最后一部分的结果向量只是 V 的 1/4 加权分量的组合 。这会导致 D 丢失其自身的所有信息 , 这也意味着结果向量中 D 的新表示将是 D 的的一个糟糕的表示方式 。
推荐阅读
- 盘点NBA自毁基业的六笔交易,湖人一蹶不振,76人目光短浅
- 量子力学:人不会死去,人本身就不存在,人来自个人定义
- 来自旅行者1号和2号的数据表明,在太阳系边界处存在未知涟漪结构
- 拜仁最悔恨的一笔交易:赫内斯的自大,促成拜仁最优秀的中场,成皇马四冠王功臣
- 高手在民间!云南一小伙捡松果自制桌子,创意满满,成品惊艳众人
- 案例:孕妇追求自我不穿胸罩上班,遭无业青年惦记拖入果园酿悲剧
- “人类从鱼进化而来”被证实后,我们吃鱼,是在吃自己的祖先?
- 丈母娘要48万彩礼遭拒,女儿多年未嫁后降彩礼求娶,女婿:自私活该!
- “黑洞”是什么?“黑洞”能吸入大气层中的气体吗?
- 美女房东强拉我去相亲,不料相亲对象是她自己,她并因此赖上了我