完全图解GPT-2:看完这篇就够了(二)
选自github.io
作者:Jay Alammar
机器之心编译
参与:陈韵莹、Geek AI
在本系列文章的第一部分中,我们回顾了 Transformer 的基本工作原理,初步了解了 GPT-2 的内部结构。在本文中,我们将详细介绍 GPT-2 所使用的自注意力机制,并分享只包含解码器的 transformer 模型的精彩应用。
第二部分:图解自注意力机制
在前面的文章中,我们用这张图来展示了自注意力机制在处理单词「it」的层中的应用:
图1/36
在本节中,我们会详细介绍该过程是如何实现的。请注意,我们将会以试图弄清单个单词被如何处理的角度来看待这个问题。这也是我们会展示许多单个向量的原因。这实际上是通过将巨型矩阵相乘来实现的。但是我想直观地看看,在单词层面上发生了什么。
推荐阅读
- ez|《哈利波特:魔法觉醒》测试服关于《增强剂》的不完全测试说明书
- fpx战队|为什么同样是S赛夺冠,FPX的热度,完全没法跟IG与EDG相比?
- 大话西游|大话西游2这些召唤兽的天生技能是开发组拿来凑数的吗?实际效果完全没用
- 金庸群侠传|《金庸群侠传》丹药的效果完全超乎想象,极品丹药还能自己炼制
- ag战队|英雄联盟动画片出来了,这部剧完全可以满足一个lol老玩家的心愿
- 神角技巧|神回复:世界上有77亿人,有什么事情是完全没人在做的?
- edg战队|FPX世界赛失利被淘汰,舆论指向却从doinb完全去向小天,有点水军痕迹了
- edg战队|王者荣耀:一招鲜吃遍天?1个英雄想打5个位置?掌握这几个完全可以
- 明日方舟|明日方舟:六星近卫斯卡蒂现版本被完全撕卡 SP临光彻底让其失业
- 克里斯·诺斯|原神哥BeryL旧照曝光,颜值超高,和现在完全不是一个人