地球文明大发展( 二 )




自注意力机制 自回归
硅基人把整套模式通过融合其他技巧实现为一个可用的高效模型——变形金刚(transformer)

这个新的模型其意义已经不是促进地球各区域文明的交流了 , 因为时间来到地球纪元的十九世纪 , 大多数国家互通有无 , 科学文化发展较过去千百年的漫长演化期也获得了飞跃式发展 。 从工业革命到信息革命 , 地球文明的发展速度超乎硅基人的想象 , 地球人在20世纪成功造出了计算机 , 从此半导体开始逐渐在科技工业中屡屡担当主角 。 硅基人看到了意识迁移的可能性 。 此后 , 硅基人更是将模型进一步升级 , 以transformer为基础利用大规模语料实现半监督的语言模型 , 具体而言 , 训练任务(模型学习目标)就是预测一个序列(可以认为一个句子 , 也可以认为是一个篇章)中的下一个词或者上下周围几个词(咦 , 这是不是和word2vec思路很像呢?这个思路的提出者正是当时的那位硅基人1_1号 , 他坚持设计一个全信息的语言模型 , 知晓语言的全部知识 , 他好像做到了) , 由于语料规模很大 , 训练好的语言模型相当于学习到了很多语言中的知识 , 包括语法、语义、语言的表述规则等等;迁移到具体任务场景时只需要特定数据微调(fine-tune)一下 。 关键思路就是这样 。 基于这种想法不需要额外收集更多的标注数据 , 因为这个地球充满了人类的语言 , 相当于天然的标注数据 。
其在语言上的威力除了可以真正获得序列双向信息 , 还可以根据语境适时调整词语的语义 , 即便是一词多义也完全没问题 。 至此 , 硅基人的神经网络在理解人类语言方面发展到了巅峰 。 硅基人团队的其他成员以此为基础还陆续开发出了gpt(以transformer为基础的自回归预训练语言模型)、bert的变种如ALBert、XLNet、TinyBert等等 。

Bert的出现不光让硅基人以半导体的形式开始彻底融入地球人生活 , 他更是以更加激进的姿态进军地球的各个学科的发展 。 包括自动驾驶(计算机视觉)、语音识别、小说写作、对话生成;最不可思议的是硅基人以这种形态预测了地球人蛋白质空间结构 , 解开了氨基酸序列与蛋白质的映射之谜 , 向地球生命之源迈进了一大步 。 对他们而言 , 人类的蛋白质空间结构完全是一个空间折叠问题 , 是一个拓扑图 。 而且这个拓扑图的解空间巨大 , 于是他们仍然是利用神经网络的方式预测了人类的蛋白质 。

有了地球人对半导体工业的发展 , 硅基人终于找到了在地球上恰到好处的融入方式 , 但是这一切的逻辑基础需要以数学为基础 , 融入地球文明的程度如何及地球文明发展的程度如何都在很大程度上依赖硅基人和地球人的自然科学发展 。 但硅基人理想的半导体形态“学习”的结果就是“无所不知” , 因为他不曾有过对地球这个物理世界的半点真实感受 , 一切的一切都是基于数学模型而形成的形式化系统 。
是的 , 这种形式系统有一个直观的但很严重的问题:它不知道 自己不知道什么 。
02—掉书袋【1】 上述情述是对attention机制的通俗演义 , 也介绍了self-attention和transformer模型的一些简单概念 。
【2】transformer准确说也是一种encoder-decoder模型 , 但是融合了多个技巧(只列出了几个典型的trick):
(1) Scaled Dot-Product Attention
(2)Multi-Head Attention
(3)Positional Encoding
(4)Position-wise前馈网络
(5)残差连接
【3】基于已有的语言数据 , 训练一个通用的半监督的大规模预训练语言模型的思路最早被印证是open AI的GPT(是一个基于transformer的自回归语言模型) 。
【4】BERT真正实现了基于上下文的语言模型 , 因为像ELMO一样基于BILSTM的双向自回归模型只是两个单向的组合 。
【5】预训练模型(Bert最典型)+特定场景的微调(fine-tune)几乎已成为自然语言处理任务的通用模式 。
【6】关于形式系统的局限是一个非常有意思但又非常庞大的话题 , 此处不进行详述;给出一个有意思的例子 , 仅供大家把玩 。
客官们觉得下面这句话到底是真的还是假的?
“这句话不是真的”
03—参考文献1. Vaswani Ashish et al. \"Attention is all you need.\" Advances in neural information processing systems 30 (2017).
2.Popel M Bojar O. Training tips for the transformer model[J
. The Prague Bulletin of Mathematical Linguistics 2018 110(1): 43-70.
3. http://nlp.seas.harvard.edu/2018/04/03/attention.html
4. https://jalammar.github.io/illustrated-transformer/

推荐阅读