信息|Transformer又出新变体∞-former：无限长期记忆，任意长度上下文( 二 )_实验|长度|-former|模型|记忆|

文章图片

为了缓解损失较早记忆 resolution 的问题。研究者引入了「粘性记忆」的概念，将 LTM 新信号中的较大空间归于之前记忆信号的相关区域。这是一种强制重要信息在 LTM 中持续存在的过程，使得模型可以在不损失相关信息的情况下更好地捕捉长上下文，类似于大脑中的长时程增强和突触可塑性。
实验结果
为了检验∞-former 能否建模长上下文，研究者首先针对一个综合任务进行了实验，包括把 token 按其在一个长序列中的频率进行排序，结果如下：

文章图片

从图中可以看出，在序列长度为 4000 的时候， transformerXL 的准确率要略高于 compressive transformer 和 ∞-former 。这是因为 transformerXL 几乎可以在记忆中保存整个完整序列。但随着序列长度的增加， transformerXL 的准确率迅速下降， compressive transformer 和 ∞-former 变化较小。这表明∞-former 更擅长建模长序列。
接下来，他们又进行了语言建模实验，包括：1）从头训练一个模型；2）微调一个预训练语言模型。
第一个语言建模实验的结果如下表 1 所示。从中可以看出，利用长期记忆扩展模型确实会带来更好的困惑度结果，而且使用粘性记忆也可以在一定程度上降低困惑度。

文章图片

第二个语言建模实验的结果如下表 2 所示。该结果表明，通过简单地将长期记忆添加至 GPT-2 并进行微调，模型在 Wikitext-103 和 PG19 上的困惑度都会降低。这表明∞-former 具有多种用途：既可以从头开始训练模型，也可以用于改进预训练模型。
【信息|Transformer又出新变体∞-former：无限长期记忆，任意长度上下文】

文章图片

信息|Transformer又出新变体∞-former：无限长期记忆，任意长度上下文( 二 )

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)