信息|Transformer又出新变体∞-former:无限长期记忆,任意长度上下文( 二 )



信息|Transformer又出新变体∞-former:无限长期记忆,任意长度上下文
文章图片

为了缓解损失较早记忆 resolution 的问题 。 研究者引入了「粘性记忆」的概念 , 将 LTM 新信号中的较大空间归于之前记忆信号的相关区域 。 这是一种强制重要信息在 LTM 中持续存在的过程 , 使得模型可以在不损失相关信息的情况下更好地捕捉长上下文 , 类似于大脑中的长时程增强和突触可塑性 。
实验结果
为了检验∞-former 能否建模长上下文 , 研究者首先针对一个综合任务进行了实验 , 包括把 token 按其在一个长序列中的频率进行排序 , 结果如下:

信息|Transformer又出新变体∞-former:无限长期记忆,任意长度上下文
文章图片

从图中可以看出 , 在序列长度为 4000 的时候 , transformerXL 的准确率要略高于 compressive transformer 和 ∞-former 。 这是因为 transformerXL 几乎可以在记忆中保存整个完整序列 。 但随着序列长度的增加 , transformerXL 的准确率迅速下降 , compressive transformer 和 ∞-former 变化较小 。 这表明∞-former 更擅长建模长序列 。
接下来 , 他们又进行了语言建模实验 , 包括:1)从头训练一个模型;2)微调一个预训练语言模型 。
第一个语言建模实验的结果如下表 1 所示 。 从中可以看出 , 利用长期记忆扩展模型确实会带来更好的困惑度结果 , 而且使用粘性记忆也可以在一定程度上降低困惑度 。

信息|Transformer又出新变体∞-former:无限长期记忆,任意长度上下文
文章图片

第二个语言建模实验的结果如下表 2 所示 。 该结果表明 , 通过简单地将长期记忆添加至 GPT-2 并进行微调 , 模型在 Wikitext-103 和 PG19 上的困惑度都会降低 。 这表明∞-former 具有多种用途:既可以从头开始训练模型 , 也可以用于改进预训练模型 。
【信息|Transformer又出新变体∞-former:无限长期记忆,任意长度上下文】
信息|Transformer又出新变体∞-former:无限长期记忆,任意长度上下文
文章图片

推荐阅读