8 篇论文梳理 BERT 相关模型(20)_图1

实验时模型在 MNLI 数据集微调，在 HANS 数据集评测，结果 entailment 类型的数据点中模型都表现不错，而在 non-entailment 类型中模型表现欠佳。这一实验结果支持了作者的假设：模型过度利用了 Heuristic 信息。

图23/23

图 13：模型在 HANS 数据集上的结果分析

但是作者并不十分确定这种实验结果是什么原因导致的，并提出如下猜想：

HANS 数据集太难了？不。作者让人类进行测试，发现人类在两种类型的数据中准确率分别为 77% 和 75%，远高于模型。

是模型缺乏足够的表示能力吗？不。ICLR 2019《RNNs implicitly implement tensor-product representations》给出了一定的证据，表示 RNN 足够在 SNLI 任务中已经学到一定的关于结构的信息。

那就是 MNLI 数据集并不好，缺乏足够的信号让模型学会 NLI。

8 篇论文梳理 BERT 相关模型(20)