8 篇论文梳理 BERT 相关模型(20)

实验时模型在 MNLI 数据集微调,在 HANS 数据集评测,结果 entailment 类型的数据点中模型都表现不错,而在 non-entailment 类型中模型表现欠佳。这一实验结果支持了作者的假设:模型过度利用了 Heuristic 信息。

8 篇论文梳理 BERT 相关模型

图23/23

图 13:模型在 HANS 数据集上的结果分析

但是作者并不十分确定这种实验结果是什么原因导致的,并提出如下猜想:

HANS 数据集太难了?不。作者让人类进行测试,发现人类在两种类型的数据中准确率分别为 77% 和 75%,远高于模型。

是模型缺乏足够的表示能力吗?不。ICLR 2019《RNNs implicitly implement tensor-product representations》给出了一定的证据,表示 RNN 足够在 SNLI 任务中已经学到一定的关于结构的信息。

那就是 MNLI 数据集并不好,缺乏足够的信号让模型学会 NLI。

推荐阅读