8 篇论文梳理 BERT 相关模型(18)_图1

图21/23

图 11：对抗数据集以及在对抗数据集上的实验结果

为了充分证明推论的正确性，作者构造了对抗数据集（Adversarial Dataset），如上图例子所示，对于原来的结构：R and W -> C，变换成：Rand !W -> !C（这里为了方便，用！表示取反）

作者首先让模型在原 ARCT 数据集微调并在对抗数据集评测（Evaluation），结果比随机还要糟糕。后来又在对抗数据集微调并在对抗数据集评测，获得表现如上图第二个表所示。

从实验结果来看，对抗数据集基本上消除了 cue 带来的影响，让 BERT 真实地展现了其在该任务上的能力，与作者的猜想一致。

虽然实验稍显不足（如未充分说明模型是否收敛，其他模型在对抗数据集中的表现如何等），但本文给 BERT 的火热浇了一盆冷水，充分说明了 BERT 并不是万能的，我们必须冷静思考 BERT 如今取得惊人表现的真正原因。

2. BERT 在 Natural Language Inference 任务中的表现

Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language

8 篇论文梳理 BERT 相关模型(18)