8 篇论文梳理 BERT 相关模型(16)_图1

作者尝试使用 BERT 处理该任务，调整输入为 [CLS，Claim，Reason，SEP，Warrant]，通过共用的 linear layer 获得一个 logit（类似于逻辑回归），分别用 warrant0 和 warrant1 做一次，通过 softmax 归一化成两个概率，优化目标是使得答案对应的概率最大。

最终该模型在测试集中获得最高 77% 的准确率。需要说明的是，因为 ARCT 数据集过小，仅有 1210 条训练样本，使得 BERT 在微调时容易产生不稳定的表现。因此作者进行了 20 次实验，去掉了退化（Degeneration，即在训练集上的结果非常差）的实验结果，统计得到上述表格。