8 篇论文梳理 BERT 相关模型(16)

作者尝试使用 BERT 处理该任务,调整输入为 [CLS,Claim,Reason,SEP,Warrant],通过共用的 linear layer 获得一个 logit(类似于逻辑回归),分别用 warrant0 和 warrant1 做一次,通过 softmax 归一化成两个概率,优化目标是使得答案对应的概率最大。

最终该模型在测试集中获得最高 77% 的准确率。需要说明的是,因为 ARCT 数据集过小,仅有 1210 条训练样本,使得 BERT 在微调时容易产生不稳定的表现。因此作者进行了 20 次实验,去掉了退化(Degeneration,即在训练集上的结果非常差)的实验结果,统计得到上述表格。

8 篇论文梳理 BERT 相关模型

图20/23

表 6:作者的探索性实验(Probing Experiments)

虽然实验结果非常好,但作者怀疑:这究竟是 BERT 学到了需要的语义信息,还是只是过度利用了数据中的统计信息,因此作者提出了关于 cue 的一些概念:

A Cue's Applicability:在某个数据点 i,label 为 j 的 warrant 中出现但在另一个 warrant 中不出现的 cue 的个数。

推荐阅读