8 篇论文梳理 BERT 相关模型(17)

A Cue's Productivity:在某个数据点 i,label 为 j 的 warrant 中出现但在另一个 warrant 中不出现,且这个数据点的正确 label 是 j,占所有上一种 cue 的比例。直观来说就是这个 cue 能被模型利用的价值,只要这个数据大于 50%,那么我们就可以认为模型使用这个 cue 是有价值的。

A Cue's Coverage:这个 cue 在所有数据点中出现的次数。

这样的 cue 有很多,如 not、are 等。如上图表一所示是 not 的出现情况,可以看出 not 在 64% 的数据点中都有出现,并且模型只要选择有 not 出现的 warrant,正确的概率是 61%。

作者怀疑模型学到的是这样的信息。如果推论成立,只需输入 warrant,模型就能获得很好的表现。因此作者也做了上图表二所示的实验。

可以看出,只输入 w 模型就获得了 71% 的峰值表现,而输入(R,W)则能增加 4%,输入(C,W)则能增加 2%,正好 71%+4%+2%=77%,这是一个很强的证据。

8 篇论文梳理 BERT 相关模型

推荐阅读