8 篇论文梳理 BERT 相关模型(21)

2019-09-09

因此作者在训练集中加入了一定的 HANS 数据，构造了 MNL + 数据集，让模型在该数据集微调，最终获得了如上图所示的结果。为了证明 HANS 对模型学到 NLI 的贡献，作者还让在 MNL + 上微调的模型在另一个数据集中做了评测，模型表现都有提升。

总结

本文总结了 BERT 提出以来一些最新的发展。

BERT 是一个优秀的预训练模型，它的预训练思想可以用来改进其他模型。BERT 可以更好，我们可以设置新的训练方式和目标，让其发挥更大的潜能。

但 BERT 并没有想象中的那么好，我们必须冷静对待 BERT 在一些任务中取得不错表现的原因 —— 究竟是因为 BERT 真正学到了对应的语义信息，还是因为数据集中数据的不平衡导致 BERT 过度使用了这样的信号。

版权声明：本文仅代表作者观点，不代表手机腾讯网立场。版权归自媒体所有，未经许可不得转载。

推荐阅读

上一篇：NeurIPS 2019论文盘点：谷歌系最多，国内清华第一

下一篇：非数据分析的16条建议，给抖音