8 篇论文梳理 BERT 相关模型(14)
Student 则去拟合 target Q,并且使用 soft 交叉熵损失(Cross Entropy Loss)。为什么使用 soft 交叉熵损失呢?因为有些句子的意思可能并不是绝对的,比如 “I really enjoyed the conversation with Tom" 有一定概率说的是反语,而不是 100% 的积极意思。这样能让 Student 学到更多的信息。
采用知识蒸馏后,模型在 GLUE 中的表现增长了 1%,目前排名前三。我们还可以期待 MT-DNN 机制在 XLNet 上等其他预训练模型中的表现。
对 BERT 在部分 NLP 任务中表现的深入分析
上文的 BERT 在 NLP 许多任务中都取得了耀眼的成绩,甚至有人认为 BERT 几乎解决了 NLP 领域的问题,但接下来的两篇文章则给人们浇了一盆冷水。
1. BERT 在 Argument Reasoning Comprehension 任务中的表现
Probing Neural Network Comprehension of Natural Language Arguments
推荐阅读
- 式神|阴阳师:(SSR篇)PVE向辅助式神梳理,御魂配置与阵容构建解析
- 崩坏3|崩坏3兔女郎事件后续梳理,玩家同意关国服,声优二创引争议
- 生化危机8|《生化危机 8:村庄》讲了什么?剧情故事完全梳理与背景解读
- 原神|经典游戏《豪血寺一族》关系梳理,剪不断理还乱的家族血统
- 阿轲|王者荣耀:S22更新思路梳理,版本之子已预定,阿轲胜率将猛升!
- 云计算需求提前大规模爆发,产业链公司梳理
- Berty发布gomobile-ipfs,手机端也可以直接访问IPFS网络!
- 论文查重选择合适软件需要看哪些方面
- 论文怎么免费查重找对软件才是关键
- 论文数据哪里找?这些网站不能少!