2018 年 Top 10 影响力 AI 研究论文(15)

论文思想要点

训练一个深度双向模型,在训练过程中随机地遮蔽一定比例的输入字符。这种做法避免了在不同的训练循环中模型可以间接地看到曾经被掩蔽的字符。同时也预训练了一个句子关系模型,这个模型需要做一个二分类任务,预测句子 B 是否紧接着句子 A。这种设计让 BERT 能够更好地理解不同句子之间的关系。用大量的数据(33 亿词的语料库)训练一个非常大的模型(24 个 Transformer 模块,1024 个隐层,3.4 亿个参数)。领域内学者评价

BERT 模型标志了 NLP 领域内一个新时代的到来;简单来说,仅仅需要同时做两个无监督学习任务(「单词填空」和「猜 B 是不是在 A 后面」)就可以在许多自然语言处理任务中取得良好成绩;使用经过预训练的语言模型也成为了新的标准做法。未来可能的相关研究

在更多不同的任务上测试 BERT;测试 BERT 模型是否捕捉到了各种各样的语言现象。AI 科技评论介绍 BERT 开源代码的文章

如期而至!谷歌开源 BERT 模型源代码

点击阅读原文,查看 顶会见闻系列:从 NeurIPS 2018 看 AI 进展、观点及 2019 年趋势预测

推荐阅读