腾讯提出NumNet+模型,超越谷歌登DROP排行榜第一名( 十 )

这些是基于阅读理解下一步会去关注的问题。

至于这一年来最大的突破是什么?最近这一年来大家反反复复都在证明一件事情,预训练模型对于很多自然语言处理任务、包括阅读理解上,会带来非常大的提升。预训练模型,通过在大规模文本上的合适训练,是可以学到很多隐性的知识。预训练模型的提出,使得用一个很简单的方法都可以超过前两年大家花很多时间和精力研究各种复杂的阅读理解模型。这是大家一年来在机器阅读上最大的改变。

新智元:请您展望一下机器阅读理解的发展趋势,您预测还有多少年 AI 可以达到人类的阅读理解水平,甚至超越人类?

至于机器阅读什么时候超越人类?这是非常难预测的,我只能说在特定条件下的阅读理解相关问题,机器是有可能会在很短时间之内,甚至有些当前就已经能够超越人类,或者至少普通人类的结果。如果想在不加任何限制条件下机器阅读超越人类,这个时间会挺长的,可能是几年或是几十年。

大家有没有关注到 RACE 数据集,有学者把中考和高考英语考试选择型阅读理解题目都收集起来做成数据集,我们在年初的时候首次基于预训练模型实现在高中题目上用机器超越了众包人类做出来的效果。截至目前为止,不管初中题目也好,还是高中题目也好,基于预训练模型再加一些改造,目前已经全面超越了人类的水平。这也是印证了我刚才说的意思,如果在一个限定条件下阅读理解的问题,那么可能机器就能够在短期的将来就有可能超过,但是全面超越这件事目前说不好。

推荐阅读