一年前的标准已过时！Facebook推出新NLP标准测试平台( 三 )_：一年前的标准已过时！Facebook推出新

在执行基准测试之后，Superglue提供了一个单一的数字度量，总结了人工智能在完成基准测试后处理各种NLP任务的能力。

二、BERT COPA测试准确率仅有74％

根据Facebook AI，人类可以在可信的替代选择（COPA）测试上获得100％的准确率，而谷歌的BERT仅达到74％，这意味着NLP有很大的改进空间。

该研究联盟还开发了一个排行榜和PyTorch工具包，用于与SuperGLUE一起进行研究。

Facebook AI也在7月份推出了一套独立的长格式问答数据集和基准测试，这要求机器提供长而复杂的答案——这是现有算法以前从未遇到过的挑战。这个长格式问答挑战需要机器对开放式问题进行深入的回答，例如“没有大脑水母是如何工作的？”

XLNet在一些NLP任务上超过BERT

与此同时，Google在6月推出了一款名为XLNet的神经网络，该搜索巨头表示，在实际训练计算机如何在真实世界文档中显示语言方面，它比BERT更好。

一年前的标准已过时！Facebook推出新NLP标准测试平台( 三 )