AI研究人员推出更严格的SuperGLUE语义理解基准测试( 二 )
发展到现在的 SuperGLUE,它能够评估比 GLUE 更复杂的任务表现,鼓励构建能够账务更复杂或细微差别的语义理解模型。
据悉,GLUE 能够根据 AI 对自然语言理解(NLU)系统给出的九个英语短句的识别处理表现,而给出该模型的分值,比如在线影视评论数据集中提取情感细节的斯坦福情感树库(SST-2)。
目前 RoBERTa 在 GLUE 基准测试数据库中的得分为榜上第一,但 9 项 GLUE 任务中拿到了 4 项最高分。不过 SuperGLUE 包含了在一系列困难的 NLP 任务中测试创造性解决方案的新方法。
Facebook AI 研究人员在一篇博客文章中称:这些任务侧重于机器学习在诸多核心领域的创新,包括高效采样、转运、多任务、以及自我监督学习。
为向其他研究人发出挑战,SuperGLUE 选择了各种形式的任务、更加细致的问题、尚未被最先进方案所解决的内容、以及很容易被人类理解的题目。
简而言之,新基准测试包括了八项任务,用于测试 AI 语义理解模型是否遵循基本的因果关系、或者是否在做阅读理解时出现了偏差。
推荐阅读
- 地下城与勇士|DNF即将推出手游,已进入倒计时,炽天使觉醒将更名光明颂唱者
- nest|自走棋出现近3年之后,Supercell推出了自己的自走棋新品
- 新世界|游戏推出一个多月就在研究合服,《新世界》如今情况如何?
- 永劫无间|《永劫无间》新英雄\岳山\在测试服推出,游戏性能进一步提升
- 大话西游|大话西游2近几年推出的新玩法效果如何?基本和普通玩家无关
- 王者荣耀|魔兽世界:新总裁要让WOW重新伟大!9.15推出超多良心改动
- 镇魔曲|网易爆款游戏《镇魔曲》
- 史诗之路|DNF:神话自选来了!策划推出“超级深渊”,欧皇可获得全身红10
- 蓝洞|跌落神坛?蓝洞耕耘四年推出吃鸡后新作,画面却像网页小游戏
- 逆水寒|世纪佳缘名声坐实后,逆水寒又对标QQ?推出隐身功能引玩家热议