AI会话能力超越人类 CoQA挑战赛微软创新纪录( 三 )
图2/5
根据CoQA排行榜,NLP和SDRG模型取得的成绩再次刷新了记录,机器阅读理解已成功达到人类水平。
这项成就意味着Bing等搜索引擎和Cortana等智能助手与人们的互动可以通过这种模型以更自然的方式提供信息,就像人与人之间相互沟通一样。
二、微软模型如何“碾压”人类?
为了更好地测试现有模型的泛化能力,CoQA从七个不同的领域收集数据,儿童故事、文学、中学和高中英语考试、新闻、维基百科、Reddit和科学。其中前五种类型的文章用于模型的训练、开发和测试集,后两种仅用于测试集。
CoQA使用F1(统计学中衡量二分类模型精确度的指标)指标来评估性能。F1评分衡量模型系统的实际问答效果和预测情况之间的平均单词重叠。域内F1根据与训练集相同的域的测试数据进行评分;并对来自不同域的测试数据评分域外F1。总体F1是整个测试集的最终得分。
微软研究人员使用了一种训练模型的策略,模型系统从几个相关任务中学习,并将信息用于改进目标机器阅读理解(MRC)任务。
推荐阅读
- 卡牌|LOL手游高分段热门中单,卡牌对于C位限制能力大,出装火炮是关键
- bang|“S赛冠军AD名次图火了”!Viper不及阿水,看到Bang后:无法超越
- 金铲铲之战|金铲铲之战:新赛季玩不转?圣盾大嘴帮你上分,输出能力一流
- |为什么很多人都说剑圣JUGG是伪核,后期能力不行!
- 打野|英雄联盟:木木带征服者,团战能力还是差!可能这件装备你没出!
- 神战权力之眼|《宝可梦》论神战下智挥猩的辅助能力,一发号令能教你做人?
- 原神|原神:胡桃的流水超越雷神?胡桃的魅力太大,看看国外玩家怎么说
- 凤求凰|最良心传说皮肤来袭,造型超越倪克斯神谕,未上线预定超百万
- iqoo|一万多的iPhone才能体验的高刷屏+长续航,被这款千元机超越了?
- 任天堂|不依赖对外收购工作室,任天堂将更着重扩大本身游戏内容开发能力