AI会话能力超越人类 CoQA挑战赛微软创新纪录( 三 )

图2/5

根据CoQA排行榜,NLP和SDRG模型取得的成绩再次刷新了记录,机器阅读理解已成功达到人类水平。

这项成就意味着Bing等搜索引擎和Cortana等智能助手与人们的互动可以通过这种模型以更自然的方式提供信息,就像人与人之间相互沟通一样。

二、微软模型如何“碾压”人类?

为了更好地测试现有模型的泛化能力,CoQA从七个不同的领域收集数据,儿童故事、文学、中学和高中英语考试、新闻、维基百科、Reddit和科学。其中前五种类型的文章用于模型的训练、开发和测试集,后两种仅用于测试集。

CoQA使用F1(统计学中衡量二分类模型精确度的指标)指标来评估性能。F1评分衡量模型系统的实际问答效果和预测情况之间的平均单词重叠。域内F1根据与训练集相同的域的测试数据进行评分;并对来自不同域的测试数据评分域外F1。总体F1是整个测试集的最终得分。

微软研究人员使用了一种训练模型的策略,模型系统从几个相关任务中学习,并将信息用于改进目标机器阅读理解(MRC)任务。

推荐阅读