AI会话能力超越人类 CoQA挑战赛微软创新纪录( 二 )_智东西（公众号：zhidxcom）文|轩窗王

这也说明了，当下NLP研发正进入一个黄金时期！

一、微软再度赢得斯坦福CoQA挑战赛

CoQA是一个大规模的会话式问答数据集，这些问答数据来自不同领域的文章中，机器学习通过从这些文章中提取问答数据进行会话问答。CoQA挑战的目的，是为了衡量机器对文本的理解能力，检验机器在接近人类的对话中回答问题能力的高低。

NLP团队之前使用斯坦福SQuAD（问题答疑数据集）在CoQA领域内数据集上F1得分超过80%的模型，达到80.7%，在对话系统模型性能挑战赛中刷新最佳性能纪录。与SQuAD相比，CoQA中的问题更具会话性，答案可以是自由格式文本，以确保对话中答案的自然性。

CoQA中的会话问题形式是模仿人类的对话，但一般都很短。进行第一个问题之后的每个问题都根据第一个问题来进行问答，这使得简短问题对于机器解析更加困难。例如，假设您向系统提问，“谁是微软的创始人？”当您提出后续问题“他什么时候出生？”时，机器解析需要判断现在谈论的仍然是同一主题。

AI会话能力超越人类 CoQA挑战赛微软创新纪录( 二 )