AI会话能力超越人类 CoQA挑战赛微软创新纪录( 二 )

这也说明了,当下NLP研发正进入一个黄金时期!

一、微软再度赢得斯坦福CoQA挑战赛

CoQA是一个大规模的会话式问答数据集,这些问答数据来自不同领域的文章中,机器学习通过从这些文章中提取问答数据进行会话问答。CoQA挑战的目的,是为了衡量机器对文本的理解能力,检验机器在接近人类的对话中回答问题能力的高低。

NLP团队之前使用斯坦福SQuAD(问题答疑数据集)在CoQA领域内数据集上F1得分超过80%的模型,达到80.7%,在对话系统模型性能挑战赛中刷新最佳性能纪录。与SQuAD相比,CoQA中的问题更具会话性,答案可以是自由格式文本,以确保对话中答案的自然性。

CoQA中的会话问题形式是模仿人类的对话,但一般都很短。进行第一个问题之后的每个问题都根据第一个问题来进行问答,这使得简短问题对于机器解析更加困难。例如,假设您向系统提问,“谁是微软的创始人?”当您提出后续问题“他什么时候出生?”时,机器解析需要判断现在谈论的仍然是同一主题。

AI会话能力超越人类 CoQA挑战赛微软创新纪录

推荐阅读