把多个聊天机器人凑一块聊天,结局会是什么?这个比赛也许有答案( 六 )

Perplexity:评估输出回复的流畅性。

Distinct:评估输出回复的多样性。

BLEU:评估输出回复相对于参考回复的 N-gram 重合度。

在决赛阶段,主办方则会采取人工评估的方式,以众包的方式对每个群聊机器人的回复在以下三个方面进行评价:

Topic:生成的回复是否符合当前群聊主题 (考虑主题)。

Fluency:生成回复的表达是否流畅,无语法错误 (考虑句子)。

Appropriateness:生成的回复是否符合人们的日常交流习惯 (考虑上下文语境)。

出于一些考虑,本次比赛中将采取匿名评测,即对外只公布参赛队伍的代号和评测成绩,不会公布参赛队伍的具体信息。

报名截止日期:8 月 28 日

按比赛通知中的要求,参赛队伍需要提供聊天机器人的接口 API,主办方将使用该接口 API 进行群聊评测。需要注意的是,接口 API 的阻塞时间为 10s,若超时未回复,则标记回复失败,多次回复失败将影响最终评测得分。

推荐阅读