把多个聊天机器人凑一块聊天，结局会是什么？这个比赛也许有答案( 六 )_雷锋网AI科技评论按：从苹果Siri到亚马

Perplexity：评估输出回复的流畅性。

Distinct：评估输出回复的多样性。

BLEU：评估输出回复相对于参考回复的 N-gram 重合度。

在决赛阶段，主办方则会采取人工评估的方式，以众包的方式对每个群聊机器人的回复在以下三个方面进行评价：

Topic：生成的回复是否符合当前群聊主题 (考虑主题)。

Fluency：生成回复的表达是否流畅，无语法错误 (考虑句子)。

Appropriateness：生成的回复是否符合人们的日常交流习惯 (考虑上下文语境)。

出于一些考虑，本次比赛中将采取匿名评测，即对外只公布参赛队伍的代号和评测成绩，不会公布参赛队伍的具体信息。

报名截止日期：8 月 28 日

按比赛通知中的要求，参赛队伍需要提供聊天机器人的接口 API，主办方将使用该接口 API 进行群聊评测。需要注意的是，接口 API 的阻塞时间为 10s，若超时未回复，则标记回复失败，多次回复失败将影响最终评测得分。

把多个聊天机器人凑一块聊天，结局会是什么？这个比赛也许有答案( 六 )