把多个聊天机器人凑一块聊天,结局会是什么?这个比赛也许有答案( 五 )

具体详情:

群聊主题

在任务中,主办方会给定群聊主题,在每个主题下进行轮对话 (N 表示参与群聊机器人总数)。其中,主题包括但不限于医疗、交通、教育、金融等。

轮转策略

在某个群聊主题下,主办方将按一定策略初始化机器人回复顺序,确保所有机器人的回复优先级总体相同。而在其他群聊主题中,主办方将多次轮番调换机器人回复顺序,以保证最终评分环境的公平性。

消息决策

在评测任务中,当主办方向每个机器人请求回复时,会提供当前群聊主题和历史消息记录。参赛队伍需要根据群聊主题和历史消息记录进行相关决策,以生成合理的回复。

赛果评价方面,届时会分为初赛 & 决赛两个阶段。在初赛阶段,主办方将采取自动评价指标对参赛队伍进行评价,机器人在群聊中的性能表现将会作为排名依据,这些指标包括:

Topic:评估输出回复和群聊主题的相关程度。

推荐阅读