中英文|超越Facebook,谷歌、微软,百度发布全球首个百亿参数对话预训练生成模型

机器之心发布
机器之心编辑部

和 AI 进行无障碍的对话 , 是什么样的体验?你或许能够在这篇文章里找到答案!百度全新发布 PLATO-XL , 参数达到了 110 亿 , 超过之前最大的对话模型 Blender , 是当前最大规模的中英文对话生成模型 , 并再次刷新了开放域对话效果 。

中英文|超越Facebook,谷歌、微软,百度发布全球首个百亿参数对话预训练生成模型
文章图片

很难相信 , 以上是 AI 与人交流的真实对话记录 。 近日 , 百度发布新一代对话生成模型 PLATO-XL , 一举超过 Facebook Blender、谷歌 Meena 和微软 DialoGPT , 成为全球首个百亿参数中英文对话预训练生成模型 , 再次刷新了开放域对话效果 , 打开了对话模型的想象空间 。
尽管大规模参数的模型在自然语言处理领域如雨后春笋出现 , 并且在多个自然语言理解和生成任务上取得了很多成果 , 但多轮开放域对话的主动性和常识性问题一直无法很好解决 。 百度 NLP 于 2019 年 10 月预发布了通用领域的对话生成预训练模型 PLATO , 在 ACL 2020 正式展示 。 2020 年升级为超大规模模型 PLATO-2 , 参数规模扩大到 16 亿 , 涵盖中英文版本 , 可就开放域话题深度畅聊 。 如今 , 百度 全新发布 PLATO-XL , 参数规模首次突破百亿达到 110 亿 , 是当前最大规模的中英文对话预训练生成模型 。
  • 论文名称 : PLATO-XL: Exploring the Large-scale Pre-training of Dialogue Generation
  • 论文地址:https://arxiv.org/abs/2109.09519
PLATO-XL , 全球首个百亿参数对话预训练生成模型
让机器进行像人一样有逻辑、有知识、有情感的对话 , 一直是人机智能交互的重要技术挑战;另一方面 , 开放域对话能力是实现机器人情感陪伴、智能陪护、智能助理的核心 , 被寄予了很高的期望 。
预训练技术大幅提升了模型对大规模无标注数据的学习能力 , 如何更高效、充分的利用大规模数据提升开放域对话能力 , 成为主流的研究方向 。
从谷歌 Meena、脸书 Blender 到百度 PLATO , 开放域对话效果不断提升 。 在全球对话技术顶级比赛 DSTC-9 上 , 百度 PLATO-2 创造了一个基础模型取得 5 项不同对话任务第一的历史性成绩 。
如今 , 百度发布 PLATO-XL , 参数达到了 110 亿 , 超过之前最大的对话模型 Blender(最高 94 亿参数) , 是当前最大规模的中英文对话生成模型 , 并再次刷新了开放域对话效果 。
百度 PLATO 一直有其独特的从数据到模型结构到训练方式上的创新 。 PLATO-1 ,PLATO-2 不仅刷新了开放域对话效果 , 也具有非常好的参数性价比 , 即在同等参数规模下效果超越其他模型 。 PLATO-XL 在参数规模达到新高的同时 , 其对话效果也不出意外地再次达到新高 。 下面 , 我们将展开介绍 PLATO-XL 模型的核心技术特点 。

推荐阅读