中英文|超越Facebook，谷歌、微软，百度发布全球首个百亿参数对话预训练生成模型( 二 )_模型|训练|效果|规模|对话|开放

文章图片

PLATO-XL 模型：更高参数性价比，大幅提升训练效果
PLATO-XL 网络架构上承袭了 PLATO unified transformer 结构，可同时进行对话理解和回复生成的联合建模，参数性价比很高。通过灵活的注意力机制，模型对上文进行了双向编码，充分利用和理解上文信息；对回复进行了单向解码，适应回复生成的 auto-regressive 特性。此外， unified transformer 结构在对话上训练效率很高，这是由于对话样本长短不一，训练过程中 padding 补齐会带来大量的无效计算， unified transformer 可以对输入样本进行有效的排序，大幅提升训练效率。

文章图片

为了进一步改善对话模型有时候自相矛盾的问题， PLATO-XL 引入了多角色感知的输入表示，以提升多轮对话上的一致性。对话模型所用的预训练语料大多是社交媒体对话，通常有多个用户参与，表述和交流一些观点和内容。在训练时，模型较难区分对话上文中不同角度的观点和信息，容易产生一些自相矛盾的回复。针对社交媒体对话多方参与的特点， PLATO-XL 进行了多角色感知的预训练，对多轮对话中的各个角色进行清晰区分，辅助模型生成更加连贯、一致的回复。
PLATO-XL 包括中英文 2 个对话模型，预训练语料规模达到千亿级 token ，模型规模高达 110 亿参数。 PLATO-XL 也是完全基于百度自主研发的飞桨深度学习平台，利用了飞桨 FleetX 库的并行能力，使用了包括 recompute、sharded data parallelism 等策略，基于高性能 GPU 集群进行了训练。
【中英文|超越Facebook，谷歌、微软，百度发布全球首个百亿参数对话预训练生成模型】PLATO-XL 效果：多种类型、多种任务，对话效果全面领先
为了全面评估模型能力， PLATO-XL 与当前开源的中英文对话模型进行了对比，评估中采用了两个模型针对开放域进行相互对话（self-chat）的形式，然后再通过人工来评估效果。 PLATO-XL 与脸书 Blender、微软 DialoGPT、清华 EVA 模型相比，取得了更优异的效果，也进一步超越了之前 PLATO-2 取得的最好成绩。此外， PLATO-XL 也显著超越了目前主流的商用聊天机器人。

文章图片

除了开放域闲聊对话，模型也可以很好的支持知识型对话和任务型对话，在多种对话任务上效果全面领先。

文章图片

PLATO 系列涵盖了不同规模的对话模型，参数规模从 9300 万到 110 亿。下图可以看出，模型规模扩大对于效果提升也有显著作用，呈现较稳定的正相关关系。

中英文|超越Facebook，谷歌、微软，百度发布全球首个百亿参数对话预训练生成模型( 二 )

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)