单体|解析全球最大中文单体模型鹏城-百度·文心技术细节_训练|文本|鹏城|框架|高性能

近日，百度与鹏城自然语言处理联合实验室重磅发布鹏城-百度·文心（模型版本号：ERNIE 3.0 Titan），该模型是全球首个知识增强的千亿AI大模型，也是目前为止全球最大的中文单体模型。
基于业界领先的鹏城实验室算力系统“鹏城云脑Ⅱ”和百度飞桨深度学习平台强强练手，鹏城-百度·文心模型参数规模超越GPT-3达到2600亿，致力于解决传统AI模型泛化性差、强依赖于昂贵的人工标注数据、落地成本高等应用难题，降低AI开发与应用门槛。目前该模型在60多项任务取得最好效果，并大幅刷新小样本学习任务基准。
鹏城-百度·文心模型如何诞生？
鹏城-百度·文心基于百度知识增强大模型ERNIE 3.0全新升级，模型参数规模达到2600亿，相对GPT-3的参数量提升50% 。
在算法框架上，该模型沿袭了ERNIE 3.0的海量无监督文本与大规模知识图谱的平行预训练算法，模型结构上使用兼顾语言理解与语言生成的统一预训练框架。为提升模型语言理解与生成能力，研究团队进一步设计了可控和可信学习算法。
在训练上，结合百度飞桨自适应大规模分布式训练技术和“鹏城云脑Ⅱ”算力系统，解决了超大模型训练中多个公认的技术难题。在应用上，首创大模型在线蒸馏技术，大幅降低了大模型落地成本。

文章图片

鹏城-百度·文心模型结构图
鹏城-百度·文心的可控和可信学习算法
在算法设计上，为进一步提升模型语言理解能力以及写小说、歌词、诗歌、对联等文学创作能力，研究团队提出了可控学习和可信学习算法。在可控学习方面，通过将模型预测出的文本属性和原始文本进行拼接，构造从指定属性生成对应文本的预训练数据，模型通过对该数据的学习，实现不同类型的零样本生成能力。用户可以将指定的体裁、情感、长度、主题、关键词等属性自由组合，无需标注任何样本，便可生成不同类型的文本。
在可信学习方面，针对模型生成结果与真实世界的事实一致性问题，鹏城-百度·文心通过自监督的对抗训练，让模型学习区分数据是真实的还是模型伪造的，使得模型对生成结果真实性具备判断能力，从而让模型可以从多个候选中选择最可靠的生成结果，显著提升了生成结果的可信度。

文章图片

高可信的可控生成预训练
高性能集群支撑鹏城-百度·文心训练
鹏城-百度·文心基于百度百舸集群初始化，并基于“鹏城云脑II”高性能集群训练。 “鹏城云脑Ⅱ”由鹏城实验室联合国内优势科研力量研发，是我国首个国产E级AI算力平台。

单体|解析全球最大中文单体模型鹏城-百度·文心技术细节

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)