近日 , 百度与鹏城自然语言处理联合实验室重磅发布鹏城-百度·文心(模型版本号:ERNIE 3.0 Titan) , 该模型是全球首个知识增强的千亿AI大模型 , 也是目前为止全球最大的中文单体模型 。
基于业界领先的鹏城实验室算力系统“鹏城云脑Ⅱ”和百度飞桨深度学习平台强强练手 , 鹏城-百度·文心模型参数规模超越GPT-3达到2600亿 , 致力于解决传统AI模型泛化性差、强依赖于昂贵的人工标注数据、落地成本高等应用难题 , 降低AI开发与应用门槛 。 目前该模型在60多项任务取得最好效果 , 并大幅刷新小样本学习任务基准 。
鹏城-百度·文心模型如何诞生?
鹏城-百度·文心基于百度知识增强大模型ERNIE 3.0全新升级 , 模型参数规模达到2600亿 , 相对GPT-3的参数量提升50% 。
在算法框架上 , 该模型沿袭了ERNIE 3.0的海量无监督文本与大规模知识图谱的平行预训练算法 , 模型结构上使用兼顾语言理解与语言生成的统一预训练框架 。 为提升模型语言理解与生成能力 , 研究团队进一步设计了可控和可信学习算法 。
在训练上 , 结合百度飞桨自适应大规模分布式训练技术和“鹏城云脑Ⅱ”算力系统 , 解决了超大模型训练中多个公认的技术难题 。 在应用上 , 首创大模型在线蒸馏技术 , 大幅降低了大模型落地成本 。
文章图片
鹏城-百度·文心模型结构图
鹏城-百度·文心的可控和可信学习算法
在算法设计上 , 为进一步提升模型语言理解能力以及写小说、歌词、诗歌、对联等文学创作能力 , 研究团队提出了可控学习和可信学习算法 。 在可控学习方面 , 通过将模型预测出的文本属性和原始文本进行拼接 , 构造从指定属性生成对应文本的预训练数据 , 模型通过对该数据的学习 , 实现不同类型的零样本生成能力 。 用户可以将指定的体裁、情感、长度、主题、关键词等属性自由组合 , 无需标注任何样本 , 便可生成不同类型的文本 。
在可信学习方面 , 针对模型生成结果与真实世界的事实一致性问题 , 鹏城-百度·文心通过自监督的对抗训练 , 让模型学习区分数据是真实的还是模型伪造的 , 使得模型对生成结果真实性具备判断能力 , 从而让模型可以从多个候选中选择最可靠的生成结果 , 显著提升了生成结果的可信度 。
文章图片
高可信的可控生成预训练
高性能集群支撑鹏城-百度·文心训练
鹏城-百度·文心基于百度百舸集群初始化 , 并基于“鹏城云脑II”高性能集群训练 。 “鹏城云脑Ⅱ”由鹏城实验室联合国内优势科研力量研发 , 是我国首个国产E级AI算力平台 。
推荐阅读
- 最新消息|世界单体容量最大漂浮式光伏电站在德州并网发电
- 测试|图森未来完成全球首次无人驾驶重卡在公开道路的全无人化测试
- 选型|数据架构选型必读:2021上半年数据库产品技术解析
- ASUS|华硕预热ROG Flow Z13:称其是“全球最强悍的游戏平板”
- MateBook|深度解析:华为MateBook X Pro 2022的七大独家创新技术
- IT|全球汽车行业价值两年突增至3万亿美元 中国电动车企立大功
- IT|全球供应25亿剂疫苗 科兴上半年营收110亿美元
- IT|全球每日新增确诊病例首超100万例 世卫:两大毒株正掀起“疫情海啸”
- Tesla|特斯拉在美国召回约47.5万辆汽车 接近其去年全球交付总量
- 堆芯|全球首座,世界领跑!