猛将|AI再添猛将,全球首个知识增强千亿大模型鹏城-百度·文心发布( 二 )


据最新调研报告显示 , 在IDC 2021年上半年深度学习框架平台市场份额调研中 , 百度位列中国深度学习平台市场综合份额第一 。 百度飞桨、Google、Facebook形成鼎立格局 , 其中飞桨是市场三强中唯一国产品牌 , 并持续稳步增长 。 市场数据显示 , 飞桨企业版EasyDL连续两年保持市场排名首位 , BML百度全功能AI开发平台显现强劲增速 。
飞桨的端到端自适应分布式框架 , 实现了数据并行、模型并行、流水线并行、分组参数切片等等 , 使得超大规模的训练能够得以有效实现 , 鹏城-百度·文心模型并行效率高达90% 。
在算法上 , 为提升模型语言理解和生成能力 , 百度提出了可控学习与可信学习算法 。 在可控学习方面 , 通过将模型预测出的文本属性和原始文本进行拼接 , 构造从指定属性生成对应文本的预训练数据 , 模型通过对该数据的学习 , 实现不同类型的零样本生成能力 。 在可信学习方面 , 针对模型生成结果与真实世界的事实一致性问题 , 通过自监督的对抗训练 , 让模型学习区分数据是真实的还是模型伪造的 , 使得模型对生成结果真实性具备判断能力 , 从而让模型可以从多个候选中选择最可靠的生成结果 , 显著提升了生成结果的可信度 。

  • 最后再看数据优势 。
AI训练取决于数据量 , 数据越多训练出来的AI越聪明 。 文心大模型与众不同之处在于除了在海量无结构数据学习以外 , 还融合了大规模的知识 , 所以文心被称为知识增强大模型 。 我们知道 , 知识是做搜索起家的百度的天然优势 。 该千亿大模型学习了多源异构的大规模数据与知识 。 百度知识增强大模型能够从大规模知识和海量无结构数据中融合学习 , 学习效率更高、效果更好 , 具有良好的可解释性 。
由此可见 , 鹏城-百度·文心大模型集合了最强算力----鹏城云脑II、最强AI架构——百度飞桨、再结合知识增强这样的核心特色 , 三方面的优势相结合 , 形成了一个重磅“核武器” , 为中国AI产业军备又填了一枚筹码 。
百度知识基因成就“与众不同” 其实 , 这两年在大模型热下 , 全球几大科技巨头不断刷新大模型的数据量上线 。 2017年Transformer结构的提出 , 使得深度学习模型参数突破了1亿 , 随后模型参数一个比一个大 , 到了BERT网络模型的提出 , 使得参数量首次超过3亿规模 , GPT-3模型超过百亿 , 鹏城盘古实现千亿稠密的规模 , 而此次百度文心参数规模达到2600亿 , 相信这个记录很快也会再次刷新 。
大模型似乎没有最大、只有更大 。 事实上 , “大”只是一个相对值 。 AI的价值除了数据量大 , 还由很多方面的因素构成 , 不同大模型需要有自己的特色 。

推荐阅读