AI|Cerebras打破在单个设备上训练大规模AI模型的纪录
作为世上最大加速器芯片 CS-2 Wafer Scale Engine 背后的公司 , Cerebras 刚又宣布了另一个里程碑 —— 在单个设备上完成了目前最大的自然语言处理(NLP)人工智能模型的训练 。此前也有人尝试在智能手表这样的可穿戴设备设备上训练 AI 模型 , 但 Cerebras 这次又将参数提升到了 20 亿的量级 。
文章图片
Wafer Scale Engine-2 晶圆级芯片资料图(来自:Cerebras)
本次演示使用了 OpenAI 的 120 亿参数 DALL-E , 且所有工作负载无需扩展到横跨多个加速器的平台上去完成 , 从而极大地降低了对基础设施和软件的复杂性要求 。
文章图片
不过需要指出的是 , 单个 CS-2 系统本身就已经可以媲美超算 —— 7nm 单晶圆(通常可容纳数百枚主流芯片) , 拥有惊人的 2.6 万亿个晶体管、85 万个内核、40GB 集成缓存 , 且封装功耗高达 15kW。
文章图片
Cerebras 尝试在单个芯片上保留多达 200 亿个参数的 NLP 模型 , 以显著降低数以千计的 GPU 训练成本、扩展所需的相关硬件需求 , 并且消除了在它们之间划分模型的技术难度 。
文章图片
Cerebras 指出 , 这也是常规 NLP 工作负载的痛点之一 , 有时动辄需要耗费数月时间才能完成 。
文章图片
由于高度定制 , 每个正在处理的神经网络、GPU 规格、以及将它们联系到一起的网络 , 都是独一无二的 —— 这些元素必须在初次训练前就搞定 , 且无法做到跨系统移植 。
文章图片
至于 OpenAI 的 GPT-3 自然预览处理模型 , 它有时已经能够编写出让你误以为是真人所撰写的整篇文章 , 且具有 1750 亿个惊人的参数 。
文章图片
不过 DeepMind 在 2021 年底推出的 Gopher , 已将这个数字大幅提升到了 2800 亿 , 且 Google Brain 甚至宣布训练了一个超万亿参数的 Switch Transformer 模型 。
文章图片
Cerebras 首席执行官兼联合创始人 Andrew Feldman 表示:更大的 NLP 模型 , 意味着它的准确度也更高 。
文章图片
但通常只有极少数公司拥有如此庞大的必要资源和专业知识 , 来分解这些大型模型、并将之分散到数百、或数千个 GPU 上去艰苦运算 。
文章图片
正因如此 , 我们只看到过极少数公司能够训练大型 NLP 模型 —— 这对行业内的其他人来说过于昂贵、耗时、且难以使用 。
文章图片
今天 , Cerebras 很自豪地宣布普及了 GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B 和 GPT-NeoX 20B , 让整个 AI 生态系统都能够在几分钟内建立大型模型、并在单个 CS-2 平台上展开训练 。
文章图片
【AI|Cerebras打破在单个设备上训练大规模AI模型的纪录】不过与 CPU 领域类似 , 主频只是衡量性能的其中一项指标 。比如 Chinchilla 就尝试通过使用更少的参数(700 亿个) , 得出了较 GPT-3 和 Gopher 更好的结果 。
推荐阅读
- Apple|苹果将在iOS反垃圾邮件功能中展示经过验证的品牌标识
- TSMC|消息称台积电主要客户在排队等待3nm制程工艺产能
- the|因房屋广告存在歧视行为 Meta被罚11.5万美元
- IT|宁德时代证实现代起亚将抛弃LG 在韩国本土改用中国电池
- 人物|大学女生在自动售货机冰镇自己的饮料 一进一出被扣两次钱
- 人物|马斯克称媒体充斥特斯拉负面报道:因为我们不做广告
- Intel|在Intel芯片工厂当打工人待遇如何?年薪平均90万元
- 数字货币|NFT侵权第一案:Bigverse错在何处?
- 警告!|微软在新报告中揭示了俄乌冲突期间的网络战细节
- Linux|在任天堂Wii U上启用Linux的新版补丁发布