模型|2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?( 五 )


基于大脑思考的模式 , 解决下一代人工智能的核心认知推理问题 , 是我们团队近几年最重要的目标 。 GPT-3 激发了大家投入大模型研发的巨大热情 , 但由于大模型的能耗和效率问题 , 学界又对是否一定要用大模型提出疑问 。 通过大量的实际探索 , 我们认为 , 大模型和小模型可以协同发展 , 分别承担慢思考和快思考的任务 。 云上能容纳海量知识的大模型 , 就像超级大脑 , 有能力进行慢思考 , 而在端上与大模型协同的小模型可以执行快思考 。
近年来 , 随着预训练技术在深度学习领域的飞速发展 , 预训练大模型(大模型)逐渐走进人们的视野 , 成为人工智能领域的焦点 。 大模型在文本、图像处理、视频、语音等多个 AI 领域实现较大突破进展 , 并逐渐成为 AI 的基础模型(Foundation Model) , 同时大模型也在积极与生命科学领域进行结合 , 包括在蛋白质、基因等方向取得进展 , 并在细胞分类、基因调控关系发现、细菌耐药性分析等任务中前景广阔 。 可以认为大模型是目前解决推理认知问题最先进的工具 , 不过预训练大模型还有亟待突破的几个课题 , 比如:
1、目前的主流实践是先通过训练大模型(Pretrained Model) , 得到参数规模大、精度高的模型后 , 再基于下游任务数据 , 通过剪枝、微调的方法(Finetune)将模型的体积压缩 , 在基本不损失精度的情况下减轻部署的压力 , 目前业界还没找到通用的、直接训练小型模型就能得到较满意精度的办法;
2、训练千亿、万亿模型动辄就上千张 GPU 卡 , 给大模型的推广和普惠带来了很大的挑战;
3、预训练模型 Pretrain 阶段参数量大 , 目前主要采用大量非结构化数据进行训练 , 如何与知识等结构化数据进行结合 , 让模型更加有效地实现认知推理 , 也是一个非常大的挑战 。
在解决大模型亟待突破的课题方面 , 我们做了不少尝试 , 可供业界参考 。 今年 11 月 , 我们发布了全球首个 10 万亿参数的多模态大模型 M6 , 相比去年发布的 GPT-3 , 实现同等参数模型能耗仅为其 1% , 降低了大模型实现门槛 , 推动了普惠 AI 的发展 。 今年 10 月我们对外开放的云服务化平台是目前业界覆盖下游任务最广泛的平台 , 涵盖各项单模态和跨模态的理解及生成任务 。 目前 , M6 已在阿里巴巴超 50 余个不同业务场景中应用 。
未来 , 除了通过低碳化发展绿色 AI、平台化应用推进普惠 AI 以及突破认知推理等技术外 , 我们希望大模型还能积极探索与科学应用的结合 , 潜在科学应用方向可能包括脑神经连接图谱绘制、脑机接口、透明海洋等领域 。
在形成更高效、更广泛的智能体系上 , 大小模型在云边端协同进化带来了新的可能性 。 在边端与大模型协同的小模型执行快思考方面 , 我们也进行了积极探索和规模化落地 。 大模型可以向边、端小模型的输出 , 让小模型更容易获取通用的知识与能力 , 小模型专注在特定场景做极致优化 , 提升了性能与效率;同时小模型向大模型反馈执行成效 , 解决了过去大模型数据集过于单一的问题 , 最后全社会不需要重复训练相似的大模型 , 模型可以被共享 , 算力与能源的使用效率得以最大化 。 这一模式有望构建下一代人工智能的基础设施 , 在让人工智能的通用能力进一步提升 。

推荐阅读