模型|2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?( 二 )


站在 2022 , 展望大模型的未来
清华大学计算机系教授 , 北京智源人工智能研究院学术副院长 唐杰
模型|2022前展望大模型的未来,周志华、唐杰、杨红霞这些大咖怎么看?
文章图片

2021 年 , 超大规模预训练模型(简称大模型)成为国际人工智能前沿研究和应用的热点 , 发展迅速也面临系列挑战 。 最新发布的《达摩院 2022 十大科技趋势》将 “大小模型协同进化” 列为 AI 模型发展的新方向 , 提出“大模型参数竞赛进入冷静期 , 大小模型将在云边端协同进化” , 值得业界关注 。 站在年末岁初 , 让我们一起回望大模型的 2021 , 展望它的 2022 和更远未来 。
一、超大规模预训练模型迅速发展但也面临系列挑战
2021 年 8 月 , 斯坦福大学成立基础模型研究中心(CRFM)并将 BERT、GPT-3 和 CLIP 等基于大规模数据进行训练并可以适应广泛下游任务的模型统称为 “基础模型” 。 虽然这个概念在学术界引起了不少争议 , 有学者对于模型是否具有“基础性” 提出了质疑 , 但是应该看到 , 这些模型所表现出的能够更好处理现实世界复杂性的能力 , 使得它们变得愈发重要 。
产业界持续推动大模型研发 , 并不断将模型的规模和性能推向新高 。 1 月 , OpenAI 发布大规模多模态预训练模型 DALL·E 和 CLIP , 谷歌发布 1.6 万亿规模预训练语言模型 Switch Transformer , 10 月 , 微软和英伟达发布 5300 亿规模的 Megatron-Turing 自然语言生成模型 MT-NLG 。 另外 , 大模型应用也在不断丰富 , 目前全球基于 GPT-3 的商业应用已有几百个 , 随着近期 GPT-3 全面开放 API 申请和微调功能 , GPT-3 应用生态也将加速形成 。
2021 年也是我国超大规模预训练模型发展的“元年” , 目前 , 已有智源研究院、鹏城实验室、中科院自动化所、阿里、百度、华为、浪潮等科研院所和企业研相继发出“悟道”、“盘古”、“紫东 · 太初”、M6、PLUG、ERNIE 3.0 等大模型 。
虽然国内外超大规模预训练模型取得了较大进展 , 但是同时也应认识到 , 大模型发展还有很多亟待解决的重要问题 。 例如 , 预训练模型的理论基础尚未明确(如大模型智能的参数规模极限存在吗) , 大模型如何高效、低成本的应用于实际系统;其次构建大模型需要克服数据质量、训练效率、算力消耗、模型交付等诸多障碍;最后目前大部分大模型普遍缺乏认知能力的问题 , 这也是部分学者质疑这类模型能否被称为 “基础模型” 的原因之一 。 能否通过大模型实现更通用的智能?怎么实现?这些都需要学术界和产业界不断探索 。
二、大模型打造数据与知识双轮驱动的认知智能
人工智能经过数十年的发展 , 历经符号智能、感知智能两个时代 , 目前来到第三代人工智能即认知智能的大门口 。 认知智能不仅要求基于大数据的深度学习及对应的感知识别 , 还要求机器具有认知和推理能力 , 要让机器具备与人接近的常识和逻辑 , 这就对数据与知识的融合提出了迫切需求 。

推荐阅读