训练|同一模型完成多场景任务 人工智能大模型或加速技术落地

首先是要关注训练数据的质量 , 目前一些模型具有的偏见其实都是由于训练数据本身所引发的 。 第二 , 要加强对算法本身及模型内部运作机制的研究 。 此外 , 模型的训练过程中 , 要加入多模态的数据 , 通过多模态信息内在的多重关联性降低大模型“偏执”的概率 。
黄铁军 北京智源人工智能研究院院长
近日 , 美国斯坦福大学李飞飞等百余位学者联名发布《基础模型的机遇与挑战》一文 , 论述在人工智能基础模型成为趋势的环境下 , 其发展面临的机遇与挑战 。 文章指出 , 基础模型的应用使得自监督学习+预训练模型微调适配方案逐渐成为主流 , 并带来了智能体认知能力的进步 。 但同时由于基础模型的任何一点改进会迅速覆盖整个AI社区 , 其隐患在于基础模型的缺陷也会被所有下游模型所继承 。
斯坦福大学学者谈到的基础模型 , 国际上也称预训练模型 , 也被国内研究者称为大模型 。 那么 , 什么是人工智能大模型 , 与小模型相比有哪些优势?为何大模型会成为趋势 , 在行业中有哪些应用?未来又面临怎样的机遇和挑战?
像发电厂一样不断供应“智力源”
【训练|同一模型完成多场景任务 人工智能大模型或加速技术落地】大模型成了最近AI产学界刷屏率颇高的词汇 。 需要更大算力、更大数据集的大模型 , 为何可能是未来AI最好的伙伴?这要从AI开发者们的一次次挫败与碰壁说起 。
深度学习技术兴起的近10年间 , AI模型基本上是针对特定应用场景需求进行训练的小模型 。 小模型用特定领域有标注的数据训练 , 通用性差 , 换到另外一个应用场景中往往不适用 , 需要重新训练 。 另外 , 小模型的训练方式基本是“手工作坊式” , 调参、调优的手动工作太多 , 需要大量的AI工程专业人员来完成 。 同时 , 传统模型训练需要大规模的标注数据 , 如果某些应用场景的数据量少 , 训练出的模型精度就会不理想 。
“小模型的这些问题 , 导致当前AI研发整体成本较高 , 效率偏低 。 由于AI人才短缺以及成本昂贵 , 对于中小行业用户来说 , 小模型的这些问题阻碍了行业用户采用人工智能技术的脚步 , 成为AI普惠的障碍 。 ”北京智源人工智能研究院院长黄铁军在接受科技日报采访人员采访时指出 。
虽然 , 之前全球呈现“千村万户大炼模型”的热闹场面 , 但这种“自家炼钢自己用”的作坊方式显然不符合现代产业发展规律 。
黄铁军进一步解释道:“大模型可以解决这些问题 , 其泛化能力强 , 可以做到‘举一反三’ , 同一模型利用少量数据进行微调或不进行微调就能完成多个场景的任务 , 中小企业可以直接调用 , 不需要招聘很多AI算法专业人员就能进行应用开发 , 显著降低中小企业的研发门槛 , 促进AI技术落地 。 ”

推荐阅读