徐波|专访中科院自动化所所长徐波:构建紫东太初——全球首个三模态大模型,类人智能的大门正在打开


徐波|专访中科院自动化所所长徐波:构建紫东太初——全球首个三模态大模型,类人智能的大门正在打开
文章图片

以下是专访实录:
观察者网:我们看到 , 中国目前在人工智能技术研发投入上可谓是不遗余力 , 作为人工智能行业专家 , 您认为持续探索人工智能技术创新之路 , 对整个产业和社会发展的意义是什么?
徐波:人工智能在本质上是一种赋能技术 。 随着社会的持续发展和进步 , 人工智能作为社会经济生活的“发动机” , 无处不在的推动着多个行业的智能化发展 。 人工智能在不断与行业进行融合创新的同时 , 会出现多种形态的变化 , 呈现出百花齐放的现象 。
人工智能作为新一轮技术革命和产业变革的重要驱动力 , 已经改变很多现有的流程、理念、生产方式、组织形式 , 将进一步解放和发展社会生产力 , 深度改变人们的思想观念 。 当前 , 人工智能正在全方位赋能商业、教育、医疗、制造、交通和社会治理 , 成为不可或缺的发展引擎 。 但人工智能发展创新绝非一帆风顺 , 短时间内 , 相关技术还将经历一个艰难爬坡、临界点突破、再遇到新的瓶颈这样螺旋式的发展上升过程 。
观察者网:自从国外OpenAI公司的GPT3、华为公司的盘古等人工智能模型出现以来 , 无监督学习迅速发展 , 目前预训练大模型已经发展到了什么阶段?
徐波:图灵奖获得者Yann Lecun曾经说过 , 如果智能是一块蛋糕 , 那么蛋糕的主体是无监督学习 , 蛋糕上的糖衣是监督学习 , 蛋糕上的樱桃是强化学习 。 人类对世界的理解主要来自于大量未标记的信息 。
“蛋糕主体”指的是无监督学习 , 现在很多人工智能碰到的落地上的可信和鲁棒性难题 , 其本质问题是现有AI缺乏语义级的认知 。 认知如同浮在海平面上的冰山 。 自然语言是冰山浮出水面的部分 , 而理解自然语言的基础是大量的人类常识、背景知识、领域知识等世界知识 , 这是冰山水面以下看不到的部分 。 把这些合起来统称为“语义空间” 。 现有的AI系统很难把这些语义空间加以全面准确的表达 。
例如 , “张三吃大碗”、“张三吃食堂”、“张三吃面条”这三句话 。 “张三吃大碗”并不是说张三把大碗吃掉 , “张三吃食堂”也不是要把食堂吃掉 , 这种表述背后的逻辑可能是食堂是吃饭的地方 , 很多人都在食堂吃饭 , 张三家里可能没做饭 , 所以在食堂吃饭 。 对人工智能来说 , 必须有这些相关的背景知识 , 才能理解“张三吃食堂”这句对人来讲很容易理解的话 。
人工智能需要学习很多背景知识才能理解自然语言 。 这就是“认知冰山”问题 , 冰山海平面之下才是获得认知的关键 。 有的人工智能专家把这些大量的背景知识称作人工智能的“暗物质” 。 怎么把这些“暗物质”挖掘出来放在一个系统里?无监督学习是一条路径 。
这些“暗物质”隐含存在于我们的图片、日常对话和海量文本中 。 但是 , 目前的预训练大多数还是单模态 。 “百闻不如一见” , 可能很复杂的语义表述只需要看一张图片就能理解 。
【徐波|专访中科院自动化所所长徐波:构建紫东太初——全球首个三模态大模型,类人智能的大门正在打开】同时 , 人类的声音还蕴藏着情绪和感情 , 只有准确捕获这些细节信息 , 才有可能懂得语言背后真正的含义 , 而不仅仅是文字表面的意思 。 那么 , 我们如何才能同时有效把声音、图片和文字这些信息都整合起来呢?
这次 , 我们在武汉人工智能计算中心算力支持下研发的全球首个三模态大模型“紫东太初” , 在实现图、文、音的统一表达方面取得重要进展 。 已有多模态预训练模型通常仅考虑两个模态 , 如图像和文本 , 或者视频和文本 , 不但忽视了周围环境中普遍存在的语音信息 , 并且模型不好兼具理解与生成能力 , 难以在生成任务与理解类任务中同时取得良好表现 。
我们首次将语音信息引入 , 并通过一个统一语义空间网络表达生成三模态模型 , 可以把刚才提到的“认知冰山”或“暗物质”的庞大语义空间学习出来 , 能更加接近人类真正的感情和思考 。 特别地 , 由于侧重交互功能的语音的加入 , 使我们的大模型一下子变“活”了 , 使人工智能迈向更高层次的通用型人工智能方向发展 。
“紫东太初”三模态训练模型采用了多层次、多任务、自监督、预训练的学习方式 , 论文已经公开发表 。 最重要的是提出来三模态数据的语义统一表达 , 可同时支持三种或者任两种模态的若干数据预训练 。 这个模型不仅可以实现跨模态理解 , 还能实现跨模态生成 , 做到理解和生成两个最重要的认知能力的平衡 , 首次实现以图生音 , 以音来生图的功能 。
三模态大模型可能把更多人类许多与生俱来的东西学习出来 , 把“认知冰山”水面以下的东西能进行挖掘和表达 。 另外 , 单模态预训练模型无疑越大越好 , 但三模态模型的重点更在于探索如何让它更“巧” 。 三模态大模型要做好还要下很多功夫 , 但我们已经在正确的方向上迈出了重要的一步 。

徐波|专访中科院自动化所所长徐波:构建紫东太初——全球首个三模态大模型,类人智能的大门正在打开
文章图片

观察者网:多模态大模型“紫东太初”名称的内涵 , 是不是包涵了某种开天辟地的意义?
徐波:可以这么理解 , 就是相当于人工智能走向类人智能的一个混沌初开之际 , 也是感知智能走向通用智能重要的第一步 。
一个比较有意思的话题是 , 人工智能领域之外的人 , 比如哲学、科幻领域 , 特别喜欢讨论人工智能的一些终极问题 , 例如机器人可能统治人类 , 同时涉及一些更高层面的伦理问题 。 但绝大多数人工智能领域的科学家非常清楚地认知到现有人工智能距离真正的人类智能相差甚远 。
在成功研发“紫东太初”三模态模型后 , 我们似乎感受到比现有人工智能更为强大的通用型人工智能大门正在打开 。 有时候 , 我们甚至在思考怎么让人工智能依附一个好的躯体 , 更好地感知到自然和社会环境中的信息 , 把类似情绪和情感的信息做进一步的处理 , AI将会有更大的发展和比较好的灵活性 。 这种门槛一旦突破 , 人工智能的发展很可能会出现指数型的增长 。 这是一个即将呈现爆发式增长的领域 。
观察者网:这个多模态大模型的技术水平 , 跟国外同行相比怎么样?
徐波:“紫东太初”是全球首个三模态大模型 。 目前 , 全世界研究单模态大模型(图像、文本)的人比较多 , 研究语音大模型的相对少一些 。 我们是少有的同时具备图、文、音研究储备和基础的研究机构 。 这次自动化研究所系统整理收集了积累多年的多模态数据库 , 并把图、文、音三个模态统一起来 , 在一个共同的语义空间去做相互的转换和统一表述 , 这在全球是首次 。
通过巧妙地构建一个多模态大模型 , 我们的图像技术、语音技术和文本技术都超越了现有最好水平 。 过去业界习惯用有监督的学习 , 而我们的技术对有标注数据的依赖性较小 , 改变了人工智能训练需要标注好的大数据的固有模式 。
首先 , 性能业界领先的中文预训练模型、语音预训练模型、视觉预训练模型是我们三模态模型的基础 。 比如 , 视觉的预训练模型 , 首次实现超越有监督学习的性能 , 速度比其他的方法提高8倍 , 在语义分割的结果上 , 也超越了有监督学习的水平 。 在中文预训练模型里面提出来任务感知和推理增强的模型 , 性能相比比GPT-3明显提升 。 语音预训练模型 , 针对语音领域语种多样、标注成本高的问题 , 实现了基于语音预训练的多语言、多任务、低资源关键技术的突破 , 使我们用很少的有标注数据就可以实现语音识别的性能大幅度提升 。
然后 , 我们在统一的语义空间网络表达上实现了模态之间的高效协同和相互转换 , 在多任务上取得了更卓越的性能 。 在跨模态检索和图文语义转换方面 , 都比两个模态具有更丰富的表达跟生成能力 。 语音加速加入后 , 使得我们的大模型可以跟人类做自然流畅的交互 。 这意味着 , 我们人工智能技术在共性的语义空间表征方面取得了重要进展 。

徐波|专访中科院自动化所所长徐波:构建紫东太初——全球首个三模态大模型,类人智能的大门正在打开
文章图片

观察者网:AI应用场景的碎片化需求 , 正在成为AI算法落地面临的最大挑战 。 而三模态大模型能够实现多模态对话 , 视频播报 , 以音生图 , 以图生音 , 非常有意思 , 未来是否有可能所有问题都会通过统一的大模型来解决?
徐波:我觉得非常有可能 。 我们人类主要有两种能力 , 一种是与生俱来的能力 , 到了一定的年龄 , 通过基本的学习就能自然地学会说话、走路 。 另外一种是专业技能 , 如果要学会弹钢琴、水墨画等 , 仍然需要长时间的专业训练才能实现 , 因为这改变了人的特定知识结构 。
多模态大模型为通用人工智能的研究奠定了非常好的基座 。 人类基本的知识、常识 , 看到的一些场景、物体 , 以及从物理世界看到的很多东西 , 都可以隐藏在这个大模型里面 。 比如要做语音识别 , 现在用很小的数据量可以了 , 甚至可以逐渐做到不需要有监督的数据学习 。
预训练模型作为基座模型虽然不是万能的 , 但是人工智能的研究范式和产业范式也会出现一些变化 。 比如说 , 现在产业都在讲算法开源 , 但算法的维护成本很高 , 尤其是现在人工智能的人才很稀缺 , 未来人工智能领域开放的可能是模型 , 客户获得大模型的接口再稍微加一点数据就能解决问题 , 即“大模型+小数据” , 这是我们未来希望看到的大模型对产业带来的赋能 。
这个大模型技术从学术成果向产业转化可能还需要一个过程 , 但我认为不会太久 , 未来2-4年之内这些新技术都会逐渐得到应用 。

    推荐阅读