模型|专访中科院自动化所所长:构建紫东太初——全球首个三模态大模型,类人智能的大门正在打开

【采访/观察者网 周远方 编辑/吕栋】
人的大脑中 , 语义是最神秘的 。
在神经科学实验中 , 当看一张猴子照片的时候 , 大脑中视觉关联区域神经活动会更加活跃;听到声音 , 声音关联区域神经活动会更加活跃 。 但是当大脑在想象一只猴子的时候 , 大脑更大片区域都处于激活状态 。 语义是人工智能技术最难表征和最难处理的 。 其实 , 它就是人的多个感知模态相互融合、相互关联、相互协同、相互激活的结果 。
目前 , 这种多模态互动的认知过程 , 正在被人工智能学习 。
7月9日 , 2021世界人工智能大会(WAIC)昇腾人工智能高峰论坛上 , 中国科学院自动化研究所所长徐波正式报告了跨模态通用人工智能“紫东太初”平台 。 该平台以全球首个图、文、音(视觉、文本、语音)三模态预训练模型为核心 , 并基于国产化自主AI基础软硬件平台(昇腾)开发实现 , 向更加通用型人工智能跨出一步 。
在会后 , 观察者网对徐波所长进行专访 , 就人工智能发展的现实意义、多模态大模型的发展现状、中外人工智能的技术对比、三模态大模型的应用案例和未来展望、通用人工智能的路径探索等话题展开讨论 。
徐波指出 , 人工智能是一种赋能技术 , 未来将成为社会经济生活无所不在的“发动机” , 而“大数据+大模型+多模态”将改变当前单一模型对应单一任务的人工智能研发范式和产业范式 , 多模态大模型将成为不同领域的共性平台技术 , 是迈向通用人工智能路径的探索 。 全栈国产化通用人工智能平台的实践更对中国实现AI领域科技创新、占领核心技术高地具有重要的战略意义 。

模型|专访中科院自动化所所长:构建紫东太初——全球首个三模态大模型,类人智能的大门正在打开
文章图片

徐波在昇腾人工智能高峰论坛发表演讲 图片来源:中科院自动化研究所
以下是专访实录:
观察者网:我们看到 , 中国目前在人工智能技术研发投入上可谓是不遗余力 , 作为人工智能行业专家 , 您认为持续探索人工智能技术创新之路 , 对整个产业和社会发展的意义是什么?
徐波:人工智能在本质上是一种赋能技术 。 随着社会的持续发展和进步 , 人工智能作为社会经济生活的“发动机” , 无处不在的推动着多个行业的智能化发展 。 人工智能在不断与行业进行融合创新的同时 , 会出现多种形态的变化 , 呈现出百花齐放的现象 。
人工智能作为新一轮技术革命和产业变革的重要驱动力 , 已经改变很多现有的流程、理念、生产方式、组织形式 , 将进一步解放和发展社会生产力 , 深度改变人们的思想观念 。 当前 , 人工智能正在全方位赋能商业、教育、医疗、制造、交通和社会治理 , 成为不可或缺的发展引擎 。 但人工智能发展创新绝非一帆风顺 , 短时间内 , 相关技术还将经历一个艰难爬坡、临界点突破再遇到新的瓶颈这样螺旋式发展上升过程 。
观察者网:自从国外OpenAI公司的GPT3、华为公司的盘古等人工智能模型出现以来 , 无监督学习迅速发展 , 目前预训练大模型已经发展到了什么阶段?
徐波:图灵奖获得者Yann Lecun曾经说过 , 如果智能是一块蛋糕 , 那么蛋糕的主体是无监督学习 , 蛋糕上的糖衣是监督学习 , 蛋糕上的樱桃是强化学习 。 人类对世界的理解主要来自于大量未标记的信息 。
“蛋糕主体”指的是无监督学习 , 现在很多人工智能碰到的落地上的可信和鲁棒性难题 , 其本质问题是现有AI缺乏语义级的认知 。 认知如同浮在海平面上的冰山 。 自然语言是冰山浮出水面的部分 , 而理解自然语言的基础是大量的人类常识、背景知识、领域知识等世界知识 , 这是冰山水面以下看不到的部分 。 把这些合起来统称为“语义空间” 。 现有的AI系统很难把这些语义空间加以全面准确的表达 。 例如 , “张三吃大碗”、“张三吃食堂”、“张三吃面条”这三句话 。 “张三吃大碗”并不是说张三把大碗吃掉 , “张三吃食堂”也不是要把食堂吃掉 , 这种表述背后的逻辑可能是食堂是吃饭的地方 , 很多人都在食堂吃饭 , 张三家里可能没做饭 , 所以在食堂吃饭 。 对人工智能来说 , 必须有这些相关的背景知识 , 才能理解“张三吃食堂”这句对人来讲很容易理解的话 。 人工智能需要学习很多背景知识才能理解自然语言 。 这就是“认知冰山”问题 , 冰山海平面之下才是获得认知的关键 。 有的人工智能专家把这些大量的背景知识称作人工智能的“暗物质” 。 怎么把这些“暗物质”挖掘出来放在一个系统里?无监督学习是一条路径 。
这些的“暗物质”隐含存在于我们的图片、日常对话和海量文本中 。 但是 , 目前的预训练大多数还是单模态 。 “百闻不如一见” , 可能很复杂的语义表述只需要看一张图片就能理解 。 同时 , 人类的声音还蕴藏着情绪和感情 , 只有准确捕获这些细节信息 , 才有可能懂得语言背后真正的含义 , 而不仅仅是文字表面的意思 。 那么 , 我们如何才能同时有效把声音、图片和文字这些信息都整合起来呢?
这次 , 我们在武汉人工智能计算中心算力支持下研发的全球首个三模态大模型“紫东太初” , 在实现图、文、音的统一表达方面取得重要进展 。 已有多模态预训练模型通常仅考虑两个模态 , 如图像和文本 , 或者视频和文本 , 不但忽视了周围环境中普遍存在的语音信息 , 并且模型不好兼具理解与生成能力 , 难以在生成任务与理解类任务中同时取得良好表现 。 我们首次将语音信息引入 , 并通过一个统一语义空间网络表达生成三模态模型 , 可以把刚才提到的“认知冰山”或“暗物质”的庞大语义空间学习出来 , 能更加接近人类真正的感情和思考 。 特别的 , 由于侧重交互功能的语音的加入 , 使我们的大模型一下子变“活”了 , 使人工智能迈向更高层次的通用型人工智能方向发展 。
“紫东太初”三模态训练模型采用了多层次多任务自监督预训练的学习方式 , 论文已经公开发表 。 最重要的是提出来三模态数据的语义统一表达 , 可同时支持三种或者任两种模态的若干数据预训练 。 这个模型不仅可以实现跨模态理解 , 还能实现跨模态生成 , 做到理解和生成两个最重要的认知能力的平衡 , 首次实现以图生音 , 以音来生图的功能 。
三模态大模型可能把更多人类许多与生俱来的东西学习出来 , 把“认知冰山”水面以下的东西能进行挖掘和表达 。 另外 , 单模态预训练模型无疑越大越好 , 但三模态模型的重点更在于探索如何让它更“巧” 。 三模态大模型要做好还要下很多功夫 , 但我们已经在正确的方向上迈出了重要的一步 。

模型|专访中科院自动化所所长:构建紫东太初——全球首个三模态大模型,类人智能的大门正在打开
文章图片

观察者网:多模态大模型“紫东太初”名称的内涵 , 是不是包涵了某种开天辟地的意义?
徐波:可以这么理解 , 就是相当于人工智能走向类人智能的一个混沌初开之际 , 也是感知智能走向通用智能重要的第一步 。
一个比较有意思的话题是 , 人工智能领域之外的人 , 比如哲学、科幻领域 , 特别喜欢讨论人工智能的一些终极问题 , 例如机器人可能统治人类 , 同时涉及一些更高层面的伦理问题 。 但绝大多数人工智能领域的科学家非常清楚地认知到现有人工智能距离真正的人类智能相差甚远 。
【模型|专访中科院自动化所所长:构建紫东太初——全球首个三模态大模型,类人智能的大门正在打开】在成功研发“紫东太初”三模态模型后 , 我们似乎感受到比现有人工智能更为强大的通用型人工智能大门正在打开 。 有时候 , 我们甚至在思考怎么让人工智能依附一个好的躯体 , 更好地感知到自然和社会环境中的信息 , 把类似情绪和情感的信息做进一步的处理 , AI将会有更大的发展和比较好的灵活性 。 这种门槛一旦突破 , 人工智能的发展很可能会出现指数型的增长 。 这是一个即将爆发呈现爆发式增长的领域 。

    推荐阅读