团队|中国团队成功构建全球首个图文音三模态预训练模型_训练|语音|文本|图像|任务|模型

中新网北京7月8日电 (采访人员孙自法)采访人员8日从中国科学院自动化研究所(中科院自动化所)获悉，该所科研团队成功构建全球首个图文音(视觉-文本-语音)三模态预训练模型，将解锁更多智能之美，让人工智能(AI)更接近人类想象力。
目前，已有的多模态预训练模型通常仅考虑“图像和文本”或者“视频和文本”两个模态，忽视了周围环境中普遍存在的语音信息，并且模型极少兼具理解与生成能力，难以在生成任务与理解类任务中同时取得良好表现。
针对这些问题，中科院自动化所科研团研究队提出图文音三模态预训练模型，将文本、语音、图像、视频等多模态内容联合起来进行学习。该模型由单模态编码器、跨模态编码器和跨模态解码器构成，采用分别基于词条级别、模态级别以及样本级别的多层次、多任务三级预训练自监督学习方式，更关注图文音三模态数据之间的关联特性以及跨模态转换问题，对更广泛、更多样的下游任务提供模型基础支撑。
【团队|中国团队成功构建全球首个图文音三模态预训练模型】科研团队指出，图文音三模态预训练模型不仅可实现图像识别、语音识别等跨模态理解任务，也能完成从文本生成图像、从图像生成文本、语音生成图像等跨模态生成任务。同时，引入语音模态后的多模态预训练模型，可突破性直接实现三模态的统一表示，特别是首次实现“以图生音”和“以音生图” 。
此外，该模型灵活的自监督学习框架可同时支持三种或任两种模态弱关联数据进行预训练，能有效降低多模态数据收集与清洗成本，从而取得预训练模型突破性进展。
中科院自动化所表示，图文音三模态预训练模型的提出和构建，将改变当前单一模型对应单一任务的人工智研发范式，大幅提升文本、语音、图像和视频等领域的基础任务性能，并在多模态内容的理解、搜索、推荐和问答；语音识别和合成；人机交互和无人驾驶等商业应用中具有潜力巨大的市场价值。
未来， “大数据+大模型+多模态”的多任务统一学习，将引领人工智能技术发展的潮流。 (完)

团队|中国团队成功构建全球首个图文音三模态预训练模型

推荐阅读

如何找寻自我

缝纫机调线器怎么安装平车方法如何

强组词强字组词

火笋鸡翅的做法（增肥食谱）

闺女生日快乐祝福语朋友圈

LV请来潮牌设计师做艺术总监，看中的是啥

老虎豆怎么做好吃老虎豆图片怎样弄来吃

暖气有流水声是什么原因

皮球是什么体

手机怎样开通QQ空间

男生发mua说明 mua是什么意思

手指盖凹陷怎么回事

对自己的生活失去掌控咋调整

小米10s怎么没有月亮模式

我想找个偏僻的地方搞养殖！有没有推荐的地方？

南京养老金认证上门服务怎么申请南京市养老金认证

如何评价猪场阉割猪？

最后一个字是豹的成语

泰山散酒怎么样

猫发情的声音(猫发情的叫声)