机器之心发布
机器之心编辑部
在计算机视觉领域甚至人工智能的发展历程中 , ImageNet对于整个领域的技术进步具有至关重要的作用 。 随着多模态学习成为当下的新热点 , 为了通过大规模数据集建设和全方位模型能力评测推动多模态领域的发展 , 阿里达摩院推出MUGE(全称Multimodal Understanding and Generation Evaluation Benchmark)评测基准 。 该基准是由达摩院联合浙江大学、阿里云天池平台联合发布 , 中国计算机学会计算机视觉专委会(CCF-CV专委)协助推出的首个大规模中文多模态评测基准 。 其拥有全球最大规模的中文多模态评测数据集 , 覆盖多种类型的任务 , 包括图文描述、基于文本的图像生成、跨模态检索等 。 MUGE的推出旨在解决当前中文多模态领域下游任务数据集匮乏的问题 , 并且为广大研究者提供权威平台 , 从理解能力和生成能力两大角度去衡量算法模型的有效性 。

文章图片
背景
近年来 , 大规模神经网络模型以及预训练等技术的成功实践推动着计算机视觉和自然语言处理等领域快速发展 , 同时也推动了多模态表征学习的研究 。 2020 年 Jeff Dean 就曾指出 , 多模态研究将会是未来研究一大趋势 。
在国内 , 目前阿里巴巴达摩院智能计算实验室也在深度探索中文多模态预训练及超大规模预训练 , 近期相继推出了百亿、千亿、万亿参数和十万亿参数模型 M6 模型 [1][2][3][4] , 目前是全球规模最大的预训练模型 , 并已将其应用到各大下游任务 , 广泛落地到搜索、推荐、服饰设计、智能文案等真实场景中 。 同时 , 达摩院联合阿里云发布了 M6 预训练平台(https://m6.aliyun.com) , 将大模型的能力以服务的形式对外提供 , 同时 M6 预训练平台是目前下游任务覆盖最广泛的平台 , 简洁易用 , 数行代码即可执行微调和预测等功能 。
然而 , 目前多模态领域的评测基准和数据集多以英文为主 , 如 MSCOCO 的 Image Captioning [5] , VQA [6][7] , textVQA , VCR 等 , 并且缺乏一个统一的评测基准让研究人员可以全面评测自己的模型在不同场景以及不同任务类型的表现 。 当前中文领域的多模态公开数据集和榜单更是乏善可陈 。 考虑到中文多模态领域的蓬勃发展 , 达摩院智能计算实验室认知智能团队推出了大规模中文多模态评测基准 MUGE , 拥有当前最大规模的中文多模态评测数据集 , 覆盖多种类型的任务 , 包括图文描述、基于文本的图像生成、跨模态检索等 , 对模型展开了全方位的评测 , 帮助研究人员对自己的模型得到更好的理解 。
MUGE 介绍
推荐阅读
- 区块|面向2030:影响数据存储产业的十大应用(下):新兴应用
- 最新消息|世界单体容量最大漂浮式光伏电站在德州并网发电
- 选型|数据架构选型必读:2021上半年数据库产品技术解析
- 殊荣|蝉联殊荣!数梦工场荣获DAMA2021数据治理三项大奖
- 数据|数智安防时代 东芝硬盘助力智慧安防新赛道
- AirPods|苹果谈论AirPods 3:最大榨取蓝牙技术,希望获得“更多带宽”
- 平台|数梦工场助力北京市中小企业公共服务平台用数据驱动业务创新
- 数据|中标 | 数梦工场以数字新动能助力科技优鄂
- 建设|数据赋能业务,数梦工场助力湖北省智慧应急“十四五”开局
- 市民|大数据、人工智能带来城市新变化 科技赋能深化文明成效