MUGE 全称是 Multimodal Understanding and Generation Evaluation Benchmark , 是达摩院联合浙江大学、阿里云天池平台共同发布的多模态数据集 , 中国计算机学会计算机视觉专委会协助 , 旨在推动多模态领域的发展 , 尤其预训练和下游任务应用等 。 首期主要开放中文多模态相关下游任务数据集和评测榜单 , 旨在帮助中文多模态研究人员全方位评估算法模型 。 MUGE 将实现多场景多任务的覆盖 , 其中包括理解类任务 , 如跨模态检索、跨模态分类等 , 以及生成类任务 , 如图文描述、基于文本的图像生成等 , 研究人员能够从理解能力和生成能力两大角度去评估算法模型 。 首期开放了包括了如下 3 个任务:
E-Commerce IC(Image Caption)
图像描述生成是一项经典的多模态任务 , 任务目标是根据一张图像生成相应的文字描述 , 要求生成的描述须如实反映图中的物体以及关键细节 。 电商领域有着众多的商品图片 , 将图像描述技术应用于电商领域 , 为每个商品生成一段富含吸引力的描述 , 对于吸引用户的点击、提高转化率有着重要的意义 。
本次发布 E-Commerce IC 数据集涵盖了服装、食品、化妆品、3C 数码配件等众多商品类目 , 所有数据均来源于真实的淘宝电商场景 。 其中 , 商品对应的文字描述由商家根据商品特性来撰写 , 不同文案间的风格差异很大 , 这给图像描述的生成带来了很多挑战 。 E-Commerce IC 共包含 5w 条训练数据和 5k 条验证集数据 , 同时提供 1w 张图片用于在线评测 , 是目前业界最大的中文电商 Caption 数据集 。
下面是两个样例:
例子 1:
- 输入(商品图片):

文章图片
- 输出(商品文案描述):使用原始北欧风格 , 崇尚自然 , 以木色、黑色、白色作为整体色调 , 给人舒适宁静的感觉 , 轻松就餐 , 才能留住好食光 , 在极简风的北欧餐厅中 , 尽情享受美食 。
- 输入(商品图片):

文章图片
- 输出(商品文案描述):西装印花裙的两件套 , 知性中又有带着优雅洒脱 。 雅致的印花裙邂逅西服 , 轻松打造精致的职场女神 。 脱掉外套依然美丽优雅 , 不失为明智的穿搭 。 V 领的设计更显女性的性感魅力 。 如行走的时装画册精致 , 有品位更具有风度 。
文本到图像生成是一项具有挑战性的任务 , 要求模型具有在跨模态理解的基础上生成图像的能力 。 任务目标是根据一段文本描述 , 生成符合相应描述的图像 , 同时要求图像清晰且逼真 。 电商领域有着众多的商品图片 , 将文本到图像生成技术应用于电商领域 , 对于商品上新、设计、分发 , 减少商家运营成本 , 提高用户体验有着重要的意义 。
推荐阅读
- 区块|面向2030:影响数据存储产业的十大应用(下):新兴应用
- 最新消息|世界单体容量最大漂浮式光伏电站在德州并网发电
- 选型|数据架构选型必读:2021上半年数据库产品技术解析
- 殊荣|蝉联殊荣!数梦工场荣获DAMA2021数据治理三项大奖
- 数据|数智安防时代 东芝硬盘助力智慧安防新赛道
- AirPods|苹果谈论AirPods 3:最大榨取蓝牙技术,希望获得“更多带宽”
- 平台|数梦工场助力北京市中小企业公共服务平台用数据驱动业务创新
- 数据|中标 | 数梦工场以数字新动能助力科技优鄂
- 建设|数据赋能业务,数梦工场助力湖北省智慧应急“十四五”开局
- 市民|大数据、人工智能带来城市新变化 科技赋能深化文明成效