评测|最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准( 二 )


MUGE 全称是 Multimodal Understanding and Generation Evaluation Benchmark , 是达摩院联合浙江大学、阿里云天池平台共同发布的多模态数据集 , 中国计算机学会计算机视觉专委会协助 , 旨在推动多模态领域的发展 , 尤其预训练和下游任务应用等 。 首期主要开放中文多模态相关下游任务数据集和评测榜单 , 旨在帮助中文多模态研究人员全方位评估算法模型 。 MUGE 将实现多场景多任务的覆盖 , 其中包括理解类任务 , 如跨模态检索、跨模态分类等 , 以及生成类任务 , 如图文描述、基于文本的图像生成等 , 研究人员能够从理解能力和生成能力两大角度去评估算法模型 。 首期开放了包括了如下 3 个任务:
E-Commerce IC(Image Caption)
图像描述生成是一项经典的多模态任务 , 任务目标是根据一张图像生成相应的文字描述 , 要求生成的描述须如实反映图中的物体以及关键细节 。 电商领域有着众多的商品图片 , 将图像描述技术应用于电商领域 , 为每个商品生成一段富含吸引力的描述 , 对于吸引用户的点击、提高转化率有着重要的意义 。
本次发布 E-Commerce IC 数据集涵盖了服装、食品、化妆品、3C 数码配件等众多商品类目 , 所有数据均来源于真实的淘宝电商场景 。 其中 , 商品对应的文字描述由商家根据商品特性来撰写 , 不同文案间的风格差异很大 , 这给图像描述的生成带来了很多挑战 。 E-Commerce IC 共包含 5w 条训练数据和 5k 条验证集数据 , 同时提供 1w 张图片用于在线评测 , 是目前业界最大的中文电商 Caption 数据集 。
下面是两个样例:
例子 1:

  • 输入(商品图片):

评测|最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准
文章图片

  • 输出(商品文案描述):使用原始北欧风格 , 崇尚自然 , 以木色、黑色、白色作为整体色调 , 给人舒适宁静的感觉 , 轻松就餐 , 才能留住好食光 , 在极简风的北欧餐厅中 , 尽情享受美食 。
例子 2:
  • 输入(商品图片):

评测|最大数据集、多任务覆盖,达摩院发布大规模中文多模态评测基准
文章图片

  • 输出(商品文案描述):西装印花裙的两件套 , 知性中又有带着优雅洒脱 。 雅致的印花裙邂逅西服 , 轻松打造精致的职场女神 。 脱掉外套依然美丽优雅 , 不失为明智的穿搭 。 V 领的设计更显女性的性感魅力 。 如行走的时装画册精致 , 有品位更具有风度 。
E-Commerce T2I(Text to Image):
文本到图像生成是一项具有挑战性的任务 , 要求模型具有在跨模态理解的基础上生成图像的能力 。 任务目标是根据一段文本描述 , 生成符合相应描述的图像 , 同时要求图像清晰且逼真 。 电商领域有着众多的商品图片 , 将文本到图像生成技术应用于电商领域 , 对于商品上新、设计、分发 , 减少商家运营成本 , 提高用户体验有着重要的意义 。

推荐阅读