评测|最大数据集、多任务覆盖，达摩院发布大规模中文多模态评测基准( 二 )_训练|多任务|达摩|领域|的任务

MUGE 全称是 Multimodal Understanding and Generation Evaluation Benchmark ，是达摩院联合浙江大学、阿里云天池平台共同发布的多模态数据集，中国计算机学会计算机视觉专委会协助，旨在推动多模态领域的发展，尤其预训练和下游任务应用等。首期主要开放中文多模态相关下游任务数据集和评测榜单，旨在帮助中文多模态研究人员全方位评估算法模型。 MUGE 将实现多场景多任务的覆盖，其中包括理解类任务，如跨模态检索、跨模态分类等，以及生成类任务，如图文描述、基于文本的图像生成等，研究人员能够从理解能力和生成能力两大角度去评估算法模型。首期开放了包括了如下 3 个任务：
E-Commerce IC（Image Caption）
图像描述生成是一项经典的多模态任务，任务目标是根据一张图像生成相应的文字描述，要求生成的描述须如实反映图中的物体以及关键细节。电商领域有着众多的商品图片，将图像描述技术应用于电商领域，为每个商品生成一段富含吸引力的描述，对于吸引用户的点击、提高转化率有着重要的意义。
本次发布 E-Commerce IC 数据集涵盖了服装、食品、化妆品、3C 数码配件等众多商品类目，所有数据均来源于真实的淘宝电商场景。其中，商品对应的文字描述由商家根据商品特性来撰写，不同文案间的风格差异很大，这给图像描述的生成带来了很多挑战。 E-Commerce IC 共包含 5w 条训练数据和 5k 条验证集数据，同时提供 1w 张图片用于在线评测，是目前业界最大的中文电商 Caption 数据集。
下面是两个样例：
例子 1：

输入（商品图片）：

文章图片

输出（商品文案描述）：使用原始北欧风格，崇尚自然，以木色、黑色、白色作为整体色调，给人舒适宁静的感觉，轻松就餐，才能留住好食光，在极简风的北欧餐厅中，尽情享受美食。

例子 2:

输入（商品图片）：

文章图片

输出（商品文案描述）：西装印花裙的两件套，知性中又有带着优雅洒脱。雅致的印花裙邂逅西服，轻松打造精致的职场女神。脱掉外套依然美丽优雅，不失为明智的穿搭。 V 领的设计更显女性的性感魅力。如行走的时装画册精致，有品位更具有风度。

E-Commerce T2I（Text to Image）:
文本到图像生成是一项具有挑战性的任务，要求模型具有在跨模态理解的基础上生成图像的能力。任务目标是根据一段文本描述，生成符合相应描述的图像，同时要求图像清晰且逼真。电商领域有着众多的商品图片，将文本到图像生成技术应用于电商领域，对于商品上新、设计、分发，减少商家运营成本，提高用户体验有着重要的意义。