Microsoft|微软新的视觉语言(VL)系统有着显著超越人类的表现_微软新的视觉语言(VL)系统有着

视觉语言(Vision-Language，VL)系统允许为文本查询搜索相关图像(或反之)，并使用自然语言描述图像的内容。一般来说，一个VL系统使用一个图像编码模块和一个视觉语言融合模块。微软研究部门最近开发了一种新的图像编码对象属性检测模型，称为VinVL（Visual features in Vision-Language），有着显著超越人类的表现。

文章图片

当VinVL与OSCAR和vivo等VL融合模块结合后，微软新的VL系统能够在竞争最激烈的VL排行榜上取得第一，包括视觉问题回答（VQA）、微软COCO图像字幕和新颖对象字幕（nocaps）。微软研究团队还强调，在nocaps排行榜上，这种新的VL系统在CIDEr（92.5对85.3）方面的表现明显超过了人类的同形式表现。
微软解释道：

VinVL在改善VL理解的图像编码方面表现出了巨大的潜力。我们新开发的图像编码模型可以使广泛的VL任务受益，正如本文中的例子所说明的那样。尽管我们获得了很有希望的结果，比如在图像字幕基准上超越了人类的表现，但我们的模型绝不是达到VL理解的人类水平的智能。未来有趣的工作方向包括 (1)利用海量图像分类/标记数据，进一步扩大对象属性检测预训练的规模；(2)将跨模态VL表征学习的方法扩展到构建感知基础的语言模型，可以像人类一样将视觉概念建立在自然语言中，反之亦然。

微软VinVL正在被整合到Azure认知服务中，Azure认知服务为微软的各种服务提供支撑，如Seeing AI、Office和LinkedIn中的图像字幕等。微软研究团队还将向公众发布VinVL模型和源代码。
了解更多：
【Microsoft|微软新的视觉语言(VL)系统有着显著超越人类的表现】https://www.microsoft.com/en-us/research/blog/vinvl-advancing-the-state-of-the-art-for-vision-language-models/