X-VLM:多粒度视觉语言预训练方法

原文:Zeng,Yan,i.“Multi-ePre-:.”/2111.08276(2021).
源码:
现有的视觉语言预训练方法大多依赖于通过目标检测提取的以对象为中心的特征,并在提取的特征和文本之间进行细粒度的对齐 。我们认为,视觉语言预训练可能不需要目标检测 。为此,我们提出了一种新的方法X-VLM来进行“多粒度视觉语言预训练” 。学习多粒度对齐的关键是在给定关联文本的图像中定位视觉概念,同时将文本与视觉概念进行对齐,对齐方式是多粒度的 。实验结果表明,X-VLM可以有效地将学习到的对齐用到许多下游视觉语言任务上,并始终优于现有的SOTA方法 。