原文:Zeng,Yan,i.“Multi-ePre-:.”/2111.08276(2021).
源码:
现有的视觉语言预训练方法大多依赖于通过目标检测提取的以对象为中心的特征,并在提取的特征和文本之间进行细粒度的对齐 。我们认为,视觉语言预训练可能不需要目标检测 。为此,我们提出了一种新的方法X-VLM来进行“多粒度视觉语言预训练” 。学习多粒度对齐的关键是在给定关联文本的图像中定位视觉概念,同时将文本与视觉概念进行对齐,对齐方式是多粒度的 。实验结果表明,X-VLM可以有效地将学习到的对齐用到许多下游视觉语言任务上,并始终优于现有的SOTA方法 。
- 持续更新 安全多方计算框架最全合集
- 万字干货 2019 年蚂蚁金服、头条、拼多多面经
- 2019年Java篇:蚂蚁金服、拼多多、字节跳动的面试总结
- 纯干货献上 2020蚂蚁金服、头条、拼多多的面试总结
- 四面阿里Java开发岗,拼多多+携程+蚂蚁金服技术面集合
- 白菜用多菌灵灌根?
- window国际化文案
- 哪个地区吃粽子的人多?
- 32k本子是多大尺寸 32k本子是多少厘米
- 一般1到6楼红地毯需要多少米