Mitigating Object Hallucinations in Larg

通过视觉对比解码减轻大型视觉语言模型中的物体幻觉
大视觉语言模型(LVLM)已经取得了长足的进步,将视觉识别和语言理解交织在一起,生成不仅连贯而且与上下文相协调的内容 。尽管取得了成功,LVLM 仍然面临物体幻觉的问题 , 即模型生成看似合理但不正确的输出,其中包括图像中不存在的物体 。为了缓解这个问题,我们引入了视觉对比解码(VCD),这是一种简单且无需训练的方法 , 可以对比源自原始视觉输入和扭曲视觉输入的输出分布 。所提出的 VCD 有效减少了对统计偏差和单峰先验的过度依赖,这是物体幻觉的两个重要原因 。这种调整确保生成的内容紧密结合视觉输入 , 从而产生上下文准确的输出 。我们的实验表明,VCD 在无需额外训练或使用外部工具的情况下,可以显着减轻不同 LVLM 系列的物体幻觉问题 。除了减轻物体幻觉之外,VCD 在一般 LVLM 基准测试中也表现出色,凸显了其广泛的适用性 。代码将被公开 。
1.
大型视觉语言模型 (LVLM) 已成为计算机视觉和自然语言处理交叉领域不可或缺的一部分,由于它们能够从视觉输入生成上下文相关的文本描述 , 因此能够实现一系列应用 。这些模型的特点是能够有效地捕获复杂的视觉模式并将其转化为连贯的语言表示 。LVLM 的发展以模型架构、训练方法和数据多样性的不断改进为标志,从而提高了性能和应用程序的多功能性 。尽管取得了这些进步 , 但具体的挑战仍然存在 , 物体幻觉问题是影响 LVLM 跨领域可靠性和适用性的一个突出问题 。
本文中的物体幻觉是指 LVLM 生成语义一致但与给定图像中的真实物体不一致的文本内容的现象 。这一挑战不仅揭示了 LVLM 的基本问题 , 例如过度依赖统计偏差 和单峰先验,而且对LVLM 的实际部署 。在生成内容的准确性和可靠性至关重要的应用中,物体幻觉可能会导致错误信息、误解以及随后的错误决策 。在医疗保健、自主系统 和机器人等领域 , 这种不准确不仅是不可取的,而且可能会产生严重后果 。因此,解决幻觉问题对于增强 LVLM 在各种现实场景中的完整性、可靠性和广泛适用性至关重要 。
人们已经探索了各种方法来抑制 VLM 中的物体幻觉 。早期的工作通过执行细粒度模态对齐 [6]AliBiten, Llu ??s G ? omez, and. Let there be a clock on the beach:in image . Inof the IEEE/CVFonof, pages 1381–1390, 2022. 2 或通过数据增强减少对象共现的统计偏差来尝试小规模Myung Kim, A ,, andAkata.andfor cross-modal . Inof the IEEE/CVFonand, pages 2584–2594, 2023. 2----Anna , Lisa Anne ,Burns,, and Kate .in image . arXivarXiv:1809.02156, 2018. 2 。
然而,LVLM 的行为与小规模 VLM 显着不同,使得相关方法难以推广和扩展。最近的几项研究通过提出针对幻觉的数据集进行微调来解决这个问题 , Jihan Yin, and Erhan Bas.andin large. arXivarXiv:2308.06394, 2023. 1, 2, 3--- Liu, Kevin Lin,Li,Wang, Yaser , andWang.large multi-modal model with. arXivarXiv:2306.14565, 2023. 2, 3 , 训练事后修订器 Zhou、 Cui、 Yoon、 张、Zhun Deng、 Finn、Mohit和Yao 。
分析和减轻大型视觉语言模型中的物体幻觉 。arXiv 预印本 arXiv:2310.00754, 2023. 2, 3, 4以重建较少的幻觉输出或适应来自人类反馈的事实增强强化学习(RLHF)( Sun, Sheng Shen,Cao,Liu,Li,Shen,Gan, Liang-Yan Gui,Wang,Yang, et al.largewithrlhf. arXivarXiv:2309.14525, 2023. 2, 3) 。虽然 LVLM 中现有的物体幻觉干预措施已显示出有效性 , 但所产生的人力和计算成本凸显了对更简单但有效的方法的迫切需要 。
在这项工作中,我们分析了视觉不确定性对 LVLM 中物体幻觉的两个主要原因的影响 , 即统计偏差和单峰先验(即语言先验) 。基于上述分析,我们引入了视觉对比解码(VCD),这是一种无需训练的技术,旨在减轻 LVLM 中的物体幻觉 。如图 1 所示,VCD 的原理是对比原始视觉输入和失真视觉输入的输出分布 。因此,它充当一种纠正机制,并校准模型对集成 LLM 语言先验的过度依赖以及 LVLM 预训练语料库的统计偏差 。在效率领域,VCD 因其与之前的研究相比最小的计算开销而脱颖而出 [20,42,59,77] , 避免了额外训练或使用外部工具(例如其他预训练模型)的需要 。我们的实验证明了 VCD 的有效性,在不同的 LVLM 系列(包括 LLAVA-1.5)中对多个物体幻觉基准进行了一致的改进(例如,POPE [38] 上的 F1 分数提升高达 +7.4 , MME [16] 上的 +18% 提升) 。44, 45]、 [12] 和 Qwen-VL [5] 。此外,我们的方法也有利于 LVLM 的一般感知能力,如 MME 和 LLaVA- 的基准测试所证明的那样 , 表明其潜在的适用性超出了物体幻觉缓解的范围 。综上所述 , 我们的主要贡献如下:
我们对 LVLM 中视觉不确定性对物体幻觉的影响进行了深入分析,特别是从统计偏差和单峰先验方面 。受上述分析的启发,我们设计了VCD , 一种无需训练的技术,可以有效减轻LVLM中的物体幻觉 。它通过对比原始视觉输入和扭曲视觉输入的输出分布来校准模型的输出,确保内容生成更加一致 。通过综合实验,我们证明了所提出的VCD在减轻物体幻觉和增强一般感知能力方面的功效 。我们的方法无需额外的培训或外部工具即可产生显着的改进 。
2.Work 2.1. - 视觉语言模型
视觉语言模型(VLM)的发展已经从植根于基于 BERT 的语言解码器 [13,31,47],用于合并视觉和文本数据 [34,36,58,63],转变为由大型语言模型 (LLM) 的集成 [4, 7, 10, 11, 17, 53, 60–62] 。LLMs的出现预示着大型视觉语言模型 (LVLM) [3,9,14,34] 的出现,其特点是增强的功能和性能 。在此阶段 , LVLM在端到端训练技术的支持下,展示了视觉和文本标记的统一解码,标志着其性能和适应性的显着增强 。最近的发展重点关注视觉指令微调[45],展示了对各种视觉语言任务的适应性 。所采用的方法,从整合跨模态对齐网络到微调 LLaMA 模型,强调了该方法的多样化和特异性的趋势 [5,12,33,70] 。
2.2.in VLMs
----
2.2. VLM中的幻觉
在LLMs出现之前,NLP 界主要将“幻觉”定义为无意义内容或偏离其来源的内容的产生 [28,32,39,57,74,76] 。在 VLM 领域,“物体幻觉”也有详细记录,指的是产生合理输出的模型,其中包括与图像不匹配或缺失的物体 [6,38,54] 。减轻 VLM 中的物体幻觉通常涉及细粒度对比学习 [72]、ROI 特征融合 [6] 以及通过数据增强减少共现模式等策略 [30] 。然而,由于传统 VLM 和当代 LVLM 具有独特的训练范式和模型架构,使这些策略适应 LVLM 中较新的自回归方法提出了重大挑战 [29, 66] 。
最近的努力试图解决这些复杂性,研究深入研究了 LVLM 领域内物体幻觉的评估和检测 [38,42,48,64] 。例如,POPE [38]将幻觉转化为二元分类问题,以探究模型对图像中是否存在特定物体的感知 。与此同时,人们显着地推动了开发精炼数据集 , 以微调现有的 LVLM [20,35,42],训练事后修订器以检测和重建较少的幻觉输出 [77],并适应事实增强RLHF [59] 。然而,获取额外数据集、对原始或新引入的模型进行细粒度调整或利用其他现成的预训练模型的现有方法可能非常耗时、劳动密集型且计算成本高昂 。相反,我们提出了一种概念上不同且无需训练的方法 VCD,它将输出分布与原始和扭曲的视觉输入进行对比,以校准模型对单峰先验和统计偏差的过度依赖,而不利用外部模型 。
3.3.1.of - 视觉语言模型的解码
我们考虑由
参数化的 LVLM 。该模型将文本查询 x 和视觉输入 v 作为输入 , 其中 v 提供上下文视觉信息以帮助模型生成对文本查询的相关响应 y 。响应 y 是从以查询 x 和视觉上下文 v 为条件的概率分布中自动回归采样的 。在数学上,这可以表示为:
其中 yt 表示时间步 t 处的令牌,y 3.2.
----
3.2.视觉不确定性会加剧幻觉
视觉输入的保真度对于 LVLM 准确编码视觉特征并忠实生成输出至关重要 。然而 , 视觉输入中引入的不确定性可能会倾斜平衡 。本节深入研究了一项综合分析,旨在验证这样的假设:视觉不确定性的增加会放大 LVLM 中的语言先验和统计偏差,从而加剧物体幻觉 。
视觉不确定性的引入在本文中,我们建议采用最基本的方法——对原始图像应用高斯噪声掩模——来引入视觉不确定性 。该方法虽然简单 , 但提供了一个初始基准来估计视觉不确定性对模型输出的基线影响 。遵循图像生成中的前向扩散过程[24],失真图像建模如下:
其中 v0 表示原始视觉输入(即原始图像),I 表示单位矩阵 。我们在 T 个步骤中逐渐添加少量高斯噪声,生成一系列失真图像 v1,...,vT。随着步骤t变大,原始图像v0逐渐失去其可区分的特征,其中每一步添加的噪声量由 控制 。最终,当 T 趋于无穷 时,视觉不确定性达到最大 , vT 将与高斯噪声无法区分 。
视觉不确定性放大了语言先验 图 2 显示,视觉不确定性可能迫使 LVLM 忽视视觉证据并过度利用语言先验进行决策 。然而,这种趋势并不完全出乎意料 , 因为LLMs旨在根据大量文本语料库预测下一个单词的概率 。当遇到模糊的视觉刺激时,LVLM 可能会将这些传统的、基于文本的预测误解为“安全网” 。这些先验虽然通常有用,但可能会引入与实际视觉内容不一致的偏差或假设,特别是当视觉输入缺乏清晰度时 。
图 2. 视觉不确定性放大语言先验的图示 。鉴于图像中包含黑色香蕉和其他彩色水果 , LVLM 更喜欢更传统的香蕉颜色,例如“黄色”和“绿色” , 从而增加了视觉不确定性 。随着失真度的增加,真实颜色“黑色”的概率 (logp(y|x, v0)) 会减小 , 使得 LVLM 过度依赖于 LLM 预训练的语言先验,这些先验通常将香蕉与黄色或绿色联系起来 。
视觉不确定性放大了统计偏差 大多数视觉语言预训练数据集的构建主要基于[40],其本质上存在不平衡的对象分布和有偏差的对象相关性 。之前的工作 [38, 77] 指出,基于此类数据进行训练的 LVLM 可能会继承这些统计偏差来生成幻觉对象的描述 。为了进一步检验视觉不确定性可能会放大预训练统计偏差的假设,我们设计了两个有针对性的实验来验证(1)LVLM 是否更容易对扭曲的视觉输入产生频繁出现的物体产生幻觉;(2)LVLM 是否更容易产生经常出现的幻觉物体 。这些物体经常与图像中具有扭曲视觉输入的真实物体同时出现 。图 3 显示了一个明显的趋势,即 LVLM 更容易产生频繁且同时出现的对象的幻觉,这归因于从训练数据继承的不平衡对象分布和虚假对象相关性 。
图 3. 左侧子图显示了中频繁出现的对象与其在验证集中产生幻觉的倾向之间的相关性 。数据集中出现率较高的物体在扭曲的视觉场景下更有可能被 LVLM 产生幻觉 。右边的子图描绘了经常出现在“餐桌”旁边的三个物体 , 当出现扭曲的视觉输入时,它们也更容易产生幻觉 。
3.3.视觉对比解码 3.3.1the 对比预测
我们在上一节中的观察表明,视觉不确定性不仅放大了对语言先验的依赖,而且还使 LVLM 更容易受到预训练数据集中存在的表面对象相关性的影响,从而导致更严重的幻觉 。鉴于此,我们引入视觉对比解码(VCD) 。VCD 旨在通过对比原始视觉输入和扭曲视觉输入生成的模型输出来抵消 LVLM 中的统计偏差和语言先验 。无需额外训练或外部预训练模型即可实现此目的,使 VCD 成为一种经济高效的解决方案 。
具体来说,给定文本查询 x 和视觉输入 v,模型会生成两种不同的输出分布:一种以原始 v 为条件,另一种以扭曲的视觉输入 v0 为条件 , 该输入是通过应用预定义的扭曲(即高斯分布)导出的 。然后,通过利用两个最初获得的分布之间的差异来计算新的对比概率分布 。新的对比分布 pvcd 的公式为:
其中较大的
值表示两个分布之间的差异放大更强(
=0 减少到常规解码) 。根据调整后的输出分布pvcd , 我们可以应用各种采样策略,例如核采样[25]和束搜索[15] 。
从本质上讲,VCD 是一种纠正机制 , 通过与倾向于偏向幻觉的分布进行对比来减少幻觉 。或者,VCD 也可以解释为对比系综的一种形式,它区分 p
(y | v, x) 和 p
(y | v‘,x) 的逻辑 。该方法与图像生成中常用的对比目标相呼应 。例如,无分类器扩散模型 [23] 使用 (1 +
(x, c) -
(x) 估计扩散噪声,其中 c 作为控制因素 。在文本生成领域,一些研究还利用对比解码来实现更忠实的生成[37,41,52,56] 。
3.3.2 自适应合理性约束
根据等式 3 中对比分布 pvcd 的形成,可能会出现挑战 , 因为它会惩罚受扭曲视觉输入影响的模型的整个输出行为 。然而,这并不普遍正确——具有扭曲视觉输入的输出分布仍然可以维护基本的语言标准和常识推理 。不加区别的惩罚可能会不准确地惩罚这些有效的输出并促进难以置信的输出的产生 。为了解决这个问题,我们遵循 Li 等人的观点 。[37] 实现自适应合理性约束,该约束取决于与原始视觉输入的输出分布相关的置信水平:
其中V是LVLM的输出词汇表,是[0, 1]中的一个超参数 , 用于控制下一个令牌分布的截断 。越大表示截断越激进 , 仅保留高概率的标记 。
结合视觉对比解码和自适应合理性约束,我们得到完整的公式:
结合自适应合理性约束可以细化对比分布,增强对简单决策的信心 。这确保了当模型对其与原始输入相关的输出高度有信心时,候选池会得到简化,通常会以高概率保留单个标记 。这种方法有效地抵消了 VCD 的潜在不利影响,防止其无意中促进不可信token的生成,并保持生成内容的完整性 。
4. 实验
本节详细介绍了我们对各种 LVLM 中提出的视觉对比解码的评估 。
4.1.实验设置
&
----
数据集和评估指标
POPE,基于轮询的对象探测评估[38],提出了一种评估对象幻觉的简化方法 。在此基准测试中,LVLM 会被查询以回答给定图像中是否存在特定对象 。探测存在对象和不存在对象的查询之间的比例是平衡的(即 50% 与 50%) 。它包含三种采样设置:随机、流行和对抗性 , 每种设置在构建负样本方面都有所不同 。在随机设置中,随机选择图像中不存在的对象 。流行的设置从高频池中选择丢失的对象,而在对抗性设置中,优先考虑图像中不存在的同时出现的对象 。POPE 基准聚合了来自三个不同来源的数据: [40]、A-OKVQA [55] 和 GQA [27] 。它涉及每个采样设置下每个数据集的 500 个图像,并为每个图像制定 6 个问题 , 最终从这些数据集的开发集中产生总共 27, 000 个查询答案对2 。评估以四个关键指标为中心:准确度、精确度、召回率和 F1 分数 。
MME [16] 是一个广泛的基准 , 专门用于跨多个维度评估 LVLM 。它包括十个与感知相关的子任务和四个以认知为中心的子任务 。继尹等人之后 。[71],除了调整整个数据集外,我们还利用存在和计数子集进行对象级幻觉评估,以及位置和颜色子集进行属性级幻觉评估 。性能是通过准确度和准确度+的组合指标来量化的 , 作为官方实施3 。
LLaVA-Bench包含 24 张图像,并附带 60 个问题,涵盖室内和室外场景、模因、绘画和草图等一系列背景 。该数据集旨在评估 LVLM 处理更具挑战性任务的能力及其对新领域的适应性 。我们对此数据集进行案例研究,以定性地证明我们提出的 VCD 的有效性 。
LVLM 基线 我们评估了我们的 VCD 在三个最先进的 LVLM 上的有效性 。具体来说,我们将 VCD 应用于 LLaVA-1.5 和,它们采用7B 作为语言解码器 [12, 44] , 以及构建在 Qwen 7B 主干之上的 Qwen-VL [5] 。为了进行更有说服力的比较,我们报告了 POPE 和 MME 基准测试 5 次运行的平均结果以及标准差 。
实现细节 在我们的实验中 , 除非另有明确说明,否则我们设置
=1、
=0.1 和
=0.1 。为了进行一致的比较分析,我们的基线解码策略采用直接采样(即在所有实验表中表示为“常规”) , 其中下一个标记直接从 post- 分布中采样 。相反 , 所有实验表的解
码列中标记为“VCD”的实例指的是我们提出的视觉对比解码策略 , 该策略也直接从应用VCD后修改的post-分布中采样 。综合参数配置可以在补充材料中找到 。
4.2.实验结果
POPE 的结果 表 1 总结了随机、流行和对抗性设置下 POPE 的实验结果 。一个值得注意的观察结果是我们提出的 VCD 的稳健效果 。具体来说,在不同的采样设置下,我们的 VCD 的性能在所有 LVLM 上始终大幅超过基线结果(高达 +5.8 精度和 +7.4 F1) 。这表明它在抵消 LVLM 中的统计偏差和语言先验方面发挥着关键作用,从而减少物体幻觉的发生 。此外,当我们从随机设置转向流行设置时,所有 LVLM 都表现出明显的性能下降,并在转向对抗性设置时经历进一步下降 。这一趋势验证了我们的假设,即 LVLM 固有的统计偏差在很大程度上导致了物体幻觉问题 。在更详细的特定模型分析中,VCD 展示了不同 LVLM 的不同影响 。对于 LLaVA-1.5 和 Qwen-VL , F1 分数的提升主要是由召回率提升(例如高达 10 分)驱动的,展示了其准确检测物体存在的增强能力 。相反 ,  的 F1 分数提高很大程度上归功于精度的提高,这意味着其准确过滤误报的能力得到了增强 。这凸显了 VCD 在 POPE 的二元决策场景中强调各种模型架构的不同属性的能力 。
表 1. POPE 的结果 。常规解码表示直接采样 , 而 VCD 是指从我们提出的对比分布 pvcd 中采样 。每个场景中的最佳表演均以粗体显示 。
MME 幻觉子集的结果 MME 子集评估超出了 POPE 的范围,涵盖了对象级别和属性级别的幻觉 。表 2 中的结果表明,实施 VCD 可以在解决所有模型的物体级幻觉方面得??到统一的增强 。此外 , VCD 显示出对属性级别颜色分数的总体积极影响,有助于显着提高整体性能 。这些改进强调了 VCD 在解决 LVLM 嵌入的统计偏差和语言先验方面的优势 , 从而对更广泛的幻觉挑战产生积极影响 。相比之下,四个指标的位置得分相对较低 , 与 VCD 的提升幅度很小,这表明 LVLM 在位置推理方面的能力相对较弱 。
表 2. MME 幻觉子集的结果 。常规解码表示直接采样,而 VCD 是指从我们提出的对比分布 pvcd 中采样 。每个场景中的最佳表演均以粗体显示 。
MME Full Set 上的结果 如图 4 所示,我们还包括了 MME Full Set 上的 VCD 评估,以评估其对 LVLM 总体能力的影响 。由于所有模型都表现出可比的性能轨迹,我们以 LLaVA-1.5 为代表给出结果。VCD 的实施导致基于感知的任务的持续增强,同时保留了 LVLM 的原始识别能力 。这可能归因于 VCD 减少了统计偏差和语言先验,从而通过确保基于视觉的分析来提高 LVLM 的一般感知能力 。
图 4. LLaVA-1.5 上的 MME 全套结果 。VCD 可以持续增强 LVLM 的感知能力,同时保留其识别能力 。
4.3.
视觉不确定性对幻觉的影响我们进一步研究LLaVA-1.5的物体幻觉如何随着视觉不确定性而变化 。图 6 描绘了随着噪声步长的增加 , POPE 基准的性能明显下降,这表明随着视觉不确定性的增大,物体幻觉将变得更加严重 。这一观察结果与我们之前在第 3.2 节中的发现一致,即视觉不确定性会加剧 LVLM 生成过程中的物体幻觉问题 。我们提出的 VCD 通过将模型输出与原始和扭曲的视觉输入进行对比来作为一种校正机制 。
GPT-4V 开放式生成的辅助评估 除了 POPE 和 MME 评估中采用的“是或否”问题格式之外,我们还使用最近发布的 LVLM 将分析扩展到 LLaVA-Bench 中的开放式字幕任务, GPT-4V,遵循 Yin 等人的观点 。[71] 。表 3 中的结果显示了 VCD 相对于常规解码的一致改进 。观察到的准确性提高表明 VCD 能够有效减轻幻觉 。同时,VCD 对统计偏差和语言先验的抵消增强了 LVLM 的感知能力,响应细节的显着改善就证明了这一点 。
表 3. GPT-4V 辅助评估开放式生成的结果 。准确性衡量响应与图像内容的一致性,详细性衡量响应中细节的丰富程度 。这两个指标的等级均为 10 。
LLaVA-Bench 的案例研究 图 5 展示了两个案例研究,说明在给定相同的提示和图像的情况下,常规解码如何产生受预训练期间固有的统计偏差和语言先验影响的物体幻觉 。例如,在显示的示例中 , 诸如“餐桌”和“叉子”之类的物体通常与可能的真实物体“椅子”同时出现,是幻觉的 。相比之下,VCD 的实施显着减轻了这些幻觉问题,同时保留了输出文本的连贯性和信息量 。由于页数限制,更多案例和消融研究请参阅补充材料
5 结论和局限性
在本文中,我们解决了 LVLM 中的物体幻觉问题 。我们对视觉不确定性如何影响幻觉进行了深入分析,特别是从统计偏差和语言先验方面 。我们的研究结果表明,视觉不确定性放大了这些因素,导致更多的幻觉 。有鉴于此,我们引入了视觉对比解码(VCD),这是一种新颖的免训练方法,它利用对比分布来校准模型的输出,而无需使用外部工具 。我们在多个基准和 LVLM 系列中进行的广泛实验证实了 VCD 在减少幻觉方面的功效 , 并证明了其增强 LVLM 整体感知能力的潜力 。
局限性虽然这项研究采用基本的高斯噪声方法来引入视觉不确定性,但更细粒度的技术(例如对象级模糊)有可能改善结果 。此外,我们的重点仅限于 LVLM 处理图像和文本,而不包括它们在视频理解中的新兴应用 。未来的研究方向包括探索不同的图像失真方法,并将视觉对比解码(VCD)框架扩展到更广泛的 LVLM 。
论文
[1],, and Mario Fritz.vqa:andbyand. Inof the IEEE/CVFonand, pages 9690–9698, 2020. 1, 3
[2], Dhruv Batra, and Devi .theof. arXivarXiv:1606.07356, 2016. 1, 3
[3] Jean- , Jeff ,Luc,Miech, Iain Barr, Yana , Karel Lenc,,,, et al. : amodel for few-shot .in, 35:23716–23736, 2022. 2
[4] Jinze Bai, Shuai Bai,Chu, Zeyu Cui, Kai Dang,Deng, Yang Fan,Ge, Yu Han, Fei Huang, et al. Qwen. arXivarXiv:2309.16609, 2023. 2
[5] Jinze Bai, Shuai Bai,Yang,Wang, Sinan Tan, Peng Wang,Lin, Chang Zhou, andZhou. Qwen-vl: Alarge - model with. arXivarXiv:2308.12966, 2023. 1, 2, 5
[6] AliBiten, Lluís Gómez, and. Let there be a clock on the beach:in image . Inof the IEEE/CVFonof, pages 1381–1390, 2022. 2
[7] Tom Brown,Mann, Nick Ryder,, Jared D ,,,Shyam,,, et al.are few-shot .in, 33:1877–1901, 2020. 2
[8] Long Chen, Oleg , Jan Hü, Alice ,James , Danny Birch,Maund, and Jamie .with llms:-levelfor. arXivarXiv:2310.01957, 2023. 1
[9] Xi Chen, Xiao Wang,, AJ , Piotr ,Salz,, Adam , Basil , Lucas Beyer, et al. Pali: A-image model. arXivarXiv:2209.06794, 2022. 2
[10] Wei-Lin ,Li, Zi Lin, Ying Sheng,Wu, Hao Zhang,Zheng,,,E. , Ion , and Eric P. Xing. : An open-gpt-4 with 90%*, 2023. 2
[11],, Jacob ,Bosma,, Adam , Paul , Hyung Won Chung,,, et al. Palm:with . arXivarXiv:2204.02311, 2022. 2
[12]Dai,Li,Li,Meng Huat Tiong, Junqi Zhao,Wang,Li,Fung, andHoi. :-with. arXivarXiv:2306.04387, 2023. 1, 2, 5
[13] Jacob , Ming-Wei Chang,Lee, and. Bert: Pre- of deepfor. arXivarXiv:1810.04805, 2018. 2
[14] Danny , Fei Xia, Mehdi SM , Corey Lynch,, Brian ,Wahid,, Quan Vuong,Yu, et al. Palm-e: Anmodel. arXivarXiv:2303.03378, 2023. 2
[15]and Yaser Al-. Beamfor. arXivarXiv:1702.01806, 2017. 4
[16]Fu,Chen,Shen, Yulei Qin,Zhang, Xu Lin,Qiu, Wei Lin,Yang, Xiawu Zheng, et al. Mme: Aforlarge. arXivarXiv:2306.13394, 2023. 2, 5
[17],, and M?el Kubli.crowd- for text- tasks. arXivarXiv:2303.15056, 2023. 2
[18] Tao Gong,Lyu,Zhang,Wang, Miao Zheng, Qian Zhao,Liu,Zhang, Ping Luo, and Kai Chen. -gpt: Aandmodel forwith . arXivarXiv:2305.04790, 2023. 1
[19] Yash Goyal, Tejas Khot,-Stay, Dhruv Batra, and Devi .the v in vqa :the role of imagein. Inof the IEEEonand, pages 6904–6913, 2017. 1, 3
[20], Jihan Yin, and Erhan Bas.andin large. arXivarXiv:2308.06394, 2023. 1, 2, 3
[21] Vipul Gupta,Li, Adam ,Zhang,Li, and Alan . :andthe over- onin. Inof the IEEE/CVFonand, pages 5078–5088, 2022. 1
[22]Han,Nie,Yin,Wu, and Yan Yan.-awarefortheprior . arXivarXiv:2207.11850, 2022. 1, 3
[23]Ho and Tim . -free. arXivarXiv:2207.12598, 2022. 4
[24]Ho, Ajay Jain, and..in, 33:6840–6851, 2020. 3
[25] Ari , Jan Buys, Li Du,, and Yejin Choi. Thecase oftext . arXivarXiv:1904.09751, 2019. 4
[26]Hu,Pan,Li, andYang.with: Afrom n-grams to . arXivarXiv:2304.04920, 2023. 1
[27] Drew AandD . Gqa: A newfor real-worldand. Inof the IEEE/CVFonand, pages 6700–6709, 2019. 5
[28] Ziwei Ji,Lee, Rita ,Yu, Dan Su, Yan Xu,Ishii, Ye Jin Bang,, andFung.ofin. ACM, 55(12):1–38, 2023. 2
[29] Jared , Sam , Tom , Tom B Brown,Chess, Rewon Child, Scott Gray, Alec ,Wu, and Dario .laws for. arXivarXiv:2001.08361, 2020. 2
[30] Jae Myung Kim, A ,, andAkata.andfor cross-modal . Inof the IEEE/CVFonand, pages 2584–2594, 2023. 2
[31] MV . Bert: aofinand . arXivarXiv:2103.11943, 2021. 2
[32]Lee, Orhan Firat,, Clara , and David .in. , 2018. 2
[33] Bo Li,Zhang,Chen,Wang,Yang, and Ziwei Liu. Otter: A multi-modal model with in-. arXivarXiv:2305.03726, 2023. 1, 2
[34]Li,Li,Xiong, andHoi. Blip:-image pre- forand . Inon, pages 12888–12900. PMLR, 2022. 2
[35] Lei Li, Yuwei Yin,Li, Liang Chen, Peiyi Wang,Ren, Mukai Li,Yang,Xu, Xu Sun, et al. A large-scalemulti-modal. arXivarXiv:2306.04387, 2023. 3
[36]Li, Mark , Da Yin, Cho-Jui Hsieh, and Kai-Wei Chang. : Aandforand . arXivarXiv:1908.03557, 2019. 2
[37] Xiang Lisa Li, Ari ,Fried, Percy Liang, Jason ,, Luke , and Mike Lewis.: Open-ended textas . arXivarXiv:2210.15097, 2022. 4
[38] Yifan Li, Yifan Du, Kun Zhou,Wang, Wayne Xin Zhao, and Ji-Rong Wen.in large - . arXivarXiv:2305.10355, 2023. 1, 2, 3, 4, 5
[39]Lin, Jacob , and Owain Evans. :howmimic human . arXivarXiv:2109.07958, 2021. 2
[40] Tsung-Yi Lin,Maire, Serge , James Hays,, Deva , Piotr Dollár, and C.coco:in . In–ECCV 2014: 13th, , ,6-12, 2014, , Part V 13, pages 740–755. , 2014. 4, 5
[41] Alisa Liu,Sap,Lu,,, Noah A Smith, and Yejin Choi. : -timetextwithand anti-. arXivarXiv:2105.03023, 2021. 4
[42]Liu, Kevin Lin,Li,Wang, Yaser , andWang.large multi-modal model with. arXivarXiv:2306.14565, 2023. 2, 3
[43]Liu, Kevin Lin,Li,Wang, Yaser , andWang.in large multi-modalvia. arXivarXiv:2306.14565, 2023. 1
[44]Liu,Li,Li, and Yong Jae Lee.with. arXivarXiv:2310.03744, 2023. 2, 5
[45]Liu,Li,Wu, and Yong Jae Lee.. arXivarXiv:2304.08485, 2023. 1, 2
[46]Liu,Zhu, Kenji Kato, Izumi Kondo,, and. Llm-basedfortasks. arXivarXiv:2308.14972, 2023. 1
[47]Liu, Myle Ott, Naman Goyal,Du,Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke , and. : Abert. arXivarXiv:1907.11692, 2019. 2
[48] Holy ,Dai,, Ziwei Ji, andFung.(nope) toin - . arXivarXiv:2310.05338, 2023. 1, 2
[49]Maaz,,Khan, and FahadKhan. Video-:videovia largeand. arXivarXiv:2306.05424, 2023. 1
[50]Mai, Jun Chen, Bing Li,Qian,, and. Llm as abrain:and . arXivarXiv:2304.09349, 2023. 1
[51] Yulei Niu,Tang,Zhang, Zhiwu Lu,Hua, and Ji-Rong Wen.vqa: Alook atbias. Inof the IEEE/CVFonand, pages 12700–12710, 2021. 1
[52] Sean O’Brien and Mike Lewis.in large. arXivarXiv:2309.09117, 2023. 4
[53] Colin , Noam , Adam ,Lee,,, Yanqi Zhou, Wei Li, and Peter J Liu.theofwith atext-to-text . Theof, 21(1):5485–5551, 2020. 2
[54] Anna , Lisa Anne ,Burns,, and Kate .in image . arXivarXiv:1809.02156, 2018. 2
[55],,Clark,, and. A-okvqa: Aforusing world .Inon, pages 146–162. , 2022. 5
[56]Shi,Han, Mike Lewis, Yulia , Luke , and Scott Wen-tau Yih.your :less with -aware . arXivarXiv:2305.14739, 2023. 4
[57]Shi, Sewon Min,,Seo, Rich James, Mike Lewis, Luke , and Wen-tau Yih. : - black-box. arXivarXiv:2301.12652, 2023. 2
[58] Chen Sun,Myers, Carl , Kevin , and. : A joint model for video and. Inof the IEEE/CVFon, pages 7464–7473, 2019. 2
[59]Sun, Sheng Shen,Cao,Liu,Li,Shen,Gan, Liang-Yan Gui,Wang,Yang, et al.largewithrlhf. arXivarXiv:2309.14525, 2023. 2, 3
[60] Rohan Taori,,Zhang, Yann ,Li,, Percy Liang, andB. .: An - llama model. , 2023. 2
[61] Yi Tay,, Vinh Q Tran,, Jason Wei,Wang, Hyung Won Chung, Dara Bahri, Tal ,Zheng, et al. Ul2:. In Theon, 2022.
[62] Hugo ,,,, Marie-Anne , ée ,Rozière, Naman Goyal, Eric ,Azhar, et al. Llama: Open and. arXivarXiv:2302.13971, 2023. 2
[63]Wang,Yang,Hu,Li, Kevin Lin, Zhe Gan,Liu, Ce Liu, andWang. Git: Aimage-to-textforand . arXivarXiv:2205.14100, 2022. 2
[64]Wang,Zhou,Xu,Shi,Zhao,Xu,Ye, Ming Yan, Ji Zhang, Jihua Zhu, et al.andofin large - . arXivarXiv:2308.15126, 2023. 2
[65] Sheng Wang, Zihao Zhao, Xi , Qian Wang, andShen. :-aidedonimage using large. arXivarXiv:2302.07257, 2023. 1
[66] Jason Wei, Yi Tay, Rishi , Colin ,Zoph,, Dani ,Bosma, Denny Zhou,, et al.of large. arXivarXiv:2206.07682, 2022. 2
[67] Yike Wu, Yu Zhao,Zhao, Ying Zhang,Yuan,Zhao, and Ning Jiang.invia. arXivarXiv:2209.08529, 2022. 1
[68]Wu, Ziwei Wang,Xu, Jiwen Lu, andYan.taskwith large. arXivarXiv:2307.01848, 2023. 1
[69] Hong Yan, Lijun Liu,Feng, andHuang.with self-for.Tools and , 82(11):16343–16358, 2023. 1, 3
[70]Ye,Xu,Xu, Jiabo Ye, Ming Yan,Zhou,Wang, Anwen Hu,Shi, Yaya Shi,Li,Xu,Chen,Tian, Qian Qi, Ji Zhang, and Fei Huang. mplug-owl:largewith . arXivarXiv:2304.14178, 2023. 1, 2
[71]Yin,Fu, Sirui Zhao, Tong Xu, Hao Wang,Sui,Shen, Ke Li, Xing Sun, andChen. :forlarge. arXivarXiv:2310.16045, 2023. 5, 8
[72] Yan Zeng,Zhang, and Hang Li. Multi-pre-:texts with. arXivarXiv:2111.08276, 2021. 2
[73] Hang Zhang, Xin Li, andBing. Video-llama: An -tuned audio-model for video . arXivarXiv:2306.02858, 2023. 1
【Mitigating Object Hallucinations in Larg】[74] Yue Zhang, Yafu Li,Cui, Deng Cai, Lemao Liu,Fu,Huang, Enbo Zhao, Yu Zhang,Chen, et al. Siren’s song in the ai ocean: Aonin large. arXivarXiv:2309.01219, 2023. 2
[75] Ren Zhibo, Wang , Zhu Muhua, Wang , Xiao Tong, and Zhu .withfor. Inof the 22ndon, pages 600–610, 2023. 1, 3
[76]Zhou,,Gu, Mona Diab, Paco , Luke , and.in. arXivarXiv:2011.02593, 2020. 2
[77]Zhou,Cui,Yoon,Zhang, Zhun Deng,Finn, Mohit , andYao.andin large. arXivarXiv:2310.00754, 2023. 2, 3, 4
[78] Deyao Zhu, Jun Chen,Shen, Xiang Li, and. -4:-withlarge. arXivarXiv:2304.10592, 2023. 1
[79]Zou,Yang, Hao Zhang, Feng Li,Li,Gao, and Yong Jae Lee.all at once. arXivarXiv:2304.06718, 2023. 5