Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.
- 论文ID: 2510.10466
- 标题: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
- 作者: Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (MAPLE Lab, Westlake University)
- 分类: cs.CV (Computer Vision)
- 发表时间: 2025年10月12日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.10466v1
视觉语言模型(VLMs)在多模态理解方面表现出色,但经常面临幻觉问题——生成语言流畅但与图像内容无关的回答。本文分析了语言偏见如何导致幻觉,并提出了Cross-Modal Guidance(CMG),这是一种无需训练的解码方法,通过对比原始模型和视觉-语言注意力退化模型的输出分布来解决幻觉问题。CMG通过自适应掩蔽选定transformer层中最具影响力的图像token的注意力权重来破坏视觉-语言感知,强化对视觉上下文的感知,显著减少语言偏见而不损害VLMs的能力。
VLMs虽然在多模态理解方面能力强大,但存在严重的幻觉问题:
- 语言偏见驱动的幻觉:模型倾向于基于语言模式生成回答,而忽视视觉信息
- 注意力权重失衡:图像token的注意力权重在深层网络中急剧下降
- 视觉信息利用不足:尽管图像token数量通常远超文本token,但其影响力被低估
- VLMs的幻觉问题阻碍了其广泛应用,带来不可控的风险
- 用户需要可靠的多模态AI系统,准确理解和响应视觉内容
- 现有解决方案要么需要额外训练,要么效果有限
- VCD方法:直接对输入图像添加高斯噪声,但这种扰动在深层网络中变得不可控
- ConVis方法:需要调用昂贵的额外模型来增强视觉信息
- 提示工程方法:效果有限且不够通用
- 后训练方法:需要人工反馈数据和额外训练成本
- 提出CMG方法:一种无需训练的推理方法,通过随机注意力掩蔽有效减少模型幻觉
- 识别幻觉根因:发现视觉-注意力连接不足是幻觉产生的重要原因,并提供严格证据
- 全面实验验证:在多个基准测试上量化评估CMG的有效性,展现其泛化能力
- 理论框架完善:基于点互信息(PMI)建立了对比解码的理论基础
给定文本输入 x={x1,x2,...,xn} 和视觉输入 I={I1,I2,...,Im},VLM需要生成长度为k的文本序列 y={y1,y2,...,yk}。生成过程遵循自回归模式:
pθ(y∣x,I)=∏t=1kpθ(yt∣y<t,x,I)
研究发现VLMs中存在显著的语言偏见:
- 注意力权重衰减:图像token的注意力权重在浅层急剧下降,在深层保持低水平
- 文本token优势:系统token的注意力权重甚至超过包含关键信息的问题token
- 序列长度影响:随着生成序列变长,图像注意力权重逐渐减少
自注意力机制包含三种类型:
- 视觉内注意力 Aiv
- 文本内注意力 Ait
- 跨模态注意力 Acr
A=Aiv∪Ait∪Acr
通过掩蔽部分跨模态和视觉内注意力权重构建业余模型:
SA(Q,K,V;M)=Softmax(A⊙M)V
其中 M:=Mcr∪Miv 是施加在注意力图上的掩蔽。
调整原始VLM的输出分布:
pθ(y∣x,I)∝qθ(y)(qθ(y;M)qθ(y))α
其中:
- qθ(y):=pθ(y∣x,I;Acr,Aiv,Ait) (原始模型)
- qθ(y;M):=pθ(y∣x,I;Acr⊙Mcr,Aiv⊙Miv,Ait) (业余模型)
动态注意力掩蔽:掩蔽 Aiv 和 Acr 中最大的 γ 比例的注意力权重:
SA(Q,K,V;M)=Softmax(A⊙M(γ))V
动态层选择:基于余弦相似度选择重要层:
s(i)=cos(Xi,Yi)=∥Xi∥2∥Yi∥2Xi⋅Yi
选择相似度最小的 τ 比例的层进行掩蔽。
- 内部注意力机制操作:直接操作transformer内部的注意力权重,而非输入扰动
- 自适应掩蔽策略:动态选择最具影响力的注意力权重和层进行掩蔽
- 理论驱动设计:基于PMI理论构建对比解码框架
- 无训练成本:完全在推理阶段工作,无需额外训练
- 幻觉相关基准:HallusionBench、POPE
- 综合评估基准:MME
- POPE:召回率(Recall)、准确率(Accuracy)、精确率(Precision)、总体得分(Overall)
- HallusionBench:问题对准确率(qAcc)、图像准确率(fAcc)、总体准确率(aAcc)
- MME:感知和推理能力的14个子任务得分
- VCD:通过向输入图像添加高斯噪声构建业余模型
- ConVis:使用文本到图像模型重新生成图像并利用差异指导生成
- 骨干模型:LLaVA-v1.5-7B、InstructBLIP-7B、Qwen2-VL-7B、InternVL2.5-8B
- 参数设置:
- 幻觉特定基准:α=0.3,γ=0.5,τ=0.5
- 通用基准MME:α=0.1,γ=0.5,τ=0.1
- 采样参数:top-p=0.9, beam search=5, temperature=0.7
在LLaVA-v1.5-7B上,CMG达到85.48的总体准确率,超越VCD和ConVis。特别值得注意的是,CMG在新架构上表现出正向扩展性(InternVL-2.5上从89.0提升到89.3),而传统方法在架构升级时性能下降。
CMG在准确率方面超越VCD +7.1分,超越ConVis +6.3分,在无额外训练的推理方法中表现领先。
在感知相关子任务上,CMG的总分超越VCD +62.08分,超越ConVis +7.30分。在"颜色"、"场景"、"地标"等语言偏见特别普遍的子集上取得最高分。
CMG在2B、7B、13B、26B等不同参数规模的模型上都表现出稳健的性能提升,展现了良好的可扩展性和架构适应性。
实验验证了几种业余模型构建策略:
- 完全移除视觉注意力:性能严重下降(fAcc: 12.14)
- 噪声替换:性能有限(fAcc: 29.48)
- 文本替换:效果一般(fAcc: 29.77)
- CMG方法:最佳性能(fAcc: 30.06)
论文展示了两个典型案例:
- 绘画理解任务:原始模型错误地将"hat"与角色服装关联,CMG成功纠正并识别出"bandana"
- T恤颜色识别:面对黑色帽子的干扰,CMG通过调整PMI比率准确识别T恤颜色
VLMs的幻觉问题已成为重要研究方向,现有方法主要包括:
- 搜索方法:如贪婪搜索和束搜索,结果准确但可能重复
- 采样方法:如核采样,多样性更好但可能出现不自然的主题转换
- 对比解码:利用两个输出概率的差异构建增强的输出分布
- CMG有效性:无需训练即可显著减少VLMs的幻觉问题
- 语言偏见影响:证实了语言偏见是导致幻觉的重要因素
- 注意力机制重要性:通过操作注意力权重可以有效改善模型行为
- 广泛适用性:方法在多种模型架构和基准测试上都表现出色
- 超参数敏感性:需要针对不同场景仔细调整超参数,如与方程12中n0相关的掩蔽比率
- 动态调优需求:当前获得最优结果需要动态超参数调优,增加了使用复杂性
- 计算开销:需要同时运行原始模型和业余模型,增加推理时间
- 自动超参数调优:开发自适应参数选择机制
- 效率优化:减少计算开销,提高推理效率
- 理论完善:进一步完善对比解码的理论基础
- 创新性强:首次从注意力机制角度解决VLMs幻觉问题,提供了新的研究视角
- 理论基础扎实:基于PMI构建的对比解码框架具有坚实的理论基础
- 实验全面:在多个基准、多种模型上进行了充分验证
- 实用价值高:无需训练即可应用,降低了使用门槛
- 分析深入:对语言偏见产生机制的分析具有重要洞察价值
- 复杂性较高:涉及多个超参数和动态选择策略,使用复杂度较高
- 计算成本:需要同时运行两个模型,推理成本增加
- 参数敏感:效果对超参数选择较为敏感,可能影响实际应用
- 适用范围:主要针对基于transformer的VLMs,对其他架构的适用性未知
- 学术贡献:为VLMs幻觉问题提供了新的解决思路,可能启发后续研究
- 实用价值:无训练特性使其容易在现有系统中部署
- 可复现性:方法描述详细,实验设置清晰,具有良好的可复现性
- 需要高质量视觉理解的应用场景
- 对幻觉问题敏感的安全关键应用
- 无法进行额外训练的资源受限环境
- 需要快速部署的商业应用
论文引用了62篇相关文献,涵盖了VLMs、幻觉检测、对比解码等相关领域的重要工作,为研究提供了充分的理论基础和对比基准。
总体评价:这是一篇高质量的研究论文,在VLMs幻觉问题这一重要研究方向上提出了创新性解决方案。方法具有坚实的理论基础和优异的实验表现,对学术界和工业界都具有重要价值。尽管存在一些局限性,但其贡献和影响力不容忽视。