2025-11-18T20:07:12.683154

When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance

Cao, Chen, Wang et al.

Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.

academic

이미지가 더 크게 말할 때: 교차 모달 가이던스를 통한 VLM의 언어 편향 유도 환각 완화

기본 정보

논문 ID: 2510.10466
제목: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
저자: Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (MAPLE Lab, Westlake University)
분류: cs.CV (컴퓨터 비전)
발표 시간: 2025년 10월 12일 (arXiv 사전 인쇄본)
논문 링크: https://arxiv.org/abs/2510.10466v1

초록

시각 언어 모델(VLMs)은 다중 모달 이해에서 뛰어난 성능을 보이지만, 언어적으로는 유창하지만 이미지 내용과 무관한 응답을 생성하는 환각 문제에 자주 직면한다. 본 논문은 언어 편향이 어떻게 환각을 유도하는지 분석하고, 원본 모델과 시각-언어 주의 저하 모델의 출력 분포를 대조함으로써 환각 문제를 해결하는 훈련 불필요 디코딩 방법인 교차 모달 가이던스(CMG)를 제안한다. CMG는 선택된 트랜스포머 층의 가장 영향력 있는 이미지 토큰의 주의 가중치를 적응형 마스킹을 통해 손상시켜 시각-언어 인식을 파괴하고 시각적 맥락에 대한 인식을 강화하여 VLM의 능력을 손상시키지 않으면서 언어 편향을 현저히 감소시킨다.

연구 배경 및 동기

핵심 문제

VLM은 다중 모달 이해 능력이 강력하지만 심각한 환각 문제가 존재한다:

언어 편향 유도 환각: 모델은 시각 정보를 무시하고 언어 패턴을 기반으로 응답을 생성하는 경향이 있다
주의 가중치 불균형: 이미지 토큰의 주의 가중치가 심층 네트워크에서 급격히 감소한다
시각 정보 활용 부족: 이미지 토큰 수가 일반적으로 텍스트 토큰을 훨씬 초과하지만 그 영향력이 과소평가된다

문제의 중요성

VLM의 환각 문제는 광범위한 응용을 방해하고 통제 불가능한 위험을 초래한다
사용자는 시각 내용을 정확하게 이해하고 응답하는 신뢰할 수 있는 다중 모달 AI 시스템이 필요하다
기존 솔루션은 추가 훈련이 필요하거나 효과가 제한적이다

기존 방법의 한계

VCD 방법: 입력 이미지에 직접 가우시안 노이즈를 추가하지만, 이러한 교란은 심층 네트워크에서 통제 불가능해진다
ConVis 방법: 시각 정보를 강화하기 위해 비용이 많이 드는 추가 모델을 호출해야 한다
프롬프트 엔지니어링 방법: 효과가 제한적이고 충분히 범용적이지 않다
사후 훈련 방법: 인간 피드백 데이터와 추가 훈련 비용이 필요하다

핵심 기여

CMG 방법 제안: 모델 환각을 효과적으로 감소시키는 훈련 불필요 추론 방법
환각 근본 원인 파악: 시각-주의 연결 부족이 환각 생성의 중요한 원인임을 발견하고 엄격한 증거 제공
포괄적 실험 검증: 여러 벤치마크에서 CMG의 효과성을 정량적으로 평가하여 일반화 능력 입증
이론적 프레임워크 완성: 점 상호 정보(PMI)를 기반으로 대조 디코딩의 이론적 기초 구축

방법 상세 설명

작업 정의

텍스트 입력 $x = \{x_1, x_2, ..., x_n\}$ 과 시각 입력 $I = \{I_1, I_2, ..., I_m\}$ 이 주어졌을 때, VLM은 길이 k의 텍스트 시퀀스 $y = \{y_1, y_2, ..., y_k\}$ 를 생성해야 한다. 생성 과정은 자회귀 패턴을 따른다:

$p_\theta(y|x,I) = \prod_{t=1}^k p_\theta(y_t|y_{<t}, x, I)$

언어 편향 분석

연구는 VLM에서 현저한 언어 편향의 존재를 발견했다:

주의 가중치 감소: 이미지 토큰의 주의 가중치가 얕은 층에서 급격히 감소하고 심층에서 낮은 수준을 유지한다
텍스트 토큰 우위: 시스템 토큰의 주의 가중치가 핵심 정보를 포함하는 질문 토큰을 초과한다
시퀀스 길이 영향: 생성 시퀀스가 길어질수록 이미지 주의 가중치가 점진적으로 감소한다

CMG 핵심 아키텍처

1. 아마추어 모델 구축

자기 주의 메커니즘은 세 가지 유형을 포함한다:

시각 내 주의 $A_{iv}$
텍스트 내 주의 $A_{it}$
교차 모달 주의 $A_{cr}$

$A = A_{iv} \cup A_{it} \cup A_{cr}$

부분 교차 모달 및 시각 내 주의 가중치를 마스킹하여 아마추어 모델을 구축한다:

$SA(Q,K,V;M) = \text{Softmax}(A \odot M)V$

여기서 $M := M_{cr} \cup M_{iv}$ 는 주의 맵에 적용되는 마스크이다.

2. 대조 디코딩 전략

원본 VLM의 출력 분포를 조정한다:

$p_\theta(y|x,I) \propto q_\theta(y) \left(\frac{q_\theta(y)}{q_\theta(y;M)}\right)^\alpha$

여기서:

$q_\theta(y) := p_\theta(y|x,I;A_{cr}, A_{iv}, A_{it})$ (원본 모델)
$q_\theta(y;M) := p_\theta(y|x,I;A_{cr} \odot M_{cr}, A_{iv} \odot M_{iv}, A_{it})$ (아마추어 모델)

3. 동적 마스킹 전략

동적 주의 마스킹: $A_{iv}$ 와 $A_{cr}$ 에서 최대 $\gamma$ 비율의 주의 가중치를 마스킹한다:

$SA(Q,K,V;M) = \text{Softmax}(A \odot M(\gamma))V$

동적 층 선택: 코사인 유사도를 기반으로 중요 층을 선택한다:

$s(i) = \cos(X_i, Y_i) = \frac{X_i \cdot Y_i}{\|X_i\|_2 \|Y_i\|_2}$

유사도가 가장 낮은 $\tau$ 비율의 층을 마스킹하도록 선택한다.

기술 혁신 포인트

내부 주의 메커니즘 조작: 입력 교란이 아닌 트랜스포머 내부의 주의 가중치를 직접 조작한다
적응형 마스킹 전략: 가장 영향력 있는 주의 가중치와 층을 동적으로 선택하여 마스킹한다
이론 기반 설계: PMI 이론을 기반으로 대조 디코딩 프레임워크를 구축한다
훈련 비용 없음: 추론 단계에서만 작동하며 추가 훈련이 필요 없다

실험 설정

데이터셋

환각 관련 벤치마크: HallusionBench, POPE
종합 평가 벤치마크: MME

평가 지표

POPE: 재현율(Recall), 정확도(Accuracy), 정밀도(Precision), 전체 점수(Overall)
HallusionBench: 질문 정확도(qAcc), 이미지 정확도(fAcc), 전체 정확도(aAcc)
MME: 인식 및 추론 능력의 14개 하위 작업 점수

비교 방법

VCD: 입력 이미지에 가우시안 노이즈를 추가하여 아마추어 모델 구축
ConVis: 텍스트-이미지 모델을 사용하여 이미지를 재생성하고 차이를 활용하여 생성 지도

구현 세부사항

백본 모델: LLaVA-v1.5-7B, InstructBLIP-7B, Qwen2-VL-7B, InternVL2.5-8B
매개변수 설정:
- 환각 특정 벤치마크: $\alpha=0.3, \gamma=0.5, \tau=0.5$
- 범용 벤치마크 MME: $\alpha=0.1, \gamma=0.5, \tau=0.1$
샘플링 매개변수: top-p=0.9, beam search=5, temperature=0.7

실험 결과

주요 결과

POPE 벤치마크 테스트

LLaVA-v1.5-7B에서 CMG는 85.48의 전체 정확도를 달성하여 VCD 및 ConVis를 능가한다. 특히 주목할 점은 CMG가 새로운 아키텍처에서 긍정적 확장성을 보여준다는 것이다(InternVL-2.5에서 89.0에서 89.3으로 상승). 반면 기존 방법은 아키텍처 업그레이드 시 성능이 저하된다.

HallusionBench 벤치마크 테스트

CMG는 정확도 측면에서 VCD를 +7.1점, ConVis를 +6.3점 능가하며 추가 훈련 없는 추론 방법 중 최고 성능을 보인다.

MME 벤치마크 테스트

인식 관련 하위 작업에서 CMG의 총점은 VCD를 +62.08점, ConVis를 +7.30점 능가한다. "색상", "장면", "랜드마크" 등 언어 편향이 특히 만연한 부분집합에서 최고 점수를 달성한다.

다양한 모델 규모의 결과

CMG는 2B, 7B, 13B, 26B 등 다양한 매개변수 규모의 모델에서 안정적인 성능 향상을 보여주며 우수한 확장성과 아키텍처 적응성을 입증한다.

절제 실험

실험은 여러 아마추어 모델 구축 전략을 검증했다:

시각 주의 완전 제거: 심각한 성능 저하(fAcc: 12.14)
노이즈 대체: 제한적 성능(fAcc: 29.48)
텍스트 대체: 일반적 효과(fAcc: 29.77)
CMG 방법: 최고 성능(fAcc: 30.06)

사례 분석

논문은 두 가지 전형적인 사례를 제시한다:

그림 이해 작업: 원본 모델은 "hat"을 캐릭터 의상과 잘못 연결했으나, CMG는 성공적으로 수정하고 "bandana"를 식별한다
T셔츠 색상 식별: 검은 모자의 간섭에 직면하여 CMG는 PMI 비율을 조정하여 T셔츠 색상을 정확히 식별한다

결론 및 논의

주요 결론

CMG 효과성: 훈련 없이도 VLM의 환각 문제를 현저히 감소시킬 수 있다
언어 편향 영향: 언어 편향이 환각을 유도하는 중요한 요인임을 확인했다
주의 메커니즘 중요성: 주의 가중치 조작을 통해 모델 행동을 효과적으로 개선할 수 있다
광범위한 적용성: 방법은 다양한 모델 아키텍처 및 벤치마크에서 우수한 성능을 보인다

한계

초매개변수 민감성: 방정식 12의 $n_0$ 와 관련된 마스킹 비율 등 다양한 시나리오에 대해 초매개변수를 신중하게 조정해야 한다
동적 조정 필요: 현재 최적 결과를 얻으려면 동적 초매개변수 조정이 필요하여 사용 복잡성이 증가한다
계산 오버헤드: 원본 모델과 아마추어 모델을 동시에 실행해야 하므로 추론 시간이 증가한다

향후 방향

자동 초매개변수 조정: 적응형 매개변수 선택 메커니즘 개발
효율성 최적화: 계산 오버헤드 감소 및 추론 효율성 향상
이론 완성: 대조 디코딩의 이론적 기초 추가 완성

심층 평가

장점

높은 혁신성: 주의 메커니즘 관점에서 VLM 환각 문제를 해결한 최초의 시도로 새로운 연구 관점을 제공한다
견고한 이론 기초: PMI를 기반으로 구축된 대조 디코딩 프레임워크는 견고한 이론적 기초를 가진다
포괄적 실험: 여러 벤치마크 및 다양한 모델에서 충분한 검증을 수행했다
높은 실용 가치: 훈련 없이 적용 가능하여 사용 진입 장벽을 낮춘다
심층 분석: 언어 편향 생성 메커니즘에 대한 분석은 중요한 통찰력을 제공한다

부족한 점

높은 복잡성: 여러 초매개변수 및 동적 선택 전략이 포함되어 사용 복잡도가 높다
계산 비용: 두 모델을 동시에 실행해야 하므로 추론 비용이 증가한다
매개변수 민감성: 효과가 초매개변수 선택에 민감하여 실제 응용에 영향을 미칠 수 있다
적용 범위: 주로 트랜스포머 기반 VLM을 대상으로 하며 다른 아키텍처에 대한 적용성은 미지수이다

영향력

학술 기여: VLM 환각 문제에 새로운 해결 방안을 제공하여 후속 연구에 영감을 줄 수 있다
실용 가치: 훈련 불필요 특성으로 기존 시스템에 쉽게 배포할 수 있다
재현성: 방법 설명이 상세하고 실험 설정이 명확하여 우수한 재현성을 가진다

적용 시나리오

고품질 시각 이해가 필요한 응용 시나리오
환각 문제에 민감한 안전 중요 응용
추가 훈련이 불가능한 자원 제약 환경
빠른 배포가 필요한 상용 응용

참고문헌

논문은 VLM, 환각 감지, 대조 디코딩 등 관련 분야의 중요한 연구를 포함하는 62개의 관련 문헌을 인용하여 연구에 충분한 이론적 기초와 비교 벤치마크를 제공한다.

종합 평가: 이는 VLM 환각 문제라는 중요한 연구 방향에서 혁신적인 해결책을 제시한 고품질 연구 논문이다. 방법은 견고한 이론적 기초와 우수한 실험 성능을 가지고 있으며 학계와 산업계 모두에 중요한 가치를 가진다. 일부 한계가 있지만 그 기여도와 영향력은 무시할 수 없다.