2025-11-18T20:07:12.683154

When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance

Cao, Chen, Wang et al.

Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.

academic

Grundlegende Informationen

Paper-ID: 2510.10466
Titel: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
Autoren: Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (MAPLE Lab, Westlake University)
Klassifizierung: cs.CV (Computer Vision)
Veröffentlichungsdatum: 12. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.10466v1

Zusammenfassung

Visuell-sprachliche Modelle (VLMs) zeigen hervorragende Leistungen im multimodalen Verständnis, sind aber häufig mit Halluzinationsproblemen konfrontiert – der Generierung sprachlich flüssiger, aber bildinhaltlich irrelevanter Antworten. Dieses Paper analysiert, wie Sprachverzerrung zu Halluzinationen führt, und schlägt Cross-Modal Guidance (CMG) vor, eine trainingsfreie Dekodierungsmethode, die Halluzinationen durch Kontrastierung der Ausgabeverteilungen des ursprünglichen Modells und eines visuell-sprachlich degradierten Modells behebt. CMG zerstört die visuell-sprachliche Wahrnehmung durch adaptive Maskierung der Aufmerksamkeitsgewichte der einflussreichsten Bild-Token in ausgewählten Transformer-Schichten, verstärkt die Wahrnehmung des visuellen Kontexts und reduziert erheblich die Sprachverzerrung, ohne die Fähigkeiten von VLMs zu beeinträchtigen.

Forschungshintergrund und Motivation

Kernprobleme

Obwohl VLMs starke Fähigkeiten im multimodalen Verständnis besitzen, weisen sie schwerwiegende Halluzinationsprobleme auf:

Sprachverzerrungsinduzierte Halluzinationen: Modelle neigen dazu, Antworten basierend auf Sprachmustern zu generieren und visuelle Informationen zu ignorieren
Unausgewogene Aufmerksamkeitsgewichte: Die Aufmerksamkeitsgewichte von Bild-Token fallen in tieferen Netzwerkschichten drastisch ab
Unzureichende Nutzung visueller Informationen: Obwohl die Anzahl der Bild-Token typischerweise die Text-Token übersteigt, wird deren Einfluss unterschätzt

Bedeutung des Problems

Das Halluzinationsproblem von VLMs behindert ihre breite Anwendung und birgt unkontrollierbare Risiken
Benutzer benötigen zuverlässige multimodale KI-Systeme, die visuelle Inhalte genau verstehen und darauf reagieren
Bestehende Lösungen erfordern entweder zusätzliches Training oder zeigen begrenzte Wirksamkeit

Einschränkungen bestehender Methoden

VCD-Methode: Fügt direkt Gaußsches Rauschen zu Eingabebildern hinzu, aber diese Störung wird in tieferen Netzwerken unkontrollierbar
ConVis-Methode: Erfordert den Aufruf teurer zusätzlicher Modelle zur Verstärkung visueller Informationen
Prompt-Engineering-Methoden: Begrenzte Wirksamkeit und unzureichende Allgemeingültigkeit
Post-Training-Methoden: Erfordern manuelles Feedback und zusätzliche Trainingskosten

Kernbeiträge

Vorschlag der CMG-Methode: Eine trainingsfreie Inferenzmethode, die durch zufällige Aufmerksamkeitsmaskierung Modellhalluzinationen effektiv reduziert
Identifikation der Halluzinationsursachen: Entdeckung, dass unzureichende visuell-sprachliche Verbindungen ein wichtiger Grund für Halluzinationen sind, mit strengem Nachweis
Umfassende experimentelle Validierung: Quantitative Bewertung der Wirksamkeit von CMG auf mehreren Benchmarks mit Demonstration der Generalisierungsfähigkeit
Vervollständigung des theoretischen Rahmens: Etablierung einer theoretischen Grundlage für kontrastive Dekodierung basierend auf Punkt-gegenseitiger Information (PMI)

Methodische Details

Aufgabendefinition

Gegeben eine Texteingabe $x = \{x_1, x_2, ..., x_n\}$ und eine visuelle Eingabe $I = \{I_1, I_2, ..., I_m\}$ , muss das VLM eine Textsequenz der Länge k $y = \{y_1, y_2, ..., y_k\}$ generieren. Der Generierungsprozess folgt einem autoregressiven Muster:

$p_\theta(y|x,I) = \prod_{t=1}^k p_\theta(y_t|y_{<t}, x, I)$

Analyse der Sprachverzerrung

Die Forschung zeigt erhebliche Sprachverzerrungen in VLMs:

Aufmerksamkeitsgewichtsabfall: Die Aufmerksamkeitsgewichte von Bild-Token fallen in flachen Schichten drastisch ab und bleiben in tieferen Schichten niedrig
Text-Token-Vorteil: Die Aufmerksamkeitsgewichte von System-Token übersteigen sogar die von Frage-Token mit Schlüsselinformationen
Sequenzlängeneinfluss: Mit zunehmender Generierungssequenzlänge nehmen die Bild-Aufmerksamkeitsgewichte allmählich ab

CMG-Kernarchitektur

1. Konstruktion des Amateur-Modells

Der Self-Attention-Mechanismus enthält drei Typen:

Intra-visuelle Aufmerksamkeit $A_{iv}$
Intra-textuelle Aufmerksamkeit $A_{it}$
Cross-modale Aufmerksamkeit $A_{cr}$

$A = A_{iv} \cup A_{it} \cup A_{cr}$

Das Amateur-Modell wird durch Maskierung teilweiser Cross-modaler und intra-visueller Aufmerksamkeitsgewichte konstruiert:

$SA(Q,K,V;M) = \text{Softmax}(A \odot M)V$

wobei $M := M_{cr} \cup M_{iv}$ die auf die Aufmerksamkeitskarte angewendete Maske ist.

2. Kontrastive Dekodierungsstrategie

Anpassung der Ausgabeverteilung des ursprünglichen VLM:

$p_\theta(y|x,I) \propto q_\theta(y) \left(\frac{q_\theta(y)}{q_\theta(y;M)}\right)^\alpha$

wobei:

$q_\theta(y) := p_\theta(y|x,I;A_{cr}, A_{iv}, A_{it})$ (ursprüngliches Modell)
$q_\theta(y;M) := p_\theta(y|x,I;A_{cr} \odot M_{cr}, A_{iv} \odot M_{iv}, A_{it})$ (Amateur-Modell)

3. Dynamische Maskierungsstrategie

Dynamische Aufmerksamkeitsmaskierung: Maskierung der größten $\gamma$ Proportion der Aufmerksamkeitsgewichte in $A_{iv}$ und $A_{cr}$ :

$SA(Q,K,V;M) = \text{Softmax}(A \odot M(\gamma))V$

Dynamische Schichtauswahl: Auswahl wichtiger Schichten basierend auf Kosinusähnlichkeit:

$s(i) = \cos(X_i, Y_i) = \frac{X_i \cdot Y_i}{\|X_i\|_2 \|Y_i\|_2}$

Maskierung der $\tau$ Proportion der Schichten mit der kleinsten Ähnlichkeit.

Technische Innovationen

Interne Aufmerksamkeitsmechanismus-Operationen: Direkte Manipulation der Aufmerksamkeitsgewichte innerhalb des Transformers statt Eingabestörung
Adaptive Maskierungsstrategie: Dynamische Auswahl der einflussreichsten Aufmerksamkeitsgewichte und Schichten zur Maskierung
Theoriegesteuerte Gestaltung: Kontrastive Dekodierungsrahmen basierend auf PMI-Theorie
Trainingsfreie Kosten: Funktioniert vollständig in der Inferenzphase ohne zusätzliches Training

Experimentelle Einrichtung

Datensätze

Halluzinationsbezogene Benchmarks: HallusionBench, POPE
Umfassende Bewertungs-Benchmarks: MME

Bewertungsmetriken

POPE: Recall, Accuracy, Precision, Overall Score
HallusionBench: Frage-Accuracy (qAcc), Bild-Accuracy (fAcc), Gesamt-Accuracy (aAcc)
MME: 14 Unterkategorien-Scores für Wahrnehmungs- und Reasoning-Fähigkeiten

Vergleichsmethoden

VCD: Konstruktion eines Amateur-Modells durch Hinzufügen von Gaußschem Rauschen zu Eingabebildern
ConVis: Verwendung von Text-zu-Bild-Modellen zur Neugenerierung von Bildern und Nutzung von Unterschieden zur Lenkung der Generierung

Implementierungsdetails

Backbone-Modelle: LLaVA-v1.5-7B, InstructBLIP-7B, Qwen2-VL-7B, InternVL2.5-8B
Parametereinstellungen:
- Halluzinationsspezifische Benchmarks: $\alpha=0.3, \gamma=0.5, \tau=0.5$
- Universelle Benchmark MME: $\alpha=0.1, \gamma=0.5, \tau=0.1$
Sampling-Parameter: top-p=0.9, beam search=5, temperature=0.7

Experimentelle Ergebnisse

Hauptergebnisse

POPE-Benchmark-Tests

Auf LLaVA-v1.5-7B erreicht CMG eine Gesamt-Genauigkeit von 85,48, übertrifft VCD und ConVis. Besonders bemerkenswert ist, dass CMG auf neuen Architekturen positive Skalierbarkeit zeigt (Verbesserung von 89,0 auf 89,3 auf InternVL-2.5), während traditionelle Methoden bei Architektur-Upgrades an Leistung verlieren.

HallusionBench-Benchmark-Tests

CMG übertrifft VCD um +7,1 Punkte und ConVis um +6,3 Punkte in der Genauigkeit und zeigt führende Leistung unter trainingsfreien Inferenzmethoden.

MME-Benchmark-Tests

Bei wahrnehmungsbezogenen Unterkategorien übertrifft die Gesamtpunktzahl von CMG VCD um +62,08 Punkte und ConVis um +7,30 Punkte. Erreicht höchste Scores in Unterkategorien wie "Farbe", "Szene" und "Wahrzeichen", wo Sprachverzerrung besonders verbreitet ist.

Ergebnisse bei verschiedenen Modellgrößen

CMG zeigt robuste Leistungsverbesserungen bei Modellen verschiedener Parametergrößen (2B, 7B, 13B, 26B) und demonstriert gute Skalierbarkeit und Architektur-Adaptivität.

Ablationsstudien

Experimente validieren verschiedene Amateur-Modell-Konstruktionsstrategien:

Vollständige Entfernung visueller Aufmerksamkeit: Schwerwiegende Leistungsabnahme (fAcc: 12,14)
Rausch-Ersatz: Begrenzte Leistung (fAcc: 29,48)
Text-Ersatz: Allgemeine Wirksamkeit (fAcc: 29,77)
CMG-Methode: Beste Leistung (fAcc: 30,06)

Fallstudien

Das Paper zeigt zwei typische Fälle:

Gemälde-Verständnisaufgabe: Das ursprüngliche Modell assoziiert fälschlicherweise "hat" mit der Charakterkleidung, CMG korrigiert erfolgreich und identifiziert "bandana"
T-Shirt-Farbenerkennung: Angesichts der Störung durch einen schwarzen Hut identifiziert CMG durch Anpassung des PMI-Verhältnisses genau die T-Shirt-Farbe

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

CMG-Wirksamkeit: Signifikante Reduktion von VLM-Halluzinationen ohne Training erforderlich
Sprachverzerrungseinfluss: Bestätigung, dass Sprachverzerrung ein wichtiger Faktor für Halluzinationen ist
Bedeutung des Aufmerksamkeitsmechanismus: Manipulation von Aufmerksamkeitsgewichten kann Modellverhalten effektiv verbessern
Breite Anwendbarkeit: Methode zeigt hervorragende Leistung über verschiedene Modellarchitekturen und Benchmarks

Einschränkungen

Hyperparameter-Empfindlichkeit: Erfordert sorgfältige Anpassung von Hyperparametern für verschiedene Szenarien, wie Maskierungsverhältnisse bezogen auf $n_0$ in Gleichung 12
Dynamische Optimierungsanforderungen: Optimale Ergebnisse erfordern derzeit dynamische Hyperparameter-Optimierung, was die Nutzungskomplexität erhöht
Rechenlast: Erfordert gleichzeitige Ausführung des ursprünglichen Modells und des Amateur-Modells, erhöht die Inferenzzeit

Zukünftige Richtungen

Automatische Hyperparameter-Optimierung: Entwicklung adaptiver Parameterauswahlmechanismen
Effizienzoptimierung: Reduzierung der Rechenlast und Verbesserung der Inferenzeffizienz
Theoretische Vervollständigung: Weitere Verbesserung der theoretischen Grundlagen der kontrastiven Dekodierung

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Erste Lösung des VLM-Halluzinationsproblems aus der Perspektive des Aufmerksamkeitsmechanismus, bietet neue Forschungsperspektive
Solide theoretische Grundlagen: Der auf PMI basierende kontrastive Dekodierungsrahmen hat eine fundierte theoretische Grundlage
Umfassende Experimente: Ausreichende Validierung über mehrere Benchmarks und Modelle
Hoher praktischer Wert: Anwendbar ohne Training, senkt die Nutzungsschwelle
Tiefgreifende Analyse: Die Analyse des Mechanismus der Sprachverzerrungserzeugung bietet wichtige Einsichten

Mängel

Höhere Komplexität: Beinhaltet mehrere Hyperparameter und dynamische Auswahlstrategien, höhere Nutzungskomplexität
Rechnerische Kosten: Erfordert gleichzeitige Ausführung zweier Modelle, erhöhte Inferenzkosten
Parameterempfindlichkeit: Wirksamkeit ist relativ empfindlich gegenüber Hyperparameter-Auswahl, kann praktische Anwendung beeinflussen
Anwendungsbereich: Hauptsächlich auf Transformer-basierte VLMs ausgerichtet, Anwendbarkeit auf andere Architekturen unklar

Auswirkungen

Akademischer Beitrag: Bietet neue Lösungsansätze für VLM-Halluzinationsprobleme, kann nachfolgende Forschung inspirieren
Praktischer Wert: Trainingsfreie Charakteristik ermöglicht einfache Bereitstellung in bestehenden Systemen
Reproduzierbarkeit: Detaillierte Methodenbeschreibung und klare experimentelle Einrichtung, gute Reproduzierbarkeit

Anwendungsszenarien

Anwendungsszenarien, die hochwertige visuelle Verständigung erfordern
Sicherheitskritische Anwendungen, die gegenüber Halluzinationsproblemen empfindlich sind
Ressourcenbegrenzte Umgebungen, in denen zusätzliches Training nicht möglich ist
Kommerzielle Anwendungen, die schnelle Bereitstellung erfordern

Referenzen

Das Paper zitiert 62 verwandte Literaturquellen, die wichtige Arbeiten in den Bereichen VLMs, Halluzinationserkennung und kontrastive Dekodierung abdecken und eine ausreichende theoretische Grundlage und Vergleichsbenchmarks für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für das wichtige Forschungsgebiet der VLM-Halluzinationen bietet. Die Methode hat eine solide theoretische Grundlage und hervorragende experimentelle Leistung und hat wichtigen Wert für Akademie und Industrie. Trotz einiger Einschränkungen sind ihre Beiträge und Auswirkungen nicht zu übersehen.

When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance

Wenn Bilder lauter sprechen: Minderung sprachverzerrungsinduzierter Halluzinationen in VLMs durch Cross-Modal Guidance