2025-11-18T20:07:12.683154

When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance

Cao, Chen, Wang et al.
Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.
academic

Wenn Bilder lauter sprechen: Minderung sprachverzerrungsinduzierter Halluzinationen in VLMs durch Cross-Modal Guidance

Grundlegende Informationen

  • Paper-ID: 2510.10466
  • Titel: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
  • Autoren: Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (MAPLE Lab, Westlake University)
  • Klassifizierung: cs.CV (Computer Vision)
  • Veröffentlichungsdatum: 12. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.10466v1

Zusammenfassung

Visuell-sprachliche Modelle (VLMs) zeigen hervorragende Leistungen im multimodalen Verständnis, sind aber häufig mit Halluzinationsproblemen konfrontiert – der Generierung sprachlich flüssiger, aber bildinhaltlich irrelevanter Antworten. Dieses Paper analysiert, wie Sprachverzerrung zu Halluzinationen führt, und schlägt Cross-Modal Guidance (CMG) vor, eine trainingsfreie Dekodierungsmethode, die Halluzinationen durch Kontrastierung der Ausgabeverteilungen des ursprünglichen Modells und eines visuell-sprachlich degradierten Modells behebt. CMG zerstört die visuell-sprachliche Wahrnehmung durch adaptive Maskierung der Aufmerksamkeitsgewichte der einflussreichsten Bild-Token in ausgewählten Transformer-Schichten, verstärkt die Wahrnehmung des visuellen Kontexts und reduziert erheblich die Sprachverzerrung, ohne die Fähigkeiten von VLMs zu beeinträchtigen.

Forschungshintergrund und Motivation

Kernprobleme

Obwohl VLMs starke Fähigkeiten im multimodalen Verständnis besitzen, weisen sie schwerwiegende Halluzinationsprobleme auf:

  1. Sprachverzerrungsinduzierte Halluzinationen: Modelle neigen dazu, Antworten basierend auf Sprachmustern zu generieren und visuelle Informationen zu ignorieren
  2. Unausgewogene Aufmerksamkeitsgewichte: Die Aufmerksamkeitsgewichte von Bild-Token fallen in tieferen Netzwerkschichten drastisch ab
  3. Unzureichende Nutzung visueller Informationen: Obwohl die Anzahl der Bild-Token typischerweise die Text-Token übersteigt, wird deren Einfluss unterschätzt

Bedeutung des Problems

  • Das Halluzinationsproblem von VLMs behindert ihre breite Anwendung und birgt unkontrollierbare Risiken
  • Benutzer benötigen zuverlässige multimodale KI-Systeme, die visuelle Inhalte genau verstehen und darauf reagieren
  • Bestehende Lösungen erfordern entweder zusätzliches Training oder zeigen begrenzte Wirksamkeit

Einschränkungen bestehender Methoden

  1. VCD-Methode: Fügt direkt Gaußsches Rauschen zu Eingabebildern hinzu, aber diese Störung wird in tieferen Netzwerken unkontrollierbar
  2. ConVis-Methode: Erfordert den Aufruf teurer zusätzlicher Modelle zur Verstärkung visueller Informationen
  3. Prompt-Engineering-Methoden: Begrenzte Wirksamkeit und unzureichende Allgemeingültigkeit
  4. Post-Training-Methoden: Erfordern manuelles Feedback und zusätzliche Trainingskosten

Kernbeiträge

  1. Vorschlag der CMG-Methode: Eine trainingsfreie Inferenzmethode, die durch zufällige Aufmerksamkeitsmaskierung Modellhalluzinationen effektiv reduziert
  2. Identifikation der Halluzinationsursachen: Entdeckung, dass unzureichende visuell-sprachliche Verbindungen ein wichtiger Grund für Halluzinationen sind, mit strengem Nachweis
  3. Umfassende experimentelle Validierung: Quantitative Bewertung der Wirksamkeit von CMG auf mehreren Benchmarks mit Demonstration der Generalisierungsfähigkeit
  4. Vervollständigung des theoretischen Rahmens: Etablierung einer theoretischen Grundlage für kontrastive Dekodierung basierend auf Punkt-gegenseitiger Information (PMI)

Methodische Details

Aufgabendefinition

Gegeben eine Texteingabe x={x1,x2,...,xn}x = \{x_1, x_2, ..., x_n\} und eine visuelle Eingabe I={I1,I2,...,Im}I = \{I_1, I_2, ..., I_m\}, muss das VLM eine Textsequenz der Länge k y={y1,y2,...,yk}y = \{y_1, y_2, ..., y_k\} generieren. Der Generierungsprozess folgt einem autoregressiven Muster:

pθ(yx,I)=t=1kpθ(yty<t,x,I)p_\theta(y|x,I) = \prod_{t=1}^k p_\theta(y_t|y_{<t}, x, I)

Analyse der Sprachverzerrung

Die Forschung zeigt erhebliche Sprachverzerrungen in VLMs:

  1. Aufmerksamkeitsgewichtsabfall: Die Aufmerksamkeitsgewichte von Bild-Token fallen in flachen Schichten drastisch ab und bleiben in tieferen Schichten niedrig
  2. Text-Token-Vorteil: Die Aufmerksamkeitsgewichte von System-Token übersteigen sogar die von Frage-Token mit Schlüsselinformationen
  3. Sequenzlängeneinfluss: Mit zunehmender Generierungssequenzlänge nehmen die Bild-Aufmerksamkeitsgewichte allmählich ab

CMG-Kernarchitektur

1. Konstruktion des Amateur-Modells

Der Self-Attention-Mechanismus enthält drei Typen:

  • Intra-visuelle Aufmerksamkeit AivA_{iv}
  • Intra-textuelle Aufmerksamkeit AitA_{it}
  • Cross-modale Aufmerksamkeit AcrA_{cr}

A=AivAitAcrA = A_{iv} \cup A_{it} \cup A_{cr}

Das Amateur-Modell wird durch Maskierung teilweiser Cross-modaler und intra-visueller Aufmerksamkeitsgewichte konstruiert:

SA(Q,K,V;M)=Softmax(AM)VSA(Q,K,V;M) = \text{Softmax}(A \odot M)V

wobei M:=McrMivM := M_{cr} \cup M_{iv} die auf die Aufmerksamkeitskarte angewendete Maske ist.

2. Kontrastive Dekodierungsstrategie

Anpassung der Ausgabeverteilung des ursprünglichen VLM:

pθ(yx,I)qθ(y)(qθ(y)qθ(y;M))αp_\theta(y|x,I) \propto q_\theta(y) \left(\frac{q_\theta(y)}{q_\theta(y;M)}\right)^\alpha

wobei:

  • qθ(y):=pθ(yx,I;Acr,Aiv,Ait)q_\theta(y) := p_\theta(y|x,I;A_{cr}, A_{iv}, A_{it}) (ursprüngliches Modell)
  • qθ(y;M):=pθ(yx,I;AcrMcr,AivMiv,Ait)q_\theta(y;M) := p_\theta(y|x,I;A_{cr} \odot M_{cr}, A_{iv} \odot M_{iv}, A_{it}) (Amateur-Modell)

3. Dynamische Maskierungsstrategie

Dynamische Aufmerksamkeitsmaskierung: Maskierung der größten γ\gamma Proportion der Aufmerksamkeitsgewichte in AivA_{iv} und AcrA_{cr}:

SA(Q,K,V;M)=Softmax(AM(γ))VSA(Q,K,V;M) = \text{Softmax}(A \odot M(\gamma))V

Dynamische Schichtauswahl: Auswahl wichtiger Schichten basierend auf Kosinusähnlichkeit:

s(i)=cos(Xi,Yi)=XiYiXi2Yi2s(i) = \cos(X_i, Y_i) = \frac{X_i \cdot Y_i}{\|X_i\|_2 \|Y_i\|_2}

Maskierung der τ\tau Proportion der Schichten mit der kleinsten Ähnlichkeit.

Technische Innovationen

  1. Interne Aufmerksamkeitsmechanismus-Operationen: Direkte Manipulation der Aufmerksamkeitsgewichte innerhalb des Transformers statt Eingabestörung
  2. Adaptive Maskierungsstrategie: Dynamische Auswahl der einflussreichsten Aufmerksamkeitsgewichte und Schichten zur Maskierung
  3. Theoriegesteuerte Gestaltung: Kontrastive Dekodierungsrahmen basierend auf PMI-Theorie
  4. Trainingsfreie Kosten: Funktioniert vollständig in der Inferenzphase ohne zusätzliches Training

Experimentelle Einrichtung

Datensätze

  • Halluzinationsbezogene Benchmarks: HallusionBench, POPE
  • Umfassende Bewertungs-Benchmarks: MME

Bewertungsmetriken

  • POPE: Recall, Accuracy, Precision, Overall Score
  • HallusionBench: Frage-Accuracy (qAcc), Bild-Accuracy (fAcc), Gesamt-Accuracy (aAcc)
  • MME: 14 Unterkategorien-Scores für Wahrnehmungs- und Reasoning-Fähigkeiten

Vergleichsmethoden

  • VCD: Konstruktion eines Amateur-Modells durch Hinzufügen von Gaußschem Rauschen zu Eingabebildern
  • ConVis: Verwendung von Text-zu-Bild-Modellen zur Neugenerierung von Bildern und Nutzung von Unterschieden zur Lenkung der Generierung

Implementierungsdetails

  • Backbone-Modelle: LLaVA-v1.5-7B, InstructBLIP-7B, Qwen2-VL-7B, InternVL2.5-8B
  • Parametereinstellungen:
    • Halluzinationsspezifische Benchmarks: α=0.3,γ=0.5,τ=0.5\alpha=0.3, \gamma=0.5, \tau=0.5
    • Universelle Benchmark MME: α=0.1,γ=0.5,τ=0.1\alpha=0.1, \gamma=0.5, \tau=0.1
  • Sampling-Parameter: top-p=0.9, beam search=5, temperature=0.7

Experimentelle Ergebnisse

Hauptergebnisse

POPE-Benchmark-Tests

Auf LLaVA-v1.5-7B erreicht CMG eine Gesamt-Genauigkeit von 85,48, übertrifft VCD und ConVis. Besonders bemerkenswert ist, dass CMG auf neuen Architekturen positive Skalierbarkeit zeigt (Verbesserung von 89,0 auf 89,3 auf InternVL-2.5), während traditionelle Methoden bei Architektur-Upgrades an Leistung verlieren.

HallusionBench-Benchmark-Tests

CMG übertrifft VCD um +7,1 Punkte und ConVis um +6,3 Punkte in der Genauigkeit und zeigt führende Leistung unter trainingsfreien Inferenzmethoden.

MME-Benchmark-Tests

Bei wahrnehmungsbezogenen Unterkategorien übertrifft die Gesamtpunktzahl von CMG VCD um +62,08 Punkte und ConVis um +7,30 Punkte. Erreicht höchste Scores in Unterkategorien wie "Farbe", "Szene" und "Wahrzeichen", wo Sprachverzerrung besonders verbreitet ist.

Ergebnisse bei verschiedenen Modellgrößen

CMG zeigt robuste Leistungsverbesserungen bei Modellen verschiedener Parametergrößen (2B, 7B, 13B, 26B) und demonstriert gute Skalierbarkeit und Architektur-Adaptivität.

Ablationsstudien

Experimente validieren verschiedene Amateur-Modell-Konstruktionsstrategien:

  • Vollständige Entfernung visueller Aufmerksamkeit: Schwerwiegende Leistungsabnahme (fAcc: 12,14)
  • Rausch-Ersatz: Begrenzte Leistung (fAcc: 29,48)
  • Text-Ersatz: Allgemeine Wirksamkeit (fAcc: 29,77)
  • CMG-Methode: Beste Leistung (fAcc: 30,06)

Fallstudien

Das Paper zeigt zwei typische Fälle:

  1. Gemälde-Verständnisaufgabe: Das ursprüngliche Modell assoziiert fälschlicherweise "hat" mit der Charakterkleidung, CMG korrigiert erfolgreich und identifiziert "bandana"
  2. T-Shirt-Farbenerkennung: Angesichts der Störung durch einen schwarzen Hut identifiziert CMG durch Anpassung des PMI-Verhältnisses genau die T-Shirt-Farbe

Verwandte Arbeiten

Forschung zu Halluzinationsproblemen

Das Halluzinationsproblem von VLMs ist zu einer wichtigen Forschungsrichtung geworden, wobei bestehende Methoden hauptsächlich folgende Kategorien umfassen:

  • Prompt-Engineering-Methoden
  • Post-Training basierend auf menschlichem Feedback
  • Verschiedene Inferenzstrategien

Inhaltsabhängige Dekodierung

  • Suchmethoden: Wie Greedy Search und Beam Search, genau aber möglicherweise wiederholend
  • Sampling-Methoden: Wie Nucleus Sampling, bessere Vielfalt aber möglicherweise unnatürliche Themenwechsel
  • Kontrastive Dekodierung: Nutzung von Unterschieden zwischen zwei Ausgabewahrscheinlichkeiten zur Konstruktion verbesserter Ausgabeverteilungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. CMG-Wirksamkeit: Signifikante Reduktion von VLM-Halluzinationen ohne Training erforderlich
  2. Sprachverzerrungseinfluss: Bestätigung, dass Sprachverzerrung ein wichtiger Faktor für Halluzinationen ist
  3. Bedeutung des Aufmerksamkeitsmechanismus: Manipulation von Aufmerksamkeitsgewichten kann Modellverhalten effektiv verbessern
  4. Breite Anwendbarkeit: Methode zeigt hervorragende Leistung über verschiedene Modellarchitekturen und Benchmarks

Einschränkungen

  1. Hyperparameter-Empfindlichkeit: Erfordert sorgfältige Anpassung von Hyperparametern für verschiedene Szenarien, wie Maskierungsverhältnisse bezogen auf n0n_0 in Gleichung 12
  2. Dynamische Optimierungsanforderungen: Optimale Ergebnisse erfordern derzeit dynamische Hyperparameter-Optimierung, was die Nutzungskomplexität erhöht
  3. Rechenlast: Erfordert gleichzeitige Ausführung des ursprünglichen Modells und des Amateur-Modells, erhöht die Inferenzzeit

Zukünftige Richtungen

  1. Automatische Hyperparameter-Optimierung: Entwicklung adaptiver Parameterauswahlmechanismen
  2. Effizienzoptimierung: Reduzierung der Rechenlast und Verbesserung der Inferenzeffizienz
  3. Theoretische Vervollständigung: Weitere Verbesserung der theoretischen Grundlagen der kontrastiven Dekodierung

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erste Lösung des VLM-Halluzinationsproblems aus der Perspektive des Aufmerksamkeitsmechanismus, bietet neue Forschungsperspektive
  2. Solide theoretische Grundlagen: Der auf PMI basierende kontrastive Dekodierungsrahmen hat eine fundierte theoretische Grundlage
  3. Umfassende Experimente: Ausreichende Validierung über mehrere Benchmarks und Modelle
  4. Hoher praktischer Wert: Anwendbar ohne Training, senkt die Nutzungsschwelle
  5. Tiefgreifende Analyse: Die Analyse des Mechanismus der Sprachverzerrungserzeugung bietet wichtige Einsichten

Mängel

  1. Höhere Komplexität: Beinhaltet mehrere Hyperparameter und dynamische Auswahlstrategien, höhere Nutzungskomplexität
  2. Rechnerische Kosten: Erfordert gleichzeitige Ausführung zweier Modelle, erhöhte Inferenzkosten
  3. Parameterempfindlichkeit: Wirksamkeit ist relativ empfindlich gegenüber Hyperparameter-Auswahl, kann praktische Anwendung beeinflussen
  4. Anwendungsbereich: Hauptsächlich auf Transformer-basierte VLMs ausgerichtet, Anwendbarkeit auf andere Architekturen unklar

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Lösungsansätze für VLM-Halluzinationsprobleme, kann nachfolgende Forschung inspirieren
  2. Praktischer Wert: Trainingsfreie Charakteristik ermöglicht einfache Bereitstellung in bestehenden Systemen
  3. Reproduzierbarkeit: Detaillierte Methodenbeschreibung und klare experimentelle Einrichtung, gute Reproduzierbarkeit

Anwendungsszenarien

  • Anwendungsszenarien, die hochwertige visuelle Verständigung erfordern
  • Sicherheitskritische Anwendungen, die gegenüber Halluzinationsproblemen empfindlich sind
  • Ressourcenbegrenzte Umgebungen, in denen zusätzliches Training nicht möglich ist
  • Kommerzielle Anwendungen, die schnelle Bereitstellung erfordern

Referenzen

Das Paper zitiert 62 verwandte Literaturquellen, die wichtige Arbeiten in den Bereichen VLMs, Halluzinationserkennung und kontrastive Dekodierung abdecken und eine ausreichende theoretische Grundlage und Vergleichsbenchmarks für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für das wichtige Forschungsgebiet der VLM-Halluzinationen bietet. Die Methode hat eine solide theoretische Grundlage und hervorragende experimentelle Leistung und hat wichtigen Wert für Akademie und Industrie. Trotz einiger Einschränkungen sind ihre Beiträge und Auswirkungen nicht zu übersehen.