Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.
- Paper-ID: 2510.10466
- Titel: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
- Autoren: Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (MAPLE Lab, Westlake University)
- Klassifizierung: cs.CV (Computer Vision)
- Veröffentlichungsdatum: 12. Oktober 2025 (arXiv Preprint)
- Paper-Link: https://arxiv.org/abs/2510.10466v1
Visuell-sprachliche Modelle (VLMs) zeigen hervorragende Leistungen im multimodalen Verständnis, sind aber häufig mit Halluzinationsproblemen konfrontiert – der Generierung sprachlich flüssiger, aber bildinhaltlich irrelevanter Antworten. Dieses Paper analysiert, wie Sprachverzerrung zu Halluzinationen führt, und schlägt Cross-Modal Guidance (CMG) vor, eine trainingsfreie Dekodierungsmethode, die Halluzinationen durch Kontrastierung der Ausgabeverteilungen des ursprünglichen Modells und eines visuell-sprachlich degradierten Modells behebt. CMG zerstört die visuell-sprachliche Wahrnehmung durch adaptive Maskierung der Aufmerksamkeitsgewichte der einflussreichsten Bild-Token in ausgewählten Transformer-Schichten, verstärkt die Wahrnehmung des visuellen Kontexts und reduziert erheblich die Sprachverzerrung, ohne die Fähigkeiten von VLMs zu beeinträchtigen.
Obwohl VLMs starke Fähigkeiten im multimodalen Verständnis besitzen, weisen sie schwerwiegende Halluzinationsprobleme auf:
- Sprachverzerrungsinduzierte Halluzinationen: Modelle neigen dazu, Antworten basierend auf Sprachmustern zu generieren und visuelle Informationen zu ignorieren
- Unausgewogene Aufmerksamkeitsgewichte: Die Aufmerksamkeitsgewichte von Bild-Token fallen in tieferen Netzwerkschichten drastisch ab
- Unzureichende Nutzung visueller Informationen: Obwohl die Anzahl der Bild-Token typischerweise die Text-Token übersteigt, wird deren Einfluss unterschätzt
- Das Halluzinationsproblem von VLMs behindert ihre breite Anwendung und birgt unkontrollierbare Risiken
- Benutzer benötigen zuverlässige multimodale KI-Systeme, die visuelle Inhalte genau verstehen und darauf reagieren
- Bestehende Lösungen erfordern entweder zusätzliches Training oder zeigen begrenzte Wirksamkeit
- VCD-Methode: Fügt direkt Gaußsches Rauschen zu Eingabebildern hinzu, aber diese Störung wird in tieferen Netzwerken unkontrollierbar
- ConVis-Methode: Erfordert den Aufruf teurer zusätzlicher Modelle zur Verstärkung visueller Informationen
- Prompt-Engineering-Methoden: Begrenzte Wirksamkeit und unzureichende Allgemeingültigkeit
- Post-Training-Methoden: Erfordern manuelles Feedback und zusätzliche Trainingskosten
- Vorschlag der CMG-Methode: Eine trainingsfreie Inferenzmethode, die durch zufällige Aufmerksamkeitsmaskierung Modellhalluzinationen effektiv reduziert
- Identifikation der Halluzinationsursachen: Entdeckung, dass unzureichende visuell-sprachliche Verbindungen ein wichtiger Grund für Halluzinationen sind, mit strengem Nachweis
- Umfassende experimentelle Validierung: Quantitative Bewertung der Wirksamkeit von CMG auf mehreren Benchmarks mit Demonstration der Generalisierungsfähigkeit
- Vervollständigung des theoretischen Rahmens: Etablierung einer theoretischen Grundlage für kontrastive Dekodierung basierend auf Punkt-gegenseitiger Information (PMI)
Gegeben eine Texteingabe x={x1,x2,...,xn} und eine visuelle Eingabe I={I1,I2,...,Im}, muss das VLM eine Textsequenz der Länge k y={y1,y2,...,yk} generieren. Der Generierungsprozess folgt einem autoregressiven Muster:
pθ(y∣x,I)=∏t=1kpθ(yt∣y<t,x,I)
Die Forschung zeigt erhebliche Sprachverzerrungen in VLMs:
- Aufmerksamkeitsgewichtsabfall: Die Aufmerksamkeitsgewichte von Bild-Token fallen in flachen Schichten drastisch ab und bleiben in tieferen Schichten niedrig
- Text-Token-Vorteil: Die Aufmerksamkeitsgewichte von System-Token übersteigen sogar die von Frage-Token mit Schlüsselinformationen
- Sequenzlängeneinfluss: Mit zunehmender Generierungssequenzlänge nehmen die Bild-Aufmerksamkeitsgewichte allmählich ab
Der Self-Attention-Mechanismus enthält drei Typen:
- Intra-visuelle Aufmerksamkeit Aiv
- Intra-textuelle Aufmerksamkeit Ait
- Cross-modale Aufmerksamkeit Acr
A=Aiv∪Ait∪Acr
Das Amateur-Modell wird durch Maskierung teilweiser Cross-modaler und intra-visueller Aufmerksamkeitsgewichte konstruiert:
SA(Q,K,V;M)=Softmax(A⊙M)V
wobei M:=Mcr∪Miv die auf die Aufmerksamkeitskarte angewendete Maske ist.
Anpassung der Ausgabeverteilung des ursprünglichen VLM:
pθ(y∣x,I)∝qθ(y)(qθ(y;M)qθ(y))α
wobei:
- qθ(y):=pθ(y∣x,I;Acr,Aiv,Ait) (ursprüngliches Modell)
- qθ(y;M):=pθ(y∣x,I;Acr⊙Mcr,Aiv⊙Miv,Ait) (Amateur-Modell)
Dynamische Aufmerksamkeitsmaskierung: Maskierung der größten γ Proportion der Aufmerksamkeitsgewichte in Aiv und Acr:
SA(Q,K,V;M)=Softmax(A⊙M(γ))V
Dynamische Schichtauswahl: Auswahl wichtiger Schichten basierend auf Kosinusähnlichkeit:
s(i)=cos(Xi,Yi)=∥Xi∥2∥Yi∥2Xi⋅Yi
Maskierung der τ Proportion der Schichten mit der kleinsten Ähnlichkeit.
- Interne Aufmerksamkeitsmechanismus-Operationen: Direkte Manipulation der Aufmerksamkeitsgewichte innerhalb des Transformers statt Eingabestörung
- Adaptive Maskierungsstrategie: Dynamische Auswahl der einflussreichsten Aufmerksamkeitsgewichte und Schichten zur Maskierung
- Theoriegesteuerte Gestaltung: Kontrastive Dekodierungsrahmen basierend auf PMI-Theorie
- Trainingsfreie Kosten: Funktioniert vollständig in der Inferenzphase ohne zusätzliches Training
- Halluzinationsbezogene Benchmarks: HallusionBench, POPE
- Umfassende Bewertungs-Benchmarks: MME
- POPE: Recall, Accuracy, Precision, Overall Score
- HallusionBench: Frage-Accuracy (qAcc), Bild-Accuracy (fAcc), Gesamt-Accuracy (aAcc)
- MME: 14 Unterkategorien-Scores für Wahrnehmungs- und Reasoning-Fähigkeiten
- VCD: Konstruktion eines Amateur-Modells durch Hinzufügen von Gaußschem Rauschen zu Eingabebildern
- ConVis: Verwendung von Text-zu-Bild-Modellen zur Neugenerierung von Bildern und Nutzung von Unterschieden zur Lenkung der Generierung
- Backbone-Modelle: LLaVA-v1.5-7B, InstructBLIP-7B, Qwen2-VL-7B, InternVL2.5-8B
- Parametereinstellungen:
- Halluzinationsspezifische Benchmarks: α=0.3,γ=0.5,τ=0.5
- Universelle Benchmark MME: α=0.1,γ=0.5,τ=0.1
- Sampling-Parameter: top-p=0.9, beam search=5, temperature=0.7
Auf LLaVA-v1.5-7B erreicht CMG eine Gesamt-Genauigkeit von 85,48, übertrifft VCD und ConVis. Besonders bemerkenswert ist, dass CMG auf neuen Architekturen positive Skalierbarkeit zeigt (Verbesserung von 89,0 auf 89,3 auf InternVL-2.5), während traditionelle Methoden bei Architektur-Upgrades an Leistung verlieren.
CMG übertrifft VCD um +7,1 Punkte und ConVis um +6,3 Punkte in der Genauigkeit und zeigt führende Leistung unter trainingsfreien Inferenzmethoden.
Bei wahrnehmungsbezogenen Unterkategorien übertrifft die Gesamtpunktzahl von CMG VCD um +62,08 Punkte und ConVis um +7,30 Punkte. Erreicht höchste Scores in Unterkategorien wie "Farbe", "Szene" und "Wahrzeichen", wo Sprachverzerrung besonders verbreitet ist.
CMG zeigt robuste Leistungsverbesserungen bei Modellen verschiedener Parametergrößen (2B, 7B, 13B, 26B) und demonstriert gute Skalierbarkeit und Architektur-Adaptivität.
Experimente validieren verschiedene Amateur-Modell-Konstruktionsstrategien:
- Vollständige Entfernung visueller Aufmerksamkeit: Schwerwiegende Leistungsabnahme (fAcc: 12,14)
- Rausch-Ersatz: Begrenzte Leistung (fAcc: 29,48)
- Text-Ersatz: Allgemeine Wirksamkeit (fAcc: 29,77)
- CMG-Methode: Beste Leistung (fAcc: 30,06)
Das Paper zeigt zwei typische Fälle:
- Gemälde-Verständnisaufgabe: Das ursprüngliche Modell assoziiert fälschlicherweise "hat" mit der Charakterkleidung, CMG korrigiert erfolgreich und identifiziert "bandana"
- T-Shirt-Farbenerkennung: Angesichts der Störung durch einen schwarzen Hut identifiziert CMG durch Anpassung des PMI-Verhältnisses genau die T-Shirt-Farbe
Das Halluzinationsproblem von VLMs ist zu einer wichtigen Forschungsrichtung geworden, wobei bestehende Methoden hauptsächlich folgende Kategorien umfassen:
- Prompt-Engineering-Methoden
- Post-Training basierend auf menschlichem Feedback
- Verschiedene Inferenzstrategien
- Suchmethoden: Wie Greedy Search und Beam Search, genau aber möglicherweise wiederholend
- Sampling-Methoden: Wie Nucleus Sampling, bessere Vielfalt aber möglicherweise unnatürliche Themenwechsel
- Kontrastive Dekodierung: Nutzung von Unterschieden zwischen zwei Ausgabewahrscheinlichkeiten zur Konstruktion verbesserter Ausgabeverteilungen
- CMG-Wirksamkeit: Signifikante Reduktion von VLM-Halluzinationen ohne Training erforderlich
- Sprachverzerrungseinfluss: Bestätigung, dass Sprachverzerrung ein wichtiger Faktor für Halluzinationen ist
- Bedeutung des Aufmerksamkeitsmechanismus: Manipulation von Aufmerksamkeitsgewichten kann Modellverhalten effektiv verbessern
- Breite Anwendbarkeit: Methode zeigt hervorragende Leistung über verschiedene Modellarchitekturen und Benchmarks
- Hyperparameter-Empfindlichkeit: Erfordert sorgfältige Anpassung von Hyperparametern für verschiedene Szenarien, wie Maskierungsverhältnisse bezogen auf n0 in Gleichung 12
- Dynamische Optimierungsanforderungen: Optimale Ergebnisse erfordern derzeit dynamische Hyperparameter-Optimierung, was die Nutzungskomplexität erhöht
- Rechenlast: Erfordert gleichzeitige Ausführung des ursprünglichen Modells und des Amateur-Modells, erhöht die Inferenzzeit
- Automatische Hyperparameter-Optimierung: Entwicklung adaptiver Parameterauswahlmechanismen
- Effizienzoptimierung: Reduzierung der Rechenlast und Verbesserung der Inferenzeffizienz
- Theoretische Vervollständigung: Weitere Verbesserung der theoretischen Grundlagen der kontrastiven Dekodierung
- Starke Innovativität: Erste Lösung des VLM-Halluzinationsproblems aus der Perspektive des Aufmerksamkeitsmechanismus, bietet neue Forschungsperspektive
- Solide theoretische Grundlagen: Der auf PMI basierende kontrastive Dekodierungsrahmen hat eine fundierte theoretische Grundlage
- Umfassende Experimente: Ausreichende Validierung über mehrere Benchmarks und Modelle
- Hoher praktischer Wert: Anwendbar ohne Training, senkt die Nutzungsschwelle
- Tiefgreifende Analyse: Die Analyse des Mechanismus der Sprachverzerrungserzeugung bietet wichtige Einsichten
- Höhere Komplexität: Beinhaltet mehrere Hyperparameter und dynamische Auswahlstrategien, höhere Nutzungskomplexität
- Rechnerische Kosten: Erfordert gleichzeitige Ausführung zweier Modelle, erhöhte Inferenzkosten
- Parameterempfindlichkeit: Wirksamkeit ist relativ empfindlich gegenüber Hyperparameter-Auswahl, kann praktische Anwendung beeinflussen
- Anwendungsbereich: Hauptsächlich auf Transformer-basierte VLMs ausgerichtet, Anwendbarkeit auf andere Architekturen unklar
- Akademischer Beitrag: Bietet neue Lösungsansätze für VLM-Halluzinationsprobleme, kann nachfolgende Forschung inspirieren
- Praktischer Wert: Trainingsfreie Charakteristik ermöglicht einfache Bereitstellung in bestehenden Systemen
- Reproduzierbarkeit: Detaillierte Methodenbeschreibung und klare experimentelle Einrichtung, gute Reproduzierbarkeit
- Anwendungsszenarien, die hochwertige visuelle Verständigung erfordern
- Sicherheitskritische Anwendungen, die gegenüber Halluzinationsproblemen empfindlich sind
- Ressourcenbegrenzte Umgebungen, in denen zusätzliches Training nicht möglich ist
- Kommerzielle Anwendungen, die schnelle Bereitstellung erfordern
Das Paper zitiert 62 verwandte Literaturquellen, die wichtige Arbeiten in den Bereichen VLMs, Halluzinationserkennung und kontrastive Dekodierung abdecken und eine ausreichende theoretische Grundlage und Vergleichsbenchmarks für die Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Lösung für das wichtige Forschungsgebiet der VLM-Halluzinationen bietet. Die Methode hat eine solide theoretische Grundlage und hervorragende experimentelle Leistung und hat wichtigen Wert für Akademie und Industrie. Trotz einiger Einschränkungen sind ihre Beiträge und Auswirkungen nicht zu übersehen.