2025-11-18T20:07:12.683154

When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance

Cao, Chen, Wang et al.
Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.
academic

Quando le Immagini Parlano Più Forte: Mitigazione delle Allucinazioni Indotte da Bias Linguistico nei VLM attraverso Guida Cross-Modale

Informazioni Fondamentali

  • ID Articolo: 2510.10466
  • Titolo: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
  • Autori: Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (MAPLE Lab, Westlake University)
  • Classificazione: cs.CV (Visione Artificiale)
  • Data di Pubblicazione: 12 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.10466v1

Riassunto

I modelli visivi-linguistici (VLM) dimostrano eccellenti capacità nella comprensione multimodale, ma affrontano frequentemente il problema delle allucinazioni—generando risposte linguisticamente fluide ma non correlate al contenuto dell'immagine. Questo articolo analizza come il bias linguistico induce allucinazioni e propone Cross-Modal Guidance (CMG), un metodo di decodifica senza addestramento che affronta il problema delle allucinazioni contrastando le distribuzioni di output del modello originale con quelle di un modello degradato di attenzione visivo-linguistica. CMG interrompe la percezione visivo-linguistica mascherando adattivamente i pesi di attenzione dei token di immagine più influenti in strati transformer selezionati, rafforzando la consapevolezza del contesto visivo e riducendo significativamente il bias linguistico senza compromettere le capacità dei VLM.

Contesto di Ricerca e Motivazione

Problema Centrale

Sebbene i VLM possiedano forti capacità nella comprensione multimodale, presentano gravi problemi di allucinazione:

  1. Allucinazioni indotte da bias linguistico: Il modello tende a generare risposte basate su schemi linguistici, ignorando le informazioni visive
  2. Squilibrio nei pesi di attenzione: I pesi di attenzione dei token di immagine diminuiscono drasticamente negli strati più profondi della rete
  3. Sottoutilizzo delle informazioni visive: Nonostante il numero di token di immagine sia solitamente molto superiore ai token di testo, la loro influenza è sottovalutata

Importanza del Problema

  • Il problema delle allucinazioni nei VLM ostacola l'applicazione diffusa, presentando rischi incontrollabili
  • Gli utenti necessitano di sistemi di intelligenza artificiale multimodale affidabili, in grado di comprendere e rispondere accuratamente al contenuto visivo
  • Le soluzioni esistenti richiedono addestramento aggiuntivo oppure hanno efficacia limitata

Limitazioni dei Metodi Esistenti

  1. Metodo VCD: Aggiunge direttamente rumore gaussiano all'immagine di input, ma questa perturbazione diventa incontrollabile negli strati più profondi della rete
  2. Metodo ConVis: Richiede l'invocazione di modelli aggiuntivi costosi per migliorare le informazioni visive
  3. Metodi di prompt engineering: Efficacia limitata e scarsa generalizzabilità
  4. Metodi di post-addestramento: Richiedono dati di feedback umano e costi di addestramento aggiuntivi

Contributi Principali

  1. Propone il metodo CMG: Un metodo di inferenza senza addestramento che riduce efficacemente le allucinazioni del modello attraverso mascheratura casuale dell'attenzione
  2. Identifica la causa radice delle allucinazioni: Scopre che l'insufficiente connessione visivo-attentiva è un fattore importante nella generazione di allucinazioni, fornendo prove rigorose
  3. Verifica sperimentale completa: Valuta quantitativamente l'efficacia di CMG su molteplici benchmark, dimostrando la sua capacità di generalizzazione
  4. Perfezionamento del framework teorico: Stabilisce le basi teoriche della decodifica contrastiva basata su informazione mutua puntuale (PMI)

Dettagli del Metodo

Definizione del Compito

Dato un input testuale x={x1,x2,...,xn}x = \{x_1, x_2, ..., x_n\} e un input visivo I={I1,I2,...,Im}I = \{I_1, I_2, ..., I_m\}, il VLM deve generare una sequenza testuale di lunghezza k: y={y1,y2,...,yk}y = \{y_1, y_2, ..., y_k\}. Il processo di generazione segue un modello autoregressivo:

pθ(yx,I)=t=1kpθ(yty<t,x,I)p_\theta(y|x,I) = \prod_{t=1}^k p_\theta(y_t|y_{<t}, x, I)

Analisi del Bias Linguistico

La ricerca rivela significativi bias linguistici nei VLM:

  1. Decadimento dei pesi di attenzione: I pesi di attenzione dei token di immagine diminuiscono drasticamente negli strati superficiali e rimangono bassi negli strati profondi
  2. Predominanza dei token di testo: I pesi di attenzione dei token di sistema superano persino quelli dei token di domanda contenenti informazioni critiche
  3. Effetto della lunghezza della sequenza: Con l'allungamento della sequenza generata, i pesi di attenzione dell'immagine diminuiscono gradualmente

Architettura Centrale di CMG

1. Costruzione del Modello Ausiliario

Il meccanismo di auto-attenzione contiene tre tipi:

  • Attenzione intra-visiva AivA_{iv}
  • Attenzione intra-testuale AitA_{it}
  • Attenzione cross-modale AcrA_{cr}

A=AivAitAcrA = A_{iv} \cup A_{it} \cup A_{cr}

Il modello ausiliario viene costruito mascherando parzialmente i pesi di attenzione cross-modale e intra-visiva:

SA(Q,K,V;M)=Softmax(AM)VSA(Q,K,V;M) = \text{Softmax}(A \odot M)V

dove M:=McrMivM := M_{cr} \cup M_{iv} è la mascheratura applicata alla matrice di attenzione.

2. Strategia di Decodifica Contrastiva

Regola la distribuzione di output del VLM originale:

pθ(yx,I)qθ(y)(qθ(y)qθ(y;M))αp_\theta(y|x,I) \propto q_\theta(y) \left(\frac{q_\theta(y)}{q_\theta(y;M)}\right)^\alpha

dove:

  • qθ(y):=pθ(yx,I;Acr,Aiv,Ait)q_\theta(y) := p_\theta(y|x,I;A_{cr}, A_{iv}, A_{it}) (modello originale)
  • qθ(y;M):=pθ(yx,I;AcrMcr,AivMiv,Ait)q_\theta(y;M) := p_\theta(y|x,I;A_{cr} \odot M_{cr}, A_{iv} \odot M_{iv}, A_{it}) (modello ausiliario)

3. Strategia di Mascheratura Dinamica

Mascheratura di attenzione dinamica: Maschera la proporzione più grande γ\gamma dei pesi di attenzione in AivA_{iv} e AcrA_{cr}:

SA(Q,K,V;M)=Softmax(AM(γ))VSA(Q,K,V;M) = \text{Softmax}(A \odot M(\gamma))V

Selezione dinamica degli strati: Seleziona gli strati importanti basandosi sulla similarità del coseno:

s(i)=cos(Xi,Yi)=XiYiXi2Yi2s(i) = \cos(X_i, Y_i) = \frac{X_i \cdot Y_i}{\|X_i\|_2 \|Y_i\|_2}

Maschera la proporzione τ\tau degli strati con similarità minima.

Punti di Innovazione Tecnica

  1. Operazione sul meccanismo di attenzione interno: Opera direttamente sui pesi di attenzione all'interno del transformer, piuttosto che sulla perturbazione dell'input
  2. Strategia di mascheratura adattiva: Seleziona dinamicamente i pesi di attenzione e gli strati più influenti da mascherare
  3. Progettazione guidata dalla teoria: Costruisce il framework di decodifica contrastiva basato sulla teoria PMI
  4. Assenza di costi di addestramento: Funziona completamente nella fase di inferenza, senza addestramento aggiuntivo

Configurazione Sperimentale

Dataset

  • Benchmark correlati alle allucinazioni: HallusionBench, POPE
  • Benchmark di valutazione completa: MME

Metriche di Valutazione

  • POPE: Recall, Accuracy, Precision, Overall Score
  • HallusionBench: Question Accuracy (qAcc), Image Accuracy (fAcc), Overall Accuracy (aAcc)
  • MME: Punteggi di 14 sotto-compiti per capacità di percezione e ragionamento

Metodi di Confronto

  • VCD: Costruisce il modello ausiliario aggiungendo rumore gaussiano all'immagine di input
  • ConVis: Utilizza un modello da testo a immagine per rigenerare l'immagine e sfrutta le differenze per guidare la generazione

Dettagli di Implementazione

  • Modelli backbone: LLaVA-v1.5-7B, InstructBLIP-7B, Qwen2-VL-7B, InternVL2.5-8B
  • Configurazione dei parametri:
    • Benchmark specifici per allucinazioni: α=0.3,γ=0.5,τ=0.5\alpha=0.3, \gamma=0.5, \tau=0.5
    • Benchmark universale MME: α=0.1,γ=0.5,τ=0.1\alpha=0.1, \gamma=0.5, \tau=0.1
  • Parametri di campionamento: top-p=0.9, beam search=5, temperature=0.7

Risultati Sperimentali

Risultati Principali

Benchmark POPE

Su LLaVA-v1.5-7B, CMG raggiunge un'accuratezza complessiva di 85.48, superando VCD e ConVis. Particolarmente degno di nota è che CMG mostra scalabilità positiva su nuove architetture (da 89.0 a 89.3 su InternVL-2.5), mentre i metodi tradizionali mostrano degradazione delle prestazioni con l'aggiornamento dell'architettura.

Benchmark HallusionBench

CMG supera VCD di +7.1 punti in accuratezza e ConVis di +6.3 punti, mostrando prestazioni leader tra i metodi di inferenza senza addestramento aggiuntivo.

Benchmark MME

Nei sotto-compiti correlati alla percezione, il punteggio totale di CMG supera VCD di +62.08 punti e ConVis di +7.30 punti. Raggiunge i punteggi più alti nei sottoinsiemi dove il bias linguistico è particolarmente prevalente, come "colore", "scena" e "punto di riferimento".

Risultati su Diverse Dimensioni di Modello

CMG mostra miglioramenti robusti delle prestazioni su modelli di diverse dimensioni parametriche (2B, 7B, 13B, 26B), dimostrando buona scalabilità e adattabilità architetturale.

Esperimenti di Ablazione

Gli esperimenti verificano diverse strategie di costruzione del modello ausiliario:

  • Rimozione completa dell'attenzione visiva: Grave degradazione delle prestazioni (fAcc: 12.14)
  • Sostituzione con rumore: Prestazioni limitate (fAcc: 29.48)
  • Sostituzione testuale: Effetto moderato (fAcc: 29.77)
  • Metodo CMG: Prestazioni ottimali (fAcc: 30.06)

Analisi di Casi Studio

L'articolo presenta due casi tipici:

  1. Compito di comprensione di dipinti: Il modello originale associa erroneamente "hat" all'abbigliamento del personaggio, CMG corregge con successo e identifica "bandana"
  2. Identificazione del colore della maglietta: Di fronte all'interferenza di un cappello nero, CMG identifica accuratamente il colore della maglietta regolando il rapporto PMI

Lavori Correlati

Ricerca sul Problema delle Allucinazioni

Il problema delle allucinazioni nei VLM è diventato una direzione di ricerca importante, con i metodi esistenti che includono principalmente:

  • Metodi di prompt engineering
  • Post-addestramento basato su feedback umano
  • Diverse strategie di inferenza

Decodifica Consapevole del Contenuto

  • Metodi di ricerca: Come ricerca greedy e beam search, risultati accurati ma potenzialmente ripetitivi
  • Metodi di campionamento: Come nucleus sampling, migliore diversità ma possibili transizioni tematiche innaturali
  • Decodifica contrastiva: Sfrutta le differenze tra due probabilità di output per costruire una distribuzione di output migliorata

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia di CMG: Riduce significativamente il problema delle allucinazioni nei VLM senza addestramento
  2. Impatto del bias linguistico: Conferma che il bias linguistico è un fattore importante nell'induzione delle allucinazioni
  3. Importanza del meccanismo di attenzione: Operare sui pesi di attenzione può migliorare efficacemente il comportamento del modello
  4. Applicabilità diffusa: Il metodo mostra eccellenti prestazioni su diverse architetture di modelli e benchmark

Limitazioni

  1. Sensibilità agli iperparametri: Richiede un'attenta regolazione degli iperparametri per diversi scenari, come il rapporto di mascheratura correlato a n0n_0 nell'equazione 12
  2. Necessità di ottimizzazione dinamica: Ottenere risultati ottimali attualmente richiede l'ottimizzazione dinamica degli iperparametri, aumentando la complessità d'uso
  3. Overhead computazionale: Richiede l'esecuzione simultanea del modello originale e del modello ausiliario, aumentando il tempo di inferenza

Direzioni Future

  1. Ottimizzazione automatica degli iperparametri: Sviluppare meccanismi di selezione parametrica adattiva
  2. Ottimizzazione dell'efficienza: Ridurre l'overhead computazionale e migliorare l'efficienza dell'inferenza
  3. Perfezionamento teorico: Approfondire ulteriormente le basi teoriche della decodifica contrastiva

Valutazione Approfondita

Punti di Forza

  1. Forte innovatività: Affronta per la prima volta il problema delle allucinazioni nei VLM dal prospettivo del meccanismo di attenzione, fornendo una nuova prospettiva di ricerca
  2. Solide basi teoriche: Il framework di decodifica contrastiva costruito sulla base di PMI possiede fondamenta teoriche robuste
  3. Esperimenti completi: Verifica sufficiente su molteplici benchmark e diversi modelli
  4. Alto valore pratico: Applicabile senza addestramento, riducendo la soglia d'uso
  5. Analisi approfondita: L'analisi del meccanismo di generazione del bias linguistico fornisce importanti intuizioni

Insufficienze

  1. Complessità relativamente elevata: Coinvolge molteplici iperparametri e strategie di selezione dinamica, aumentando la complessità d'uso
  2. Costo computazionale: Richiede l'esecuzione simultanea di due modelli, aumentando il costo dell'inferenza
  3. Sensibilità ai parametri: L'efficacia è relativamente sensibile alla scelta degli iperparametri, potenzialmente influenzando l'applicazione pratica
  4. Ambito di applicabilità: Principalmente rivolto ai VLM basati su transformer, l'applicabilità ad altre architetture rimane sconosciuta

Impatto

  1. Contributo accademico: Fornisce una nuova prospettiva di soluzione per il problema delle allucinazioni nei VLM, potenzialmente ispirando ricerche successive
  2. Valore pratico: La caratteristica senza addestramento facilita il dispiegamento nei sistemi esistenti
  3. Riproducibilità: La descrizione del metodo è dettagliata e la configurazione sperimentale è chiara, con buona riproducibilità

Scenari di Applicazione

  • Scenari di applicazione che richiedono comprensione visiva di alta qualità
  • Applicazioni critiche per la sicurezza sensibili al problema delle allucinazioni
  • Ambienti con risorse limitate dove non è possibile eseguire addestramento aggiuntivo
  • Applicazioni commerciali che richiedono dispiegamento rapido

Bibliografia

L'articolo cita 62 lavori correlati, coprendo aree rilevanti come VLM, rilevamento di allucinazioni e decodifica contrastiva, fornendo basi teoriche sufficienti e benchmark di confronto per la ricerca.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa in un'importante direzione di ricerca—il problema delle allucinazioni nei VLM. Il metodo possiede solide basi teoriche e eccellenti prestazioni sperimentali, con valore significativo sia per il mondo accademico che per l'industria. Sebbene presenti alcune limitazioni, i suoi contributi e il suo impatto sono notevoli.