2025-11-18T20:07:12.683154

When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance

Cao, Chen, Wang et al.

Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.

academic

Quando le Immagini Parlano Più Forte: Mitigazione delle Allucinazioni Indotte da Bias Linguistico nei VLM attraverso Guida Cross-Modale

Informazioni Fondamentali

ID Articolo: 2510.10466
Titolo: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
Autori: Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (MAPLE Lab, Westlake University)
Classificazione: cs.CV (Visione Artificiale)
Data di Pubblicazione: 12 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.10466v1

Riassunto

I modelli visivi-linguistici (VLM) dimostrano eccellenti capacità nella comprensione multimodale, ma affrontano frequentemente il problema delle allucinazioni—generando risposte linguisticamente fluide ma non correlate al contenuto dell'immagine. Questo articolo analizza come il bias linguistico induce allucinazioni e propone Cross-Modal Guidance (CMG), un metodo di decodifica senza addestramento che affronta il problema delle allucinazioni contrastando le distribuzioni di output del modello originale con quelle di un modello degradato di attenzione visivo-linguistica. CMG interrompe la percezione visivo-linguistica mascherando adattivamente i pesi di attenzione dei token di immagine più influenti in strati transformer selezionati, rafforzando la consapevolezza del contesto visivo e riducendo significativamente il bias linguistico senza compromettere le capacità dei VLM.

Contesto di Ricerca e Motivazione

Problema Centrale

Sebbene i VLM possiedano forti capacità nella comprensione multimodale, presentano gravi problemi di allucinazione:

Allucinazioni indotte da bias linguistico: Il modello tende a generare risposte basate su schemi linguistici, ignorando le informazioni visive
Squilibrio nei pesi di attenzione: I pesi di attenzione dei token di immagine diminuiscono drasticamente negli strati più profondi della rete
Sottoutilizzo delle informazioni visive: Nonostante il numero di token di immagine sia solitamente molto superiore ai token di testo, la loro influenza è sottovalutata

Importanza del Problema

Il problema delle allucinazioni nei VLM ostacola l'applicazione diffusa, presentando rischi incontrollabili
Gli utenti necessitano di sistemi di intelligenza artificiale multimodale affidabili, in grado di comprendere e rispondere accuratamente al contenuto visivo
Le soluzioni esistenti richiedono addestramento aggiuntivo oppure hanno efficacia limitata

Limitazioni dei Metodi Esistenti

Metodo VCD: Aggiunge direttamente rumore gaussiano all'immagine di input, ma questa perturbazione diventa incontrollabile negli strati più profondi della rete
Metodo ConVis: Richiede l'invocazione di modelli aggiuntivi costosi per migliorare le informazioni visive
Metodi di prompt engineering: Efficacia limitata e scarsa generalizzabilità
Metodi di post-addestramento: Richiedono dati di feedback umano e costi di addestramento aggiuntivi

Contributi Principali

Propone il metodo CMG: Un metodo di inferenza senza addestramento che riduce efficacemente le allucinazioni del modello attraverso mascheratura casuale dell'attenzione
Identifica la causa radice delle allucinazioni: Scopre che l'insufficiente connessione visivo-attentiva è un fattore importante nella generazione di allucinazioni, fornendo prove rigorose
Verifica sperimentale completa: Valuta quantitativamente l'efficacia di CMG su molteplici benchmark, dimostrando la sua capacità di generalizzazione
Perfezionamento del framework teorico: Stabilisce le basi teoriche della decodifica contrastiva basata su informazione mutua puntuale (PMI)

Dettagli del Metodo

Definizione del Compito

Dato un input testuale $x = \{x_1, x_2, ..., x_n\}$ e un input visivo $I = \{I_1, I_2, ..., I_m\}$ , il VLM deve generare una sequenza testuale di lunghezza k: $y = \{y_1, y_2, ..., y_k\}$ . Il processo di generazione segue un modello autoregressivo:

$p_\theta(y|x,I) = \prod_{t=1}^k p_\theta(y_t|y_{<t}, x, I)$

Analisi del Bias Linguistico

La ricerca rivela significativi bias linguistici nei VLM:

Decadimento dei pesi di attenzione: I pesi di attenzione dei token di immagine diminuiscono drasticamente negli strati superficiali e rimangono bassi negli strati profondi
Predominanza dei token di testo: I pesi di attenzione dei token di sistema superano persino quelli dei token di domanda contenenti informazioni critiche
Effetto della lunghezza della sequenza: Con l'allungamento della sequenza generata, i pesi di attenzione dell'immagine diminuiscono gradualmente

Architettura Centrale di CMG

1. Costruzione del Modello Ausiliario

Il meccanismo di auto-attenzione contiene tre tipi:

Attenzione intra-visiva $A_{iv}$
Attenzione intra-testuale $A_{it}$
Attenzione cross-modale $A_{cr}$

$A = A_{iv} \cup A_{it} \cup A_{cr}$

Il modello ausiliario viene costruito mascherando parzialmente i pesi di attenzione cross-modale e intra-visiva:

$SA(Q,K,V;M) = \text{Softmax}(A \odot M)V$

dove $M := M_{cr} \cup M_{iv}$ è la mascheratura applicata alla matrice di attenzione.

2. Strategia di Decodifica Contrastiva

Regola la distribuzione di output del VLM originale:

$p_\theta(y|x,I) \propto q_\theta(y) \left(\frac{q_\theta(y)}{q_\theta(y;M)}\right)^\alpha$

dove:

$q_\theta(y) := p_\theta(y|x,I;A_{cr}, A_{iv}, A_{it})$ (modello originale)
$q_\theta(y;M) := p_\theta(y|x,I;A_{cr} \odot M_{cr}, A_{iv} \odot M_{iv}, A_{it})$ (modello ausiliario)

3. Strategia di Mascheratura Dinamica

Mascheratura di attenzione dinamica: Maschera la proporzione più grande $\gamma$ dei pesi di attenzione in $A_{iv}$ e $A_{cr}$ :

$SA(Q,K,V;M) = \text{Softmax}(A \odot M(\gamma))V$

Selezione dinamica degli strati: Seleziona gli strati importanti basandosi sulla similarità del coseno:

$s(i) = \cos(X_i, Y_i) = \frac{X_i \cdot Y_i}{\|X_i\|_2 \|Y_i\|_2}$

Maschera la proporzione $\tau$ degli strati con similarità minima.

Punti di Innovazione Tecnica

Operazione sul meccanismo di attenzione interno: Opera direttamente sui pesi di attenzione all'interno del transformer, piuttosto che sulla perturbazione dell'input
Strategia di mascheratura adattiva: Seleziona dinamicamente i pesi di attenzione e gli strati più influenti da mascherare
Progettazione guidata dalla teoria: Costruisce il framework di decodifica contrastiva basato sulla teoria PMI
Assenza di costi di addestramento: Funziona completamente nella fase di inferenza, senza addestramento aggiuntivo

Configurazione Sperimentale

Dataset

Benchmark correlati alle allucinazioni: HallusionBench, POPE
Benchmark di valutazione completa: MME

Metriche di Valutazione

POPE: Recall, Accuracy, Precision, Overall Score
HallusionBench: Question Accuracy (qAcc), Image Accuracy (fAcc), Overall Accuracy (aAcc)
MME: Punteggi di 14 sotto-compiti per capacità di percezione e ragionamento

Metodi di Confronto

VCD: Costruisce il modello ausiliario aggiungendo rumore gaussiano all'immagine di input
ConVis: Utilizza un modello da testo a immagine per rigenerare l'immagine e sfrutta le differenze per guidare la generazione

Dettagli di Implementazione

Modelli backbone: LLaVA-v1.5-7B, InstructBLIP-7B, Qwen2-VL-7B, InternVL2.5-8B
Configurazione dei parametri:
- Benchmark specifici per allucinazioni: $\alpha=0.3, \gamma=0.5, \tau=0.5$
- Benchmark universale MME: $\alpha=0.1, \gamma=0.5, \tau=0.1$
Parametri di campionamento: top-p=0.9, beam search=5, temperature=0.7

Risultati Sperimentali

Risultati Principali

Benchmark POPE

Su LLaVA-v1.5-7B, CMG raggiunge un'accuratezza complessiva di 85.48, superando VCD e ConVis. Particolarmente degno di nota è che CMG mostra scalabilità positiva su nuove architetture (da 89.0 a 89.3 su InternVL-2.5), mentre i metodi tradizionali mostrano degradazione delle prestazioni con l'aggiornamento dell'architettura.

Benchmark HallusionBench

CMG supera VCD di +7.1 punti in accuratezza e ConVis di +6.3 punti, mostrando prestazioni leader tra i metodi di inferenza senza addestramento aggiuntivo.

Benchmark MME

Nei sotto-compiti correlati alla percezione, il punteggio totale di CMG supera VCD di +62.08 punti e ConVis di +7.30 punti. Raggiunge i punteggi più alti nei sottoinsiemi dove il bias linguistico è particolarmente prevalente, come "colore", "scena" e "punto di riferimento".

Risultati su Diverse Dimensioni di Modello

CMG mostra miglioramenti robusti delle prestazioni su modelli di diverse dimensioni parametriche (2B, 7B, 13B, 26B), dimostrando buona scalabilità e adattabilità architetturale.

Esperimenti di Ablazione

Gli esperimenti verificano diverse strategie di costruzione del modello ausiliario:

Rimozione completa dell'attenzione visiva: Grave degradazione delle prestazioni (fAcc: 12.14)
Sostituzione con rumore: Prestazioni limitate (fAcc: 29.48)
Sostituzione testuale: Effetto moderato (fAcc: 29.77)
Metodo CMG: Prestazioni ottimali (fAcc: 30.06)

Analisi di Casi Studio

L'articolo presenta due casi tipici:

Compito di comprensione di dipinti: Il modello originale associa erroneamente "hat" all'abbigliamento del personaggio, CMG corregge con successo e identifica "bandana"
Identificazione del colore della maglietta: Di fronte all'interferenza di un cappello nero, CMG identifica accuratamente il colore della maglietta regolando il rapporto PMI

Lavori Correlati

Ricerca sul Problema delle Allucinazioni

Il problema delle allucinazioni nei VLM è diventato una direzione di ricerca importante, con i metodi esistenti che includono principalmente:

Metodi di prompt engineering
Post-addestramento basato su feedback umano
Diverse strategie di inferenza

Decodifica Consapevole del Contenuto

Metodi di ricerca: Come ricerca greedy e beam search, risultati accurati ma potenzialmente ripetitivi
Metodi di campionamento: Come nucleus sampling, migliore diversità ma possibili transizioni tematiche innaturali
Decodifica contrastiva: Sfrutta le differenze tra due probabilità di output per costruire una distribuzione di output migliorata

Conclusioni e Discussione

Conclusioni Principali

Efficacia di CMG: Riduce significativamente il problema delle allucinazioni nei VLM senza addestramento
Impatto del bias linguistico: Conferma che il bias linguistico è un fattore importante nell'induzione delle allucinazioni
Importanza del meccanismo di attenzione: Operare sui pesi di attenzione può migliorare efficacemente il comportamento del modello
Applicabilità diffusa: Il metodo mostra eccellenti prestazioni su diverse architetture di modelli e benchmark

Limitazioni

Sensibilità agli iperparametri: Richiede un'attenta regolazione degli iperparametri per diversi scenari, come il rapporto di mascheratura correlato a $n_0$ nell'equazione 12
Necessità di ottimizzazione dinamica: Ottenere risultati ottimali attualmente richiede l'ottimizzazione dinamica degli iperparametri, aumentando la complessità d'uso
Overhead computazionale: Richiede l'esecuzione simultanea del modello originale e del modello ausiliario, aumentando il tempo di inferenza

Direzioni Future

Ottimizzazione automatica degli iperparametri: Sviluppare meccanismi di selezione parametrica adattiva
Ottimizzazione dell'efficienza: Ridurre l'overhead computazionale e migliorare l'efficienza dell'inferenza
Perfezionamento teorico: Approfondire ulteriormente le basi teoriche della decodifica contrastiva

Valutazione Approfondita

Punti di Forza

Forte innovatività: Affronta per la prima volta il problema delle allucinazioni nei VLM dal prospettivo del meccanismo di attenzione, fornendo una nuova prospettiva di ricerca
Solide basi teoriche: Il framework di decodifica contrastiva costruito sulla base di PMI possiede fondamenta teoriche robuste
Esperimenti completi: Verifica sufficiente su molteplici benchmark e diversi modelli
Alto valore pratico: Applicabile senza addestramento, riducendo la soglia d'uso
Analisi approfondita: L'analisi del meccanismo di generazione del bias linguistico fornisce importanti intuizioni

Insufficienze

Complessità relativamente elevata: Coinvolge molteplici iperparametri e strategie di selezione dinamica, aumentando la complessità d'uso
Costo computazionale: Richiede l'esecuzione simultanea di due modelli, aumentando il costo dell'inferenza
Sensibilità ai parametri: L'efficacia è relativamente sensibile alla scelta degli iperparametri, potenzialmente influenzando l'applicazione pratica
Ambito di applicabilità: Principalmente rivolto ai VLM basati su transformer, l'applicabilità ad altre architetture rimane sconosciuta

Impatto

Contributo accademico: Fornisce una nuova prospettiva di soluzione per il problema delle allucinazioni nei VLM, potenzialmente ispirando ricerche successive
Valore pratico: La caratteristica senza addestramento facilita il dispiegamento nei sistemi esistenti
Riproducibilità: La descrizione del metodo è dettagliata e la configurazione sperimentale è chiara, con buona riproducibilità

Scenari di Applicazione

Scenari di applicazione che richiedono comprensione visiva di alta qualità
Applicazioni critiche per la sicurezza sensibili al problema delle allucinazioni
Ambienti con risorse limitate dove non è possibile eseguire addestramento aggiuntivo
Applicazioni commerciali che richiedono dispiegamento rapido

Bibliografia

L'articolo cita 62 lavori correlati, coprendo aree rilevanti come VLM, rilevamento di allucinazioni e decodifica contrastiva, fornendo basi teoriche sufficienti e benchmark di confronto per la ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa in un'importante direzione di ricerca—il problema delle allucinazioni nei VLM. Il metodo possiede solide basi teoriche e eccellenti prestazioni sperimentali, con valore significativo sia per il mondo accademico che per l'industria. Sebbene presenti alcune limitazioni, i suoi contributi e il suo impatto sono notevoli.