Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.
Quando le Immagini Parlano Più Forte: Mitigazione delle Allucinazioni Indotte da Bias Linguistico nei VLM attraverso Guida Cross-Modale
- ID Articolo: 2510.10466
- Titolo: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
- Autori: Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (MAPLE Lab, Westlake University)
- Classificazione: cs.CV (Visione Artificiale)
- Data di Pubblicazione: 12 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.10466v1
I modelli visivi-linguistici (VLM) dimostrano eccellenti capacità nella comprensione multimodale, ma affrontano frequentemente il problema delle allucinazioni—generando risposte linguisticamente fluide ma non correlate al contenuto dell'immagine. Questo articolo analizza come il bias linguistico induce allucinazioni e propone Cross-Modal Guidance (CMG), un metodo di decodifica senza addestramento che affronta il problema delle allucinazioni contrastando le distribuzioni di output del modello originale con quelle di un modello degradato di attenzione visivo-linguistica. CMG interrompe la percezione visivo-linguistica mascherando adattivamente i pesi di attenzione dei token di immagine più influenti in strati transformer selezionati, rafforzando la consapevolezza del contesto visivo e riducendo significativamente il bias linguistico senza compromettere le capacità dei VLM.
Sebbene i VLM possiedano forti capacità nella comprensione multimodale, presentano gravi problemi di allucinazione:
- Allucinazioni indotte da bias linguistico: Il modello tende a generare risposte basate su schemi linguistici, ignorando le informazioni visive
- Squilibrio nei pesi di attenzione: I pesi di attenzione dei token di immagine diminuiscono drasticamente negli strati più profondi della rete
- Sottoutilizzo delle informazioni visive: Nonostante il numero di token di immagine sia solitamente molto superiore ai token di testo, la loro influenza è sottovalutata
- Il problema delle allucinazioni nei VLM ostacola l'applicazione diffusa, presentando rischi incontrollabili
- Gli utenti necessitano di sistemi di intelligenza artificiale multimodale affidabili, in grado di comprendere e rispondere accuratamente al contenuto visivo
- Le soluzioni esistenti richiedono addestramento aggiuntivo oppure hanno efficacia limitata
- Metodo VCD: Aggiunge direttamente rumore gaussiano all'immagine di input, ma questa perturbazione diventa incontrollabile negli strati più profondi della rete
- Metodo ConVis: Richiede l'invocazione di modelli aggiuntivi costosi per migliorare le informazioni visive
- Metodi di prompt engineering: Efficacia limitata e scarsa generalizzabilità
- Metodi di post-addestramento: Richiedono dati di feedback umano e costi di addestramento aggiuntivi
- Propone il metodo CMG: Un metodo di inferenza senza addestramento che riduce efficacemente le allucinazioni del modello attraverso mascheratura casuale dell'attenzione
- Identifica la causa radice delle allucinazioni: Scopre che l'insufficiente connessione visivo-attentiva è un fattore importante nella generazione di allucinazioni, fornendo prove rigorose
- Verifica sperimentale completa: Valuta quantitativamente l'efficacia di CMG su molteplici benchmark, dimostrando la sua capacità di generalizzazione
- Perfezionamento del framework teorico: Stabilisce le basi teoriche della decodifica contrastiva basata su informazione mutua puntuale (PMI)
Dato un input testuale x={x1,x2,...,xn} e un input visivo I={I1,I2,...,Im}, il VLM deve generare una sequenza testuale di lunghezza k: y={y1,y2,...,yk}. Il processo di generazione segue un modello autoregressivo:
pθ(y∣x,I)=∏t=1kpθ(yt∣y<t,x,I)
La ricerca rivela significativi bias linguistici nei VLM:
- Decadimento dei pesi di attenzione: I pesi di attenzione dei token di immagine diminuiscono drasticamente negli strati superficiali e rimangono bassi negli strati profondi
- Predominanza dei token di testo: I pesi di attenzione dei token di sistema superano persino quelli dei token di domanda contenenti informazioni critiche
- Effetto della lunghezza della sequenza: Con l'allungamento della sequenza generata, i pesi di attenzione dell'immagine diminuiscono gradualmente
Il meccanismo di auto-attenzione contiene tre tipi:
- Attenzione intra-visiva Aiv
- Attenzione intra-testuale Ait
- Attenzione cross-modale Acr
A=Aiv∪Ait∪Acr
Il modello ausiliario viene costruito mascherando parzialmente i pesi di attenzione cross-modale e intra-visiva:
SA(Q,K,V;M)=Softmax(A⊙M)V
dove M:=Mcr∪Miv è la mascheratura applicata alla matrice di attenzione.
Regola la distribuzione di output del VLM originale:
pθ(y∣x,I)∝qθ(y)(qθ(y;M)qθ(y))α
dove:
- qθ(y):=pθ(y∣x,I;Acr,Aiv,Ait) (modello originale)
- qθ(y;M):=pθ(y∣x,I;Acr⊙Mcr,Aiv⊙Miv,Ait) (modello ausiliario)
Mascheratura di attenzione dinamica: Maschera la proporzione più grande γ dei pesi di attenzione in Aiv e Acr:
SA(Q,K,V;M)=Softmax(A⊙M(γ))V
Selezione dinamica degli strati: Seleziona gli strati importanti basandosi sulla similarità del coseno:
s(i)=cos(Xi,Yi)=∥Xi∥2∥Yi∥2Xi⋅Yi
Maschera la proporzione τ degli strati con similarità minima.
- Operazione sul meccanismo di attenzione interno: Opera direttamente sui pesi di attenzione all'interno del transformer, piuttosto che sulla perturbazione dell'input
- Strategia di mascheratura adattiva: Seleziona dinamicamente i pesi di attenzione e gli strati più influenti da mascherare
- Progettazione guidata dalla teoria: Costruisce il framework di decodifica contrastiva basato sulla teoria PMI
- Assenza di costi di addestramento: Funziona completamente nella fase di inferenza, senza addestramento aggiuntivo
- Benchmark correlati alle allucinazioni: HallusionBench, POPE
- Benchmark di valutazione completa: MME
- POPE: Recall, Accuracy, Precision, Overall Score
- HallusionBench: Question Accuracy (qAcc), Image Accuracy (fAcc), Overall Accuracy (aAcc)
- MME: Punteggi di 14 sotto-compiti per capacità di percezione e ragionamento
- VCD: Costruisce il modello ausiliario aggiungendo rumore gaussiano all'immagine di input
- ConVis: Utilizza un modello da testo a immagine per rigenerare l'immagine e sfrutta le differenze per guidare la generazione
- Modelli backbone: LLaVA-v1.5-7B, InstructBLIP-7B, Qwen2-VL-7B, InternVL2.5-8B
- Configurazione dei parametri:
- Benchmark specifici per allucinazioni: α=0.3,γ=0.5,τ=0.5
- Benchmark universale MME: α=0.1,γ=0.5,τ=0.1
- Parametri di campionamento: top-p=0.9, beam search=5, temperature=0.7
Su LLaVA-v1.5-7B, CMG raggiunge un'accuratezza complessiva di 85.48, superando VCD e ConVis. Particolarmente degno di nota è che CMG mostra scalabilità positiva su nuove architetture (da 89.0 a 89.3 su InternVL-2.5), mentre i metodi tradizionali mostrano degradazione delle prestazioni con l'aggiornamento dell'architettura.
CMG supera VCD di +7.1 punti in accuratezza e ConVis di +6.3 punti, mostrando prestazioni leader tra i metodi di inferenza senza addestramento aggiuntivo.
Nei sotto-compiti correlati alla percezione, il punteggio totale di CMG supera VCD di +62.08 punti e ConVis di +7.30 punti. Raggiunge i punteggi più alti nei sottoinsiemi dove il bias linguistico è particolarmente prevalente, come "colore", "scena" e "punto di riferimento".
CMG mostra miglioramenti robusti delle prestazioni su modelli di diverse dimensioni parametriche (2B, 7B, 13B, 26B), dimostrando buona scalabilità e adattabilità architetturale.
Gli esperimenti verificano diverse strategie di costruzione del modello ausiliario:
- Rimozione completa dell'attenzione visiva: Grave degradazione delle prestazioni (fAcc: 12.14)
- Sostituzione con rumore: Prestazioni limitate (fAcc: 29.48)
- Sostituzione testuale: Effetto moderato (fAcc: 29.77)
- Metodo CMG: Prestazioni ottimali (fAcc: 30.06)
L'articolo presenta due casi tipici:
- Compito di comprensione di dipinti: Il modello originale associa erroneamente "hat" all'abbigliamento del personaggio, CMG corregge con successo e identifica "bandana"
- Identificazione del colore della maglietta: Di fronte all'interferenza di un cappello nero, CMG identifica accuratamente il colore della maglietta regolando il rapporto PMI
Il problema delle allucinazioni nei VLM è diventato una direzione di ricerca importante, con i metodi esistenti che includono principalmente:
- Metodi di prompt engineering
- Post-addestramento basato su feedback umano
- Diverse strategie di inferenza
- Metodi di ricerca: Come ricerca greedy e beam search, risultati accurati ma potenzialmente ripetitivi
- Metodi di campionamento: Come nucleus sampling, migliore diversità ma possibili transizioni tematiche innaturali
- Decodifica contrastiva: Sfrutta le differenze tra due probabilità di output per costruire una distribuzione di output migliorata
- Efficacia di CMG: Riduce significativamente il problema delle allucinazioni nei VLM senza addestramento
- Impatto del bias linguistico: Conferma che il bias linguistico è un fattore importante nell'induzione delle allucinazioni
- Importanza del meccanismo di attenzione: Operare sui pesi di attenzione può migliorare efficacemente il comportamento del modello
- Applicabilità diffusa: Il metodo mostra eccellenti prestazioni su diverse architetture di modelli e benchmark
- Sensibilità agli iperparametri: Richiede un'attenta regolazione degli iperparametri per diversi scenari, come il rapporto di mascheratura correlato a n0 nell'equazione 12
- Necessità di ottimizzazione dinamica: Ottenere risultati ottimali attualmente richiede l'ottimizzazione dinamica degli iperparametri, aumentando la complessità d'uso
- Overhead computazionale: Richiede l'esecuzione simultanea del modello originale e del modello ausiliario, aumentando il tempo di inferenza
- Ottimizzazione automatica degli iperparametri: Sviluppare meccanismi di selezione parametrica adattiva
- Ottimizzazione dell'efficienza: Ridurre l'overhead computazionale e migliorare l'efficienza dell'inferenza
- Perfezionamento teorico: Approfondire ulteriormente le basi teoriche della decodifica contrastiva
- Forte innovatività: Affronta per la prima volta il problema delle allucinazioni nei VLM dal prospettivo del meccanismo di attenzione, fornendo una nuova prospettiva di ricerca
- Solide basi teoriche: Il framework di decodifica contrastiva costruito sulla base di PMI possiede fondamenta teoriche robuste
- Esperimenti completi: Verifica sufficiente su molteplici benchmark e diversi modelli
- Alto valore pratico: Applicabile senza addestramento, riducendo la soglia d'uso
- Analisi approfondita: L'analisi del meccanismo di generazione del bias linguistico fornisce importanti intuizioni
- Complessità relativamente elevata: Coinvolge molteplici iperparametri e strategie di selezione dinamica, aumentando la complessità d'uso
- Costo computazionale: Richiede l'esecuzione simultanea di due modelli, aumentando il costo dell'inferenza
- Sensibilità ai parametri: L'efficacia è relativamente sensibile alla scelta degli iperparametri, potenzialmente influenzando l'applicazione pratica
- Ambito di applicabilità: Principalmente rivolto ai VLM basati su transformer, l'applicabilità ad altre architetture rimane sconosciuta
- Contributo accademico: Fornisce una nuova prospettiva di soluzione per il problema delle allucinazioni nei VLM, potenzialmente ispirando ricerche successive
- Valore pratico: La caratteristica senza addestramento facilita il dispiegamento nei sistemi esistenti
- Riproducibilità: La descrizione del metodo è dettagliata e la configurazione sperimentale è chiara, con buona riproducibilità
- Scenari di applicazione che richiedono comprensione visiva di alta qualità
- Applicazioni critiche per la sicurezza sensibili al problema delle allucinazioni
- Ambienti con risorse limitate dove non è possibile eseguire addestramento aggiuntivo
- Applicazioni commerciali che richiedono dispiegamento rapido
L'articolo cita 62 lavori correlati, coprendo aree rilevanti come VLM, rilevamento di allucinazioni e decodifica contrastiva, fornendo basi teoriche sufficienti e benchmark di confronto per la ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa in un'importante direzione di ricerca—il problema delle allucinazioni nei VLM. Il metodo possiede solide basi teoriche e eccellenti prestazioni sperimentali, con valore significativo sia per il mondo accademico che per l'industria. Sebbene presenti alcune limitazioni, i suoi contributi e il suo impatto sono notevoli.