2025-11-18T20:07:12.683154

When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance

Cao, Chen, Wang et al.

Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.

academic

Quand les Images Parlent Plus Fort : Atténuation des Hallucinations Induites par les Biais Linguistiques dans les VLMs par le Biais d'une Guidance Multimodale

Informations Fondamentales

ID de l'article : 2510.10466
Titre : When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
Auteurs : Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (MAPLE Lab, Westlake University)
Classification : cs.CV (Vision par Ordinateur)
Date de Publication : 12 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.10466v1

Résumé

Les modèles de vision-langage (VLMs) démontrent une excellence dans la compréhension multimodale, mais font face à des problèmes récurrents d'hallucinations — la génération de réponses linguistiquement fluides mais sans rapport avec le contenu de l'image. Cet article analyse comment les biais linguistiques induisent les hallucinations et propose Cross-Modal Guidance (CMG), une méthode de décodage sans entraînement qui résout les hallucinations en contrastant les distributions de sortie du modèle original et d'un modèle dégradé d'attention vision-langage. CMG perturbe la perception vision-langage en masquant de manière adaptative les poids d'attention des tokens d'image les plus influents dans les couches de transformeur sélectionnées, renforçant la conscience du contexte visuel et réduisant significativement les biais linguistiques sans compromettre les capacités des VLMs.

Contexte de Recherche et Motivation

Problème Central

Bien que les VLMs possèdent des capacités puissantes en compréhension multimodale, ils souffrent de problèmes graves d'hallucinations :

Hallucinations induites par les biais linguistiques : Les modèles tendent à générer des réponses basées sur les motifs linguistiques, en ignorant les informations visuelles
Déséquilibre des poids d'attention : Les poids d'attention des tokens d'image diminuent drastiquement dans les couches profondes du réseau
Utilisation insuffisante de l'information visuelle : Bien que le nombre de tokens d'image soit généralement bien supérieur aux tokens textuels, leur influence est sous-estimée

Importance du Problème

Les hallucinations des VLMs entravent leur adoption généralisée et présentent des risques incontrôlables
Les utilisateurs ont besoin de systèmes d'IA multimodaux fiables, capables de comprendre et de répondre précisément au contenu visuel
Les solutions existantes nécessitent soit un entraînement supplémentaire, soit offrent une efficacité limitée

Limitations des Approches Existantes

Méthode VCD : Ajoute directement du bruit gaussien aux images d'entrée, mais cette perturbation devient incontrôlable dans les couches profondes
Méthode ConVis : Nécessite d'appeler des modèles supplémentaires coûteux pour améliorer l'information visuelle
Méthodes d'ingénierie des invites : Efficacité limitée et manque de généralité
Méthodes post-entraînement : Requièrent des données de rétroaction humaine et des coûts d'entraînement supplémentaires

Contributions Principales

Proposition de la méthode CMG : Une méthode d'inférence sans entraînement qui réduit efficacement les hallucinations du modèle par masquage d'attention aléatoire
Identification de la cause racine des hallucinations : Découverte que l'insuffisance de connexion attention-vision est une cause importante des hallucinations, avec preuves rigoureuses
Vérification Expérimentale Complète : Évaluation quantitative de l'efficacité de CMG sur plusieurs benchmarks, démontrant sa capacité de généralisation
Cadre Théorique Amélioré : Établissement des fondations théoriques du décodage contrastif basé sur l'information mutuelle ponctuelle (PMI)

Détails de la Méthode

Définition de la Tâche

Étant donné une entrée textuelle $x = \{x_1, x_2, ..., x_n\}$ et une entrée visuelle $I = \{I_1, I_2, ..., I_m\}$ , le VLM doit générer une séquence textuelle de longueur k : $y = \{y_1, y_2, ..., y_k\}$ . Le processus de génération suit un modèle autorégressif :

$p_\theta(y|x,I) = \prod_{t=1}^k p_\theta(y_t|y_{<t}, x, I)$

Analyse des Biais Linguistiques

L'étude révèle des biais linguistiques significatifs dans les VLMs :

Décroissance des poids d'attention : Les poids d'attention des tokens d'image diminuent drastiquement dans les couches peu profondes et restent faibles dans les couches profondes
Avantage des tokens textuels : Les poids d'attention des tokens système surpassent même ceux des tokens de question contenant des informations clés
Impact de la longueur de séquence : À mesure que la séquence générée s'allonge, les poids d'attention visuelle diminuent progressivement

Architecture Centrale de CMG

1. Construction du Modèle Affaibli

Le mécanisme d'auto-attention contient trois types :

Attention intra-visuelle $A_{iv}$
Attention intra-textuelle $A_{it}$
Attention multimodale $A_{cr}$

$A = A_{iv} \cup A_{it} \cup A_{cr}$

Le modèle affaibli est construit en masquant partiellement les poids d'attention multimodale et intra-visuelle :

$SA(Q,K,V;M) = \text{Softmax}(A \odot M)V$

où $M := M_{cr} \cup M_{iv}$ est le masque appliqué à la matrice d'attention.

2. Stratégie de Décodage Contrastif

Ajustement de la distribution de sortie du VLM original :

$p_\theta(y|x,I) \propto q_\theta(y) \left(\frac{q_\theta(y)}{q_\theta(y;M)}\right)^\alpha$

où :

$q_\theta(y) := p_\theta(y|x,I;A_{cr}, A_{iv}, A_{it})$ (modèle original)
$q_\theta(y;M) := p_\theta(y|x,I;A_{cr} \odot M_{cr}, A_{iv} \odot M_{iv}, A_{it})$ (modèle affaibli)

3. Stratégie de Masquage Dynamique

Masquage d'attention dynamique : Masquage des $\gamma$ plus grands poids d'attention en proportion dans $A_{iv}$ et $A_{cr}$ :

$SA(Q,K,V;M) = \text{Softmax}(A \odot M(\gamma))V$

Sélection dynamique des couches : Sélection des couches importantes basée sur la similarité cosinus :

$s(i) = \cos(X_i, Y_i) = \frac{X_i \cdot Y_i}{\|X_i\|_2 \|Y_i\|_2}$

Masquage des couches représentant les $\tau$ plus petites proportions de similarité.

Points d'Innovation Technique

Opération sur les mécanismes d'attention internes : Manipulation directe des poids d'attention au sein du transformeur, plutôt que perturbation des entrées
Stratégie de masquage adaptative : Sélection dynamique des poids d'attention et des couches les plus influents pour le masquage
Conception guidée par la théorie : Cadre de décodage contrastif construit sur la théorie PMI
Absence de coûts d'entraînement : Fonctionnement entièrement au stade de l'inférence, sans entraînement supplémentaire

Configuration Expérimentale

Ensembles de Données

Benchmarks liés aux hallucinations : HallusionBench, POPE
Benchmarks d'évaluation complète : MME

Métriques d'Évaluation

POPE : Rappel (Recall), Précision (Accuracy), Exactitude (Precision), Score Global (Overall)
HallusionBench : Exactitude d'alignement des questions (qAcc), Exactitude des images (fAcc), Exactitude globale (aAcc)
MME : Scores de 14 sous-tâches de perception et de raisonnement

Méthodes de Comparaison

VCD : Construction d'un modèle affaibli en ajoutant du bruit gaussien aux images d'entrée
ConVis : Utilisation d'un modèle texte-vers-image pour régénérer l'image et exploiter les différences pour guider la génération

Détails d'Implémentation

Modèles de base : LLaVA-v1.5-7B, InstructBLIP-7B, Qwen2-VL-7B, InternVL2.5-8B
Configuration des paramètres :
- Benchmarks spécifiques aux hallucinations : $\alpha=0.3, \gamma=0.5, \tau=0.5$
- Benchmark généraliste MME : $\alpha=0.1, \gamma=0.5, \tau=0.1$
Paramètres d'échantillonnage : top-p=0.9, beam search=5, temperature=0.7

Résultats Expérimentaux

Résultats Principaux

Benchmark POPE

Sur LLaVA-v1.5-7B, CMG atteint une exactitude globale de 85,48, surpassant VCD et ConVis. Particulièrement remarquable, CMG démontre une scalabilité positive sur les nouvelles architectures (amélioration de 89,0 à 89,3 sur InternVL-2.5), tandis que les méthodes traditionnelles voient leurs performances diminuer lors des mises à niveau d'architecture.

Benchmark HallusionBench

CMG surpasse VCD de +7,1 points en exactitude et ConVis de +6,3 points, affichant les meilleures performances parmi les méthodes d'inférence sans entraînement supplémentaire.

Benchmark MME

Sur les sous-tâches liées à la perception, le score total de CMG surpasse VCD de +62,08 points et ConVis de +7,30 points. Obtient les meilleurs scores sur les sous-ensembles où les biais linguistiques sont particulièrement courants, tels que « couleur », « scène » et « points de repère ».

Résultats sur Différentes Tailles de Modèles

CMG démontre des améliorations de performance robustes sur des modèles de différentes tailles de paramètres (2B, 7B, 13B, 26B), exhibant une bonne scalabilité et adaptabilité architecturale.

Études d'Ablation

Les expériences valident plusieurs stratégies de construction de modèles affaiblis :

Suppression complète de l'attention visuelle : Dégradation sévère des performances (fAcc : 12,14)
Remplacement par bruit : Performances limitées (fAcc : 29,48)
Remplacement textuel : Résultats généraux (fAcc : 29,77)
Méthode CMG : Meilleures performances (fAcc : 30,06)

Analyse de Cas

L'article présente deux cas typiques :

Tâche de compréhension de peinture : Le modèle original associe incorrectement « hat » aux vêtements du personnage, CMG corrige avec succès et identifie « bandana »
Identification de la couleur du T-shirt : Face à l'interférence d'un chapeau noir, CMG ajuste correctement le ratio PMI et identifie précisément la couleur du T-shirt

Travaux Connexes

Recherche sur les Hallucinations

Le problème des hallucinations dans les VLMs est devenu une direction de recherche importante, avec des approches existantes incluant :

Méthodes d'ingénierie des invites
Post-entraînement basé sur la rétroaction humaine
Différentes stratégies d'inférence

Décodage Conscient du Contenu

Méthodes de recherche : Telles que la recherche gloutonne et la recherche par faisceau, résultats précis mais potentiellement répétitifs
Méthodes d'échantillonnage : Telles que l'échantillonnage nucléaire, meilleure diversité mais transitions de sujets potentiellement non naturelles
Décodage contrastif : Exploitation des différences entre deux probabilités de sortie pour construire une distribution de sortie améliorée

Conclusion et Discussion

Conclusions Principales

Efficacité de CMG : Réduction significative des hallucinations des VLMs sans entraînement
Impact des biais linguistiques : Confirmation que les biais linguistiques sont un facteur important induisant les hallucinations
Importance des mécanismes d'attention : La manipulation des poids d'attention peut améliorer efficacement le comportement du modèle
Applicabilité générale : La méthode démontre d'excellentes performances sur diverses architectures de modèles et benchmarks

Limitations

Sensibilité aux hyperparamètres : Nécessite un ajustement minutieux des hyperparamètres pour différents scénarios, tels que les ratios de masquage liés à $n_0$ dans l'équation 12
Besoin d'optimisation dynamique : L'obtention de résultats optimaux actuels nécessite un ajustement dynamique des hyperparamètres, augmentant la complexité d'utilisation
Surcharge de calcul : Nécessite l'exécution simultanée du modèle original et du modèle affaibli, augmentant le temps d'inférence

Directions Futures

Ajustement automatique des hyperparamètres : Développement de mécanismes de sélection de paramètres adaptatifs
Optimisation de l'efficacité : Réduction de la surcharge de calcul et amélioration de l'efficacité de l'inférence
Perfectionnement théorique : Amélioration supplémentaire des fondations théoriques du décodage contrastif

Évaluation Approfondie

Points Forts

Innovation forte : Première approche résolvant les hallucinations des VLMs sous l'angle des mécanismes d'attention, offrant une nouvelle perspective de recherche
Fondations théoriques solides : Le cadre de décodage contrastif construit sur PMI possède des bases théoriques robustes
Expérimentation complète : Vérification suffisante sur plusieurs benchmarks et modèles variés
Valeur pratique élevée : Applicabilité sans entraînement, réduisant les barrières d'utilisation
Analyse approfondie : L'analyse du mécanisme de génération des biais linguistiques offre des perspectives importantes

Insuffisances

Complexité relativement élevée : Implique plusieurs hyperparamètres et stratégies de sélection dynamique, augmentant la complexité d'utilisation
Coûts de calcul : Nécessite l'exécution simultanée de deux modèles, augmentant les coûts d'inférence
Sensibilité aux paramètres : Les résultats sont relativement sensibles à la sélection des hyperparamètres, pouvant affecter l'application pratique
Portée d'applicabilité : Principalement ciblée sur les VLMs basés sur transformeur, l'applicabilité à d'autres architectures reste inconnue

Impact

Contribution académique : Offre une nouvelle approche pour résoudre les hallucinations des VLMs, susceptible d'inspirer les recherches futures
Valeur pratique : La caractéristique sans entraînement facilite le déploiement dans les systèmes existants
Reproductibilité : Description détaillée de la méthode et configuration expérimentale claire, offrant une bonne reproductibilité

Scénarios d'Application

Scénarios d'application nécessitant une compréhension visuelle de haute qualité
Applications critiques pour la sécurité sensibles aux problèmes d'hallucinations
Environnements à ressources limitées ne permettant pas d'entraînement supplémentaire
Applications commerciales nécessitant un déploiement rapide

Références

L'article cite 62 références pertinentes, couvrant les domaines importants des VLMs, de la détection des hallucinations et du décodage contrastif, fournissant une base théorique suffisante et des benchmarks de comparaison pour la recherche.

Évaluation Globale : Cet article représente une recherche de haute qualité proposant une solution innovante à la direction de recherche importante des hallucinations dans les VLMs. La méthode possède des fondations théoriques solides et des performances expérimentales exceptionnelles, offrant une valeur importante tant pour le monde académique que pour l'industrie. Malgré certaines limitations, ses contributions et son impact ne peuvent être ignorés.