Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.
Quand les Images Parlent Plus Fort : Atténuation des Hallucinations Induites par les Biais Linguistiques dans les VLMs par le Biais d'une Guidance Multimodale
- ID de l'article : 2510.10466
- Titre : When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
- Auteurs : Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (MAPLE Lab, Westlake University)
- Classification : cs.CV (Vision par Ordinateur)
- Date de Publication : 12 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.10466v1
Les modèles de vision-langage (VLMs) démontrent une excellence dans la compréhension multimodale, mais font face à des problèmes récurrents d'hallucinations — la génération de réponses linguistiquement fluides mais sans rapport avec le contenu de l'image. Cet article analyse comment les biais linguistiques induisent les hallucinations et propose Cross-Modal Guidance (CMG), une méthode de décodage sans entraînement qui résout les hallucinations en contrastant les distributions de sortie du modèle original et d'un modèle dégradé d'attention vision-langage. CMG perturbe la perception vision-langage en masquant de manière adaptative les poids d'attention des tokens d'image les plus influents dans les couches de transformeur sélectionnées, renforçant la conscience du contexte visuel et réduisant significativement les biais linguistiques sans compromettre les capacités des VLMs.
Bien que les VLMs possèdent des capacités puissantes en compréhension multimodale, ils souffrent de problèmes graves d'hallucinations :
- Hallucinations induites par les biais linguistiques : Les modèles tendent à générer des réponses basées sur les motifs linguistiques, en ignorant les informations visuelles
- Déséquilibre des poids d'attention : Les poids d'attention des tokens d'image diminuent drastiquement dans les couches profondes du réseau
- Utilisation insuffisante de l'information visuelle : Bien que le nombre de tokens d'image soit généralement bien supérieur aux tokens textuels, leur influence est sous-estimée
- Les hallucinations des VLMs entravent leur adoption généralisée et présentent des risques incontrôlables
- Les utilisateurs ont besoin de systèmes d'IA multimodaux fiables, capables de comprendre et de répondre précisément au contenu visuel
- Les solutions existantes nécessitent soit un entraînement supplémentaire, soit offrent une efficacité limitée
- Méthode VCD : Ajoute directement du bruit gaussien aux images d'entrée, mais cette perturbation devient incontrôlable dans les couches profondes
- Méthode ConVis : Nécessite d'appeler des modèles supplémentaires coûteux pour améliorer l'information visuelle
- Méthodes d'ingénierie des invites : Efficacité limitée et manque de généralité
- Méthodes post-entraînement : Requièrent des données de rétroaction humaine et des coûts d'entraînement supplémentaires
- Proposition de la méthode CMG : Une méthode d'inférence sans entraînement qui réduit efficacement les hallucinations du modèle par masquage d'attention aléatoire
- Identification de la cause racine des hallucinations : Découverte que l'insuffisance de connexion attention-vision est une cause importante des hallucinations, avec preuves rigoureuses
- Vérification Expérimentale Complète : Évaluation quantitative de l'efficacité de CMG sur plusieurs benchmarks, démontrant sa capacité de généralisation
- Cadre Théorique Amélioré : Établissement des fondations théoriques du décodage contrastif basé sur l'information mutuelle ponctuelle (PMI)
Étant donné une entrée textuelle x={x1,x2,...,xn} et une entrée visuelle I={I1,I2,...,Im}, le VLM doit générer une séquence textuelle de longueur k : y={y1,y2,...,yk}. Le processus de génération suit un modèle autorégressif :
pθ(y∣x,I)=∏t=1kpθ(yt∣y<t,x,I)
L'étude révèle des biais linguistiques significatifs dans les VLMs :
- Décroissance des poids d'attention : Les poids d'attention des tokens d'image diminuent drastiquement dans les couches peu profondes et restent faibles dans les couches profondes
- Avantage des tokens textuels : Les poids d'attention des tokens système surpassent même ceux des tokens de question contenant des informations clés
- Impact de la longueur de séquence : À mesure que la séquence générée s'allonge, les poids d'attention visuelle diminuent progressivement
Le mécanisme d'auto-attention contient trois types :
- Attention intra-visuelle Aiv
- Attention intra-textuelle Ait
- Attention multimodale Acr
A=Aiv∪Ait∪Acr
Le modèle affaibli est construit en masquant partiellement les poids d'attention multimodale et intra-visuelle :
SA(Q,K,V;M)=Softmax(A⊙M)V
où M:=Mcr∪Miv est le masque appliqué à la matrice d'attention.
Ajustement de la distribution de sortie du VLM original :
pθ(y∣x,I)∝qθ(y)(qθ(y;M)qθ(y))α
où :
- qθ(y):=pθ(y∣x,I;Acr,Aiv,Ait) (modèle original)
- qθ(y;M):=pθ(y∣x,I;Acr⊙Mcr,Aiv⊙Miv,Ait) (modèle affaibli)
Masquage d'attention dynamique : Masquage des γ plus grands poids d'attention en proportion dans Aiv et Acr :
SA(Q,K,V;M)=Softmax(A⊙M(γ))V
Sélection dynamique des couches : Sélection des couches importantes basée sur la similarité cosinus :
s(i)=cos(Xi,Yi)=∥Xi∥2∥Yi∥2Xi⋅Yi
Masquage des couches représentant les τ plus petites proportions de similarité.
- Opération sur les mécanismes d'attention internes : Manipulation directe des poids d'attention au sein du transformeur, plutôt que perturbation des entrées
- Stratégie de masquage adaptative : Sélection dynamique des poids d'attention et des couches les plus influents pour le masquage
- Conception guidée par la théorie : Cadre de décodage contrastif construit sur la théorie PMI
- Absence de coûts d'entraînement : Fonctionnement entièrement au stade de l'inférence, sans entraînement supplémentaire
- Benchmarks liés aux hallucinations : HallusionBench, POPE
- Benchmarks d'évaluation complète : MME
- POPE : Rappel (Recall), Précision (Accuracy), Exactitude (Precision), Score Global (Overall)
- HallusionBench : Exactitude d'alignement des questions (qAcc), Exactitude des images (fAcc), Exactitude globale (aAcc)
- MME : Scores de 14 sous-tâches de perception et de raisonnement
- VCD : Construction d'un modèle affaibli en ajoutant du bruit gaussien aux images d'entrée
- ConVis : Utilisation d'un modèle texte-vers-image pour régénérer l'image et exploiter les différences pour guider la génération
- Modèles de base : LLaVA-v1.5-7B, InstructBLIP-7B, Qwen2-VL-7B, InternVL2.5-8B
- Configuration des paramètres :
- Benchmarks spécifiques aux hallucinations : α=0.3,γ=0.5,τ=0.5
- Benchmark généraliste MME : α=0.1,γ=0.5,τ=0.1
- Paramètres d'échantillonnage : top-p=0.9, beam search=5, temperature=0.7
Sur LLaVA-v1.5-7B, CMG atteint une exactitude globale de 85,48, surpassant VCD et ConVis. Particulièrement remarquable, CMG démontre une scalabilité positive sur les nouvelles architectures (amélioration de 89,0 à 89,3 sur InternVL-2.5), tandis que les méthodes traditionnelles voient leurs performances diminuer lors des mises à niveau d'architecture.
CMG surpasse VCD de +7,1 points en exactitude et ConVis de +6,3 points, affichant les meilleures performances parmi les méthodes d'inférence sans entraînement supplémentaire.
Sur les sous-tâches liées à la perception, le score total de CMG surpasse VCD de +62,08 points et ConVis de +7,30 points. Obtient les meilleurs scores sur les sous-ensembles où les biais linguistiques sont particulièrement courants, tels que « couleur », « scène » et « points de repère ».
CMG démontre des améliorations de performance robustes sur des modèles de différentes tailles de paramètres (2B, 7B, 13B, 26B), exhibant une bonne scalabilité et adaptabilité architecturale.
Les expériences valident plusieurs stratégies de construction de modèles affaiblis :
- Suppression complète de l'attention visuelle : Dégradation sévère des performances (fAcc : 12,14)
- Remplacement par bruit : Performances limitées (fAcc : 29,48)
- Remplacement textuel : Résultats généraux (fAcc : 29,77)
- Méthode CMG : Meilleures performances (fAcc : 30,06)
L'article présente deux cas typiques :
- Tâche de compréhension de peinture : Le modèle original associe incorrectement « hat » aux vêtements du personnage, CMG corrige avec succès et identifie « bandana »
- Identification de la couleur du T-shirt : Face à l'interférence d'un chapeau noir, CMG ajuste correctement le ratio PMI et identifie précisément la couleur du T-shirt
Le problème des hallucinations dans les VLMs est devenu une direction de recherche importante, avec des approches existantes incluant :
- Méthodes d'ingénierie des invites
- Post-entraînement basé sur la rétroaction humaine
- Différentes stratégies d'inférence
- Méthodes de recherche : Telles que la recherche gloutonne et la recherche par faisceau, résultats précis mais potentiellement répétitifs
- Méthodes d'échantillonnage : Telles que l'échantillonnage nucléaire, meilleure diversité mais transitions de sujets potentiellement non naturelles
- Décodage contrastif : Exploitation des différences entre deux probabilités de sortie pour construire une distribution de sortie améliorée
- Efficacité de CMG : Réduction significative des hallucinations des VLMs sans entraînement
- Impact des biais linguistiques : Confirmation que les biais linguistiques sont un facteur important induisant les hallucinations
- Importance des mécanismes d'attention : La manipulation des poids d'attention peut améliorer efficacement le comportement du modèle
- Applicabilité générale : La méthode démontre d'excellentes performances sur diverses architectures de modèles et benchmarks
- Sensibilité aux hyperparamètres : Nécessite un ajustement minutieux des hyperparamètres pour différents scénarios, tels que les ratios de masquage liés à n0 dans l'équation 12
- Besoin d'optimisation dynamique : L'obtention de résultats optimaux actuels nécessite un ajustement dynamique des hyperparamètres, augmentant la complexité d'utilisation
- Surcharge de calcul : Nécessite l'exécution simultanée du modèle original et du modèle affaibli, augmentant le temps d'inférence
- Ajustement automatique des hyperparamètres : Développement de mécanismes de sélection de paramètres adaptatifs
- Optimisation de l'efficacité : Réduction de la surcharge de calcul et amélioration de l'efficacité de l'inférence
- Perfectionnement théorique : Amélioration supplémentaire des fondations théoriques du décodage contrastif
- Innovation forte : Première approche résolvant les hallucinations des VLMs sous l'angle des mécanismes d'attention, offrant une nouvelle perspective de recherche
- Fondations théoriques solides : Le cadre de décodage contrastif construit sur PMI possède des bases théoriques robustes
- Expérimentation complète : Vérification suffisante sur plusieurs benchmarks et modèles variés
- Valeur pratique élevée : Applicabilité sans entraînement, réduisant les barrières d'utilisation
- Analyse approfondie : L'analyse du mécanisme de génération des biais linguistiques offre des perspectives importantes
- Complexité relativement élevée : Implique plusieurs hyperparamètres et stratégies de sélection dynamique, augmentant la complexité d'utilisation
- Coûts de calcul : Nécessite l'exécution simultanée de deux modèles, augmentant les coûts d'inférence
- Sensibilité aux paramètres : Les résultats sont relativement sensibles à la sélection des hyperparamètres, pouvant affecter l'application pratique
- Portée d'applicabilité : Principalement ciblée sur les VLMs basés sur transformeur, l'applicabilité à d'autres architectures reste inconnue
- Contribution académique : Offre une nouvelle approche pour résoudre les hallucinations des VLMs, susceptible d'inspirer les recherches futures
- Valeur pratique : La caractéristique sans entraînement facilite le déploiement dans les systèmes existants
- Reproductibilité : Description détaillée de la méthode et configuration expérimentale claire, offrant une bonne reproductibilité
- Scénarios d'application nécessitant une compréhension visuelle de haute qualité
- Applications critiques pour la sécurité sensibles aux problèmes d'hallucinations
- Environnements à ressources limitées ne permettant pas d'entraînement supplémentaire
- Applications commerciales nécessitant un déploiement rapide
L'article cite 62 références pertinentes, couvrant les domaines importants des VLMs, de la détection des hallucinations et du décodage contrastif, fournissant une base théorique suffisante et des benchmarks de comparaison pour la recherche.
Évaluation Globale : Cet article représente une recherche de haute qualité proposant une solution innovante à la direction de recherche importante des hallucinations dans les VLMs. La méthode possède des fondations théoriques solides et des performances expérimentales exceptionnelles, offrant une valeur importante tant pour le monde académique que pour l'industrie. Malgré certaines limitations, ses contributions et son impact ne peuvent être ignorés.