2025-11-18T20:07:12.683154

When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance

Cao, Chen, Wang et al.

Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.

academic

जब छवियां अधिक जोर से बोलती हैं: क्रॉस-मोडल मार्गदर्शन के माध्यम से VLMs में भाषा पूर्वाग्रह-प्रेरित मतिभ्रम को कम करना

मूल जानकारी

पेपर ID: 2510.10466
शीर्षक: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
लेखक: Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (MAPLE Lab, Westlake University)
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशन तिथि: 12 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.10466v1

सारांश

दृश्य-भाषा मॉडल (VLMs) बहु-मोडल समझ में उत्कृष्ट प्रदर्शन करते हैं, लेकिन अक्सर मतिभ्रम की समस्या का सामना करते हैं—ऐसे उत्तर उत्पन्न करते हैं जो भाषाई रूप से प्रवाहपूर्ण हैं लेकिन छवि सामग्री से असंबंधित हैं। यह पेपर विश्लेषण करता है कि कैसे भाषा पूर्वाग्रह मतिभ्रम का कारण बनते हैं, और क्रॉस-मोडल गाइडेंस (CMG) प्रस्तावित करता है, जो एक प्रशिक्षण-मुक्त डिकोडिंग विधि है जो मूल मॉडल और दृश्य-भाषा ध्यान क्षीणन मॉडल के आउटपुट वितरण की तुलना करके मतिभ्रम को संबोधित करती है। CMG चयनित ट्रांसफॉर्मर परतों में सबसे प्रभावशाली छवि टोकन के ध्यान भार को अनुकूलित रूप से मास्क करके दृश्य-भाषा संवेदनशीलता को बाधित करता है, दृश्य संदर्भ के प्रति जागरूकता को मजबूत करता है, और VLMs की क्षमता को नुकसान पहुंचाए बिना भाषा पूर्वाग्रह को काफी हद तक कम करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

VLMs बहु-मोडल समझ में शक्तिशाली हैं, लेकिन गंभीर मतिभ्रम समस्याओं का सामना करते हैं:

भाषा पूर्वाग्रह-संचालित मतिभ्रम: मॉडल दृश्य जानकारी को नजरअंदाज करते हुए भाषा पैटर्न के आधार पर उत्तर उत्पन्न करने की प्रवृत्ति रखते हैं
ध्यान भार असंतुलन: गहरी नेटवर्क में छवि टोकन के ध्यान भार में तीव्र गिरावट
दृश्य जानकारी का अपर्याप्त उपयोग: हालांकि छवि टोकन की संख्या आमतौर पर पाठ टोकन से कहीं अधिक होती है, लेकिन इसका प्रभाव कम आंका जाता है

समस्या की महत्ता

VLMs की मतिभ्रम समस्या व्यापक अनुप्रयोग को बाधित करती है और अनियंत्रित जोखिम लाती है
उपयोगकर्ताओं को विश्वसनीय बहु-मोडल AI प्रणालियों की आवश्यकता है जो दृश्य सामग्री को सटीक रूप से समझें और प्रतिक्रिया दें
मौजूदा समाधान या तो अतिरिक्त प्रशिक्षण की आवश्यकता है या सीमित प्रभावशीलता है

मौजूदा विधियों की सीमाएं

VCD विधि: इनपुट छवि में सीधे गाऊसी शोर जोड़ता है, लेकिन यह विक्षोभ गहरी नेटवर्क में अनियंत्रित हो जाता है
ConVis विधि: दृश्य जानकारी को बढ़ाने के लिए महंगे अतिरिक्त मॉडल को कॉल करने की आवश्यकता है
प्रॉम्प्ट इंजीनियरिंग विधि: सीमित प्रभावशीलता और पर्याप्त सामान्यता नहीं
पोस्ट-ट्रेनिंग विधि: मानव प्रतिक्रिया डेटा और अतिरिक्त प्रशिक्षण लागत की आवश्यकता है

मूल योगदान

CMG विधि प्रस्तावित करना: एक प्रशिक्षण-मुक्त अनुमान विधि जो यादृच्छिक ध्यान मास्किंग के माध्यम से प्रभावी रूप से मॉडल मतिभ्रम को कम करती है
मतिभ्रम के मूल कारण की पहचान: दृश्य-ध्यान कनेक्शन की कमी को मतिभ्रम उत्पन्न करने के महत्वपूर्ण कारण के रूप में खोजता है और कठोर साक्ष्य प्रदान करता है
व्यापक प्रायोगिक सत्यापन: कई बेंचमार्क पर CMG की प्रभावशीलता का मात्रात्मक मूल्यांकन करता है, इसकी सामान्यीकरण क्षमता प्रदर्शित करता है
सैद्धांतिक ढांचा परिशोधन: बिंदु पारस्परिक जानकारी (PMI) के आधार पर तुलनात्मक डिकोडिंग के लिए सैद्धांतिक आधार स्थापित करता है

विधि विवरण

कार्य परिभाषा

पाठ इनपुट $x = \{x_1, x_2, ..., x_n\}$ और दृश्य इनपुट $I = \{I_1, I_2, ..., I_m\}$ दिए गए, VLM को लंबाई k का पाठ अनुक्रम $y = \{y_1, y_2, ..., y_k\}$ उत्पन्न करना होता है। उत्पन्न प्रक्रिया स्व-प्रतिगामी पैटर्न का पालन करती है:

$p_\theta(y|x,I) = \prod_{t=1}^k p_\theta(y_t|y_{<t}, x, I)$

भाषा पूर्वाग्रह विश्लेषण

अनुसंधान VLMs में महत्वपूर्ण भाषा पूर्वाग्रह की खोज करता है:

ध्यान भार क्षय: छवि टोकन के ध्यान भार उथली परतों में तीव्र गिरावट दिखाते हैं, गहरी परतों में कम स्तर पर रहते हैं
पाठ टोकन लाभ: सिस्टम टोकन का ध्यान भार यहां तक कि महत्वपूर्ण जानकारी युक्त प्रश्न टोकन को भी पार कर जाता है
अनुक्रम लंबाई प्रभाव: जैसे-जैसे उत्पन्न अनुक्रम लंबा होता है, छवि ध्यान भार धीरे-धीरे कम होता है

CMG मूल आर्किटेक्चर

1. शौकिया मॉडल निर्माण

स्व-ध्यान तंत्र में तीन प्रकार होते हैं:

दृश्य-अंतर्गत ध्यान $A_{iv}$
पाठ-अंतर्गत ध्यान $A_{it}$
क्रॉस-मोडल ध्यान $A_{cr}$

$A = A_{iv} \cup A_{it} \cup A_{cr}$

आंशिक क्रॉस-मोडल और दृश्य-अंतर्गत ध्यान भार को मास्क करके शौकिया मॉडल बनाया जाता है:

$SA(Q,K,V;M) = \text{Softmax}(A \odot M)V$

जहां $M := M_{cr} \cup M_{iv}$ ध्यान मानचित्र पर लागू किया गया मास्क है।

2. तुलनात्मक डिकोडिंग रणनीति

मूल VLM के आउटपुट वितरण को समायोजित करता है:

$p_\theta(y|x,I) \propto q_\theta(y) \left(\frac{q_\theta(y)}{q_\theta(y;M)}\right)^\alpha$

जहां:

$q_\theta(y) := p_\theta(y|x,I;A_{cr}, A_{iv}, A_{it})$ (मूल मॉडल)
$q_\theta(y;M) := p_\theta(y|x,I;A_{cr} \odot M_{cr}, A_{iv} \odot M_{iv}, A_{it})$ (शौकिया मॉडल)

3. गतिशील मास्किंग रणनीति

गतिशील ध्यान मास्किंग: $A_{iv}$ और $A_{cr}$ में सबसे बड़े $\gamma$ अनुपात के ध्यान भार को मास्क करता है:

$SA(Q,K,V;M) = \text{Softmax}(A \odot M(\gamma))V$

गतिशील परत चयन: कोसाइन समानता के आधार पर महत्वपूर्ण परतें चुनता है:

$s(i) = \cos(X_i, Y_i) = \frac{X_i \cdot Y_i}{\|X_i\|_2 \|Y_i\|_2}$

सबसे कम समानता वाली $\tau$ अनुपात की परतों को मास्क करने के लिए चुनता है।

तकनीकी नवाचार

आंतरिक ध्यान तंत्र संचालन: इनपुट विक्षोभ के बजाय ट्रांसफॉर्मर के अंदर ध्यान भार पर सीधे संचालन
अनुकूलित मास्किंग रणनीति: सबसे प्रभावशाली ध्यान भार और परतों को मास्क करने के लिए गतिशील रूप से चुनता है
सैद्धांतिक-संचालित डिजाइन: PMI सिद्धांत के आधार पर तुलनात्मक डिकोडिंग ढांचा बनाता है
प्रशिक्षण-मुक्त लागत: पूरी तरह से अनुमान चरण में काम करता है, कोई अतिरिक्त प्रशिक्षण नहीं

प्रायोगिक सेटअप

डेटासेट

मतिभ्रम संबंधित बेंचमार्क: HallusionBench, POPE
व्यापक मूल्यांकन बेंचमार्क: MME

मूल्यांकन मेट्रिक्स

POPE: रिकॉल (Recall), सटीकता (Accuracy), परिशुद्धता (Precision), समग्र स्कोर (Overall)
HallusionBench: प्रश्न-जोड़ी सटीकता (qAcc), छवि सटीकता (fAcc), समग्र सटीकता (aAcc)
MME: 14 उप-कार्यों में धारणा और तर्क क्षमता स्कोर

तुलनात्मक विधियां

VCD: इनपुट छवि में गाऊसी शोर जोड़कर शौकिया मॉडल बनाता है
ConVis: पाठ-से-छवि मॉडल का उपयोग करके छवि को पुनः उत्पन्न करता है और अंतर का उपयोग करके पीढ़ी को निर्देशित करता है

कार्यान्वयन विवरण

बैकबोन मॉडल: LLaVA-v1.5-7B, InstructBLIP-7B, Qwen2-VL-7B, InternVL2.5-8B
पैरामीटर सेटिंग्स:
- मतिभ्रम-विशिष्ट बेंचमार्क: $\alpha=0.3, \gamma=0.5, \tau=0.5$
- सामान्य बेंचमार्क MME: $\alpha=0.1, \gamma=0.5, \tau=0.1$
नमूनाकरण पैरामीटर: top-p=0.9, beam search=5, temperature=0.7

प्रायोगिक परिणाम

मुख्य परिणाम

POPE बेंचमार्क परीक्षण

LLaVA-v1.5-7B पर, CMG 85.48 की समग्र सटीकता प्राप्त करता है, VCD और ConVis को पार करता है। विशेष रूप से ध्यान देने योग्य है कि CMG नई आर्किटेक्चर पर सकारात्मक स्केलेबिलिटी दिखाता है (InternVL-2.5 पर 89.0 से 89.3 तक), जबकि पारंपरिक विधियां आर्किटेक्चर अपग्रेड के समय प्रदर्शन में गिरावट दिखाती हैं।

HallusionBench बेंचमार्क परीक्षण

CMG सटीकता में VCD को +7.1 अंक से पार करता है, ConVis को +6.3 अंक से पार करता है, अतिरिक्त प्रशिक्षण के बिना अनुमान विधियों में अग्रणी प्रदर्शन करता है।

MME बेंचमार्क परीक्षण

धारणा संबंधित उप-कार्यों पर, CMG का कुल स्कोर VCD को +62.08 अंक से पार करता है, ConVis को +7.30 अंक से पार करता है। "रंग", "दृश्य", "स्थल" आदि उप-समुच्चय पर सर्वोच्च स्कोर प्राप्त करता है जहां भाषा पूर्वाग्रह विशेष रूप से प्रचलित है।

विभिन्न मॉडल आकार परिणाम

CMG 2B, 7B, 13B, 26B आदि विभिन्न पैरामीटर आकार के मॉडल पर मजबूत प्रदर्शन सुधार दिखाता है, अच्छी स्केलेबिलिटी और आर्किटेक्चर अनुकूलन क्षमता प्रदर्शित करता है।

विलोपन प्रयोग

प्रयोग कई शौकिया मॉडल निर्माण रणनीतियों को सत्यापित करते हैं:

पूर्ण दृश्य ध्यान हटाना: गंभीर प्रदर्शन गिरावट (fAcc: 12.14)
शोर प्रतिस्थापन: सीमित प्रदर्शन (fAcc: 29.48)
पाठ प्रतिस्थापन: सामान्य प्रभाव (fAcc: 29.77)
CMG विधि: सर्वोत्तम प्रदर्शन (fAcc: 30.06)

केस विश्लेषण

पेपर दो विशिष्ट केस प्रस्तुत करता है:

चित्रकला समझ कार्य: मूल मॉडल गलती से "hat" को चरित्र पोशाक से जोड़ता है, CMG सफलतापूर्वक सुधार करता है और "bandana" की पहचान करता है
T-शर्ट रंग पहचान: काली टोपी के हस्तक्षेप का सामना करते हुए, CMG PMI अनुपात को समायोजित करके T-शर्ट के रंग को सटीक रूप से पहचानता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

CMG प्रभावशीलता: प्रशिक्षण के बिना VLMs की मतिभ्रम समस्या को काफी हद तक कम कर सकता है
भाषा पूर्वाग्रह प्रभाव: पुष्टि करता है कि भाषा पूर्वाग्रह मतिभ्रम का एक महत्वपूर्ण कारण है
ध्यान तंत्र महत्व: ध्यान भार में हेरफेर के माध्यम से मॉडल व्यवहार को प्रभावी रूप से सुधार सकते हैं
व्यापक प्रयोज्यता: विधि कई मॉडल आर्किटेक्चर और बेंचमार्क पर उत्कृष्ट प्रदर्शन करती है

सीमाएं

हाइपरपैरामीटर संवेदनशीलता: विभिन्न परिदृश्यों के लिए सावधानीपूर्वक हाइपरपैरामीटर समायोजन की आवश्यकता है, जैसे समीकरण 12 में $n_0$ से संबंधित मास्किंग अनुपात
गतिशील ट्यूनिंग आवश्यकता: वर्तमान में इष्टतम परिणाम प्राप्त करने के लिए गतिशील हाइपरपैरामीटर ट्यूनिंग की आवश्यकता है, जो उपयोग की जटिलता बढ़ाता है
कम्प्यूटेशनल ओवरहेड: मूल मॉडल और शौकिया मॉडल दोनों को एक साथ चलाने की आवश्यकता है, अनुमान समय बढ़ाता है

भविष्य की दिशाएं

स्वचालित हाइपरपैरामीटर ट्यूनिंग: अनुकूलित पैरामीटर चयन तंत्र विकसित करना
दक्षता अनुकूलन: कम्प्यूटेशनल ओवरहेड को कम करना, अनुमान दक्षता में सुधार करना
सैद्धांतिक परिशोधन: तुलनात्मक डिकोडिंग के सैद्धांतिक आधार को आगे परिशोधित करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार ध्यान तंत्र के दृष्टिकोण से VLMs मतिभ्रम समस्या को संबोधित करता है, नई अनुसंधान दृष्टि प्रदान करता है
ठोस सैद्धांतिक आधार: PMI के आधार पर निर्मित तुलनात्मक डिकोडिंग ढांचे में ठोस सैद्धांतिक आधार है
व्यापक प्रयोग: कई बेंचमार्क, कई मॉडल पर पर्याप्त सत्यापन
उच्च व्यावहारिक मूल्य: प्रशिक्षण के बिना लागू किया जा सकता है, उपयोग की बाधा को कम करता है
गहन विश्लेषण: भाषा पूर्वाग्रह उत्पन्न तंत्र के विश्लेषण में महत्वपूर्ण अंतर्दृष्टि है

कमजोरियां

उच्च जटिलता: कई हाइपरपैरामीटर और गतिशील चयन रणनीतियों को शामिल करता है, उपयोग जटिलता अधिक है
कम्प्यूटेशनल लागत: दो मॉडल को एक साथ चलाने की आवश्यकता है, अनुमान लागत बढ़ाता है
पैरामीटर संवेदनशील: प्रभाव हाइपरपैरामीटर चयन के प्रति काफी संवेदनशील है, व्यावहारिक अनुप्रयोग को प्रभावित कर सकता है
लागू सीमा: मुख्य रूप से ट्रांसफॉर्मर-आधारित VLMs के लिए, अन्य आर्किटेक्चर पर प्रयोज्यता अज्ञात है

प्रभाव

शैक्षणिक योगदान: VLMs मतिभ्रम समस्या के लिए नई समाधान दृष्टि प्रदान करता है, बाद के अनुसंधान को प्रेरित कर सकता है
व्यावहारिक मूल्य: प्रशिक्षण-मुक्त विशेषता इसे मौजूदा प्रणालियों में आसानी से तैनात करने योग्य बनाती है
पुनरुत्पादनीयता: विधि विवरण विस्तृत है, प्रायोगिक सेटअप स्पष्ट है, अच्छी पुनरुत्पादनीयता है

लागू परिदृश्य

उच्च-गुणवत्ता दृश्य समझ की आवश्यकता वाले अनुप्रयोग परिदृश्य
मतिभ्रम समस्या के प्रति संवेदनशील सुरक्षा-महत्वपूर्ण अनुप्रयोग
अतिरिक्त प्रशिक्षण नहीं कर सकने वाले संसाधन-सीमित वातावरण
तेजी से तैनाती की आवश्यकता वाले व्यावसायिक अनुप्रयोग

संदर्भ

पेपर 62 संबंधित संदर्भों का हवाला देता है, जो VLMs, मतिभ्रम पहचान, तुलनात्मक डिकोडिंग आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, अनुसंधान के लिए पर्याप्त सैद्धांतिक आधार और तुलनात्मक बेंचमार्क प्रदान करता है।

समग्र मूल्यांकन: यह VLMs मतिभ्रम समस्या इस महत्वपूर्ण अनुसंधान दिशा पर एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो नवीन समाधान प्रस्तावित करता है। विधि में ठोस सैद्धांतिक आधार और उत्कृष्ट प्रायोगिक प्रदर्शन है, जो शैक्षणिक और औद्योगिक दोनों क्षेत्रों के लिए महत्वपूर्ण मूल्य रखता है। हालांकि कुछ सीमाएं हैं, लेकिन इसका योगदान और प्रभाव अनदेखा नहीं किया जा सकता।