Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.
- पेपर ID: 2510.10466
- शीर्षक: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
- लेखक: Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (MAPLE Lab, Westlake University)
- वर्गीकरण: cs.CV (कंप्यूटर विजन)
- प्रकाशन तिथि: 12 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.10466v1
दृश्य-भाषा मॉडल (VLMs) बहु-मोडल समझ में उत्कृष्ट प्रदर्शन करते हैं, लेकिन अक्सर मतिभ्रम की समस्या का सामना करते हैं—ऐसे उत्तर उत्पन्न करते हैं जो भाषाई रूप से प्रवाहपूर्ण हैं लेकिन छवि सामग्री से असंबंधित हैं। यह पेपर विश्लेषण करता है कि कैसे भाषा पूर्वाग्रह मतिभ्रम का कारण बनते हैं, और क्रॉस-मोडल गाइडेंस (CMG) प्रस्तावित करता है, जो एक प्रशिक्षण-मुक्त डिकोडिंग विधि है जो मूल मॉडल और दृश्य-भाषा ध्यान क्षीणन मॉडल के आउटपुट वितरण की तुलना करके मतिभ्रम को संबोधित करती है। CMG चयनित ट्रांसफॉर्मर परतों में सबसे प्रभावशाली छवि टोकन के ध्यान भार को अनुकूलित रूप से मास्क करके दृश्य-भाषा संवेदनशीलता को बाधित करता है, दृश्य संदर्भ के प्रति जागरूकता को मजबूत करता है, और VLMs की क्षमता को नुकसान पहुंचाए बिना भाषा पूर्वाग्रह को काफी हद तक कम करता है।
VLMs बहु-मोडल समझ में शक्तिशाली हैं, लेकिन गंभीर मतिभ्रम समस्याओं का सामना करते हैं:
- भाषा पूर्वाग्रह-संचालित मतिभ्रम: मॉडल दृश्य जानकारी को नजरअंदाज करते हुए भाषा पैटर्न के आधार पर उत्तर उत्पन्न करने की प्रवृत्ति रखते हैं
- ध्यान भार असंतुलन: गहरी नेटवर्क में छवि टोकन के ध्यान भार में तीव्र गिरावट
- दृश्य जानकारी का अपर्याप्त उपयोग: हालांकि छवि टोकन की संख्या आमतौर पर पाठ टोकन से कहीं अधिक होती है, लेकिन इसका प्रभाव कम आंका जाता है
- VLMs की मतिभ्रम समस्या व्यापक अनुप्रयोग को बाधित करती है और अनियंत्रित जोखिम लाती है
- उपयोगकर्ताओं को विश्वसनीय बहु-मोडल AI प्रणालियों की आवश्यकता है जो दृश्य सामग्री को सटीक रूप से समझें और प्रतिक्रिया दें
- मौजूदा समाधान या तो अतिरिक्त प्रशिक्षण की आवश्यकता है या सीमित प्रभावशीलता है
- VCD विधि: इनपुट छवि में सीधे गाऊसी शोर जोड़ता है, लेकिन यह विक्षोभ गहरी नेटवर्क में अनियंत्रित हो जाता है
- ConVis विधि: दृश्य जानकारी को बढ़ाने के लिए महंगे अतिरिक्त मॉडल को कॉल करने की आवश्यकता है
- प्रॉम्प्ट इंजीनियरिंग विधि: सीमित प्रभावशीलता और पर्याप्त सामान्यता नहीं
- पोस्ट-ट्रेनिंग विधि: मानव प्रतिक्रिया डेटा और अतिरिक्त प्रशिक्षण लागत की आवश्यकता है
- CMG विधि प्रस्तावित करना: एक प्रशिक्षण-मुक्त अनुमान विधि जो यादृच्छिक ध्यान मास्किंग के माध्यम से प्रभावी रूप से मॉडल मतिभ्रम को कम करती है
- मतिभ्रम के मूल कारण की पहचान: दृश्य-ध्यान कनेक्शन की कमी को मतिभ्रम उत्पन्न करने के महत्वपूर्ण कारण के रूप में खोजता है और कठोर साक्ष्य प्रदान करता है
- व्यापक प्रायोगिक सत्यापन: कई बेंचमार्क पर CMG की प्रभावशीलता का मात्रात्मक मूल्यांकन करता है, इसकी सामान्यीकरण क्षमता प्रदर्शित करता है
- सैद्धांतिक ढांचा परिशोधन: बिंदु पारस्परिक जानकारी (PMI) के आधार पर तुलनात्मक डिकोडिंग के लिए सैद्धांतिक आधार स्थापित करता है
पाठ इनपुट x={x1,x2,...,xn} और दृश्य इनपुट I={I1,I2,...,Im} दिए गए, VLM को लंबाई k का पाठ अनुक्रम y={y1,y2,...,yk} उत्पन्न करना होता है। उत्पन्न प्रक्रिया स्व-प्रतिगामी पैटर्न का पालन करती है:
pθ(y∣x,I)=∏t=1kpθ(yt∣y<t,x,I)
अनुसंधान VLMs में महत्वपूर्ण भाषा पूर्वाग्रह की खोज करता है:
- ध्यान भार क्षय: छवि टोकन के ध्यान भार उथली परतों में तीव्र गिरावट दिखाते हैं, गहरी परतों में कम स्तर पर रहते हैं
- पाठ टोकन लाभ: सिस्टम टोकन का ध्यान भार यहां तक कि महत्वपूर्ण जानकारी युक्त प्रश्न टोकन को भी पार कर जाता है
- अनुक्रम लंबाई प्रभाव: जैसे-जैसे उत्पन्न अनुक्रम लंबा होता है, छवि ध्यान भार धीरे-धीरे कम होता है
स्व-ध्यान तंत्र में तीन प्रकार होते हैं:
- दृश्य-अंतर्गत ध्यान Aiv
- पाठ-अंतर्गत ध्यान Ait
- क्रॉस-मोडल ध्यान Acr
A=Aiv∪Ait∪Acr
आंशिक क्रॉस-मोडल और दृश्य-अंतर्गत ध्यान भार को मास्क करके शौकिया मॉडल बनाया जाता है:
SA(Q,K,V;M)=Softmax(A⊙M)V
जहां M:=Mcr∪Miv ध्यान मानचित्र पर लागू किया गया मास्क है।
मूल VLM के आउटपुट वितरण को समायोजित करता है:
pθ(y∣x,I)∝qθ(y)(qθ(y;M)qθ(y))α
जहां:
- qθ(y):=pθ(y∣x,I;Acr,Aiv,Ait) (मूल मॉडल)
- qθ(y;M):=pθ(y∣x,I;Acr⊙Mcr,Aiv⊙Miv,Ait) (शौकिया मॉडल)
गतिशील ध्यान मास्किंग: Aiv और Acr में सबसे बड़े γ अनुपात के ध्यान भार को मास्क करता है:
SA(Q,K,V;M)=Softmax(A⊙M(γ))V
गतिशील परत चयन: कोसाइन समानता के आधार पर महत्वपूर्ण परतें चुनता है:
s(i)=cos(Xi,Yi)=∥Xi∥2∥Yi∥2Xi⋅Yi
सबसे कम समानता वाली τ अनुपात की परतों को मास्क करने के लिए चुनता है।
- आंतरिक ध्यान तंत्र संचालन: इनपुट विक्षोभ के बजाय ट्रांसफॉर्मर के अंदर ध्यान भार पर सीधे संचालन
- अनुकूलित मास्किंग रणनीति: सबसे प्रभावशाली ध्यान भार और परतों को मास्क करने के लिए गतिशील रूप से चुनता है
- सैद्धांतिक-संचालित डिजाइन: PMI सिद्धांत के आधार पर तुलनात्मक डिकोडिंग ढांचा बनाता है
- प्रशिक्षण-मुक्त लागत: पूरी तरह से अनुमान चरण में काम करता है, कोई अतिरिक्त प्रशिक्षण नहीं
- मतिभ्रम संबंधित बेंचमार्क: HallusionBench, POPE
- व्यापक मूल्यांकन बेंचमार्क: MME
- POPE: रिकॉल (Recall), सटीकता (Accuracy), परिशुद्धता (Precision), समग्र स्कोर (Overall)
- HallusionBench: प्रश्न-जोड़ी सटीकता (qAcc), छवि सटीकता (fAcc), समग्र सटीकता (aAcc)
- MME: 14 उप-कार्यों में धारणा और तर्क क्षमता स्कोर
- VCD: इनपुट छवि में गाऊसी शोर जोड़कर शौकिया मॉडल बनाता है
- ConVis: पाठ-से-छवि मॉडल का उपयोग करके छवि को पुनः उत्पन्न करता है और अंतर का उपयोग करके पीढ़ी को निर्देशित करता है
- बैकबोन मॉडल: LLaVA-v1.5-7B, InstructBLIP-7B, Qwen2-VL-7B, InternVL2.5-8B
- पैरामीटर सेटिंग्स:
- मतिभ्रम-विशिष्ट बेंचमार्क: α=0.3,γ=0.5,τ=0.5
- सामान्य बेंचमार्क MME: α=0.1,γ=0.5,τ=0.1
- नमूनाकरण पैरामीटर: top-p=0.9, beam search=5, temperature=0.7
LLaVA-v1.5-7B पर, CMG 85.48 की समग्र सटीकता प्राप्त करता है, VCD और ConVis को पार करता है। विशेष रूप से ध्यान देने योग्य है कि CMG नई आर्किटेक्चर पर सकारात्मक स्केलेबिलिटी दिखाता है (InternVL-2.5 पर 89.0 से 89.3 तक), जबकि पारंपरिक विधियां आर्किटेक्चर अपग्रेड के समय प्रदर्शन में गिरावट दिखाती हैं।
CMG सटीकता में VCD को +7.1 अंक से पार करता है, ConVis को +6.3 अंक से पार करता है, अतिरिक्त प्रशिक्षण के बिना अनुमान विधियों में अग्रणी प्रदर्शन करता है।
धारणा संबंधित उप-कार्यों पर, CMG का कुल स्कोर VCD को +62.08 अंक से पार करता है, ConVis को +7.30 अंक से पार करता है। "रंग", "दृश्य", "स्थल" आदि उप-समुच्चय पर सर्वोच्च स्कोर प्राप्त करता है जहां भाषा पूर्वाग्रह विशेष रूप से प्रचलित है।
CMG 2B, 7B, 13B, 26B आदि विभिन्न पैरामीटर आकार के मॉडल पर मजबूत प्रदर्शन सुधार दिखाता है, अच्छी स्केलेबिलिटी और आर्किटेक्चर अनुकूलन क्षमता प्रदर्शित करता है।
प्रयोग कई शौकिया मॉडल निर्माण रणनीतियों को सत्यापित करते हैं:
- पूर्ण दृश्य ध्यान हटाना: गंभीर प्रदर्शन गिरावट (fAcc: 12.14)
- शोर प्रतिस्थापन: सीमित प्रदर्शन (fAcc: 29.48)
- पाठ प्रतिस्थापन: सामान्य प्रभाव (fAcc: 29.77)
- CMG विधि: सर्वोत्तम प्रदर्शन (fAcc: 30.06)
पेपर दो विशिष्ट केस प्रस्तुत करता है:
- चित्रकला समझ कार्य: मूल मॉडल गलती से "hat" को चरित्र पोशाक से जोड़ता है, CMG सफलतापूर्वक सुधार करता है और "bandana" की पहचान करता है
- T-शर्ट रंग पहचान: काली टोपी के हस्तक्षेप का सामना करते हुए, CMG PMI अनुपात को समायोजित करके T-शर्ट के रंग को सटीक रूप से पहचानता है
VLMs की मतिभ्रम समस्या एक महत्वपूर्ण अनुसंधान दिशा बन गई है, मौजूदा विधियों में मुख्य रूप से शामिल हैं:
- प्रॉम्प्ट इंजीनियरिंग विधि
- मानव प्रतिक्रिया-आधारित पोस्ट-ट्रेनिंग
- विभिन्न अनुमान रणनीतियां
- खोज विधियां: जैसे लालची खोज और बीम खोज, परिणाम सटीक लेकिन संभवतः दोहराव वाले
- नमूनाकरण विधियां: जैसे नाभिक नमूनाकरण, बेहतर विविधता लेकिन संभवतः अप्राकृतिक विषय परिवर्तन
- तुलनात्मक डिकोडिंग: दो आउटपुट संभावनाओं के अंतर का उपयोग करके बढ़ाए गए आउटपुट वितरण का निर्माण
- CMG प्रभावशीलता: प्रशिक्षण के बिना VLMs की मतिभ्रम समस्या को काफी हद तक कम कर सकता है
- भाषा पूर्वाग्रह प्रभाव: पुष्टि करता है कि भाषा पूर्वाग्रह मतिभ्रम का एक महत्वपूर्ण कारण है
- ध्यान तंत्र महत्व: ध्यान भार में हेरफेर के माध्यम से मॉडल व्यवहार को प्रभावी रूप से सुधार सकते हैं
- व्यापक प्रयोज्यता: विधि कई मॉडल आर्किटेक्चर और बेंचमार्क पर उत्कृष्ट प्रदर्शन करती है
- हाइपरपैरामीटर संवेदनशीलता: विभिन्न परिदृश्यों के लिए सावधानीपूर्वक हाइपरपैरामीटर समायोजन की आवश्यकता है, जैसे समीकरण 12 में n0 से संबंधित मास्किंग अनुपात
- गतिशील ट्यूनिंग आवश्यकता: वर्तमान में इष्टतम परिणाम प्राप्त करने के लिए गतिशील हाइपरपैरामीटर ट्यूनिंग की आवश्यकता है, जो उपयोग की जटिलता बढ़ाता है
- कम्प्यूटेशनल ओवरहेड: मूल मॉडल और शौकिया मॉडल दोनों को एक साथ चलाने की आवश्यकता है, अनुमान समय बढ़ाता है
- स्वचालित हाइपरपैरामीटर ट्यूनिंग: अनुकूलित पैरामीटर चयन तंत्र विकसित करना
- दक्षता अनुकूलन: कम्प्यूटेशनल ओवरहेड को कम करना, अनुमान दक्षता में सुधार करना
- सैद्धांतिक परिशोधन: तुलनात्मक डिकोडिंग के सैद्धांतिक आधार को आगे परिशोधित करना
- मजबूत नवाचार: पहली बार ध्यान तंत्र के दृष्टिकोण से VLMs मतिभ्रम समस्या को संबोधित करता है, नई अनुसंधान दृष्टि प्रदान करता है
- ठोस सैद्धांतिक आधार: PMI के आधार पर निर्मित तुलनात्मक डिकोडिंग ढांचे में ठोस सैद्धांतिक आधार है
- व्यापक प्रयोग: कई बेंचमार्क, कई मॉडल पर पर्याप्त सत्यापन
- उच्च व्यावहारिक मूल्य: प्रशिक्षण के बिना लागू किया जा सकता है, उपयोग की बाधा को कम करता है
- गहन विश्लेषण: भाषा पूर्वाग्रह उत्पन्न तंत्र के विश्लेषण में महत्वपूर्ण अंतर्दृष्टि है
- उच्च जटिलता: कई हाइपरपैरामीटर और गतिशील चयन रणनीतियों को शामिल करता है, उपयोग जटिलता अधिक है
- कम्प्यूटेशनल लागत: दो मॉडल को एक साथ चलाने की आवश्यकता है, अनुमान लागत बढ़ाता है
- पैरामीटर संवेदनशील: प्रभाव हाइपरपैरामीटर चयन के प्रति काफी संवेदनशील है, व्यावहारिक अनुप्रयोग को प्रभावित कर सकता है
- लागू सीमा: मुख्य रूप से ट्रांसफॉर्मर-आधारित VLMs के लिए, अन्य आर्किटेक्चर पर प्रयोज्यता अज्ञात है
- शैक्षणिक योगदान: VLMs मतिभ्रम समस्या के लिए नई समाधान दृष्टि प्रदान करता है, बाद के अनुसंधान को प्रेरित कर सकता है
- व्यावहारिक मूल्य: प्रशिक्षण-मुक्त विशेषता इसे मौजूदा प्रणालियों में आसानी से तैनात करने योग्य बनाती है
- पुनरुत्पादनीयता: विधि विवरण विस्तृत है, प्रायोगिक सेटअप स्पष्ट है, अच्छी पुनरुत्पादनीयता है
- उच्च-गुणवत्ता दृश्य समझ की आवश्यकता वाले अनुप्रयोग परिदृश्य
- मतिभ्रम समस्या के प्रति संवेदनशील सुरक्षा-महत्वपूर्ण अनुप्रयोग
- अतिरिक्त प्रशिक्षण नहीं कर सकने वाले संसाधन-सीमित वातावरण
- तेजी से तैनाती की आवश्यकता वाले व्यावसायिक अनुप्रयोग
पेपर 62 संबंधित संदर्भों का हवाला देता है, जो VLMs, मतिभ्रम पहचान, तुलनात्मक डिकोडिंग आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, अनुसंधान के लिए पर्याप्त सैद्धांतिक आधार और तुलनात्मक बेंचमार्क प्रदान करता है।
समग्र मूल्यांकन: यह VLMs मतिभ्रम समस्या इस महत्वपूर्ण अनुसंधान दिशा पर एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो नवीन समाधान प्रस्तावित करता है। विधि में ठोस सैद्धांतिक आधार और उत्कृष्ट प्रायोगिक प्रदर्शन है, जो शैक्षणिक और औद्योगिक दोनों क्षेत्रों के लिए महत्वपूर्ण मूल्य रखता है। हालांकि कुछ सीमाएं हैं, लेकिन इसका योगदान और प्रभाव अनदेखा नहीं किया जा सकता।