2025-11-18T20:07:12.683154

When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance

Cao, Chen, Wang et al.

Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.

academic

عندما تتحدث الصور بصوت أعلى: تخفيف الهلوسات الناجمة عن انحياز اللغة في نماذج الرؤية واللغة من خلال التوجيه عبر الوسائط

المعلومات الأساسية

معرّف الورقة: 2510.10466
العنوان: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
المؤلفون: Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (معمل MAPLE، جامعة Westlake)
التصنيف: cs.CV (رؤية الحاسوب)
تاريخ النشر: 12 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.10466v1

الملخص

تُظهر نماذج الرؤية واللغة (VLMs) أداءً متفوقاً في الفهم متعدد الوسائط، لكنها تواجه بشكل متكرر مشكلة الهلوسة — توليد إجابات سلسة لغوياً لكنها غير ذات صلة بمحتوى الصورة. تحلل هذه الورقة كيفية أن يؤدي انحياز اللغة إلى الهلوسة، وتقترح Cross-Modal Guidance (CMG)، وهي طريقة فك تشفير بدون تدريب تعالج مشكلة الهلوسة من خلال مقارنة توزيعات الإخراج بين النموذج الأصلي ونموذج تدهور الانتباه البصري-اللغوي. يعمل CMG على تعطيل الإدراك البصري-اللغوي من خلال إخفاء تكيفي لأوزان الانتباه لرموز الصور الأكثر تأثيراً في طبقات محددة من المحول، مما يعزز الوعي بالسياق البصري ويقلل بشكل كبير من انحياز اللغة دون الإضرار بقدرات VLMs.

خلفية البحث والدافع

المشكلة الأساسية

على الرغم من أن VLMs قوية في الفهم متعدد الوسائط، إلا أنها تعاني من مشكلة هلوسة خطيرة:

الهلوسة المدفوعة بانحياز اللغة: يميل النموذج إلى توليد إجابات بناءً على الأنماط اللغوية، متجاهلاً المعلومات البصرية
عدم توازن أوزان الانتباه: تنخفض أوزان الانتباه لرموز الصور بشكل حاد في الطبقات العميقة
الاستخدام الناقص للمعلومات البصرية: على الرغم من أن عدد رموز الصور عادة ما يتجاوز بكثير رموز النص، إلا أن تأثيرها يتم التقليل من شأنه

أهمية المشكلة

تعيق مشكلة الهلوسة في VLMs التطبيقات الواسعة، مما يشكل مخاطر غير قابلة للتحكم
يحتاج المستخدمون إلى أنظمة ذكاء اصطناعي متعددة الوسائط موثوقة تفهم وتستجيب بدقة للمحتوى البصري
الحلول الموجودة إما تتطلب تدريباً إضافياً أو تأثيرها محدود

قيود الطرق الموجودة

طريقة VCD: تضيف مباشرة ضوضاء غاوسية إلى صور الإدخال، لكن هذا الاضطراب يصبح غير قابل للتحكم في الطبقات العميقة
طريقة ConVis: تتطلب استدعاء نماذج إضافية مكلفة لتعزيز المعلومات البصرية
طرق هندسة الأوامر: تأثيرها محدود وغير عام بما يكفي
طرق ما بعد التدريب: تتطلب بيانات ردود فعل بشرية وتكاليف تدريب إضافية

المساهمات الأساسية

اقتراح طريقة CMG: طريقة استدلال بدون تدريب تقلل بشكل فعال من هلوسة النموذج من خلال إخفاء الانتباه العشوائي
تحديد السبب الجذري للهلوسة: اكتشاف أن عدم كفاية الاتصال البصري-الانتباهي هو سبب مهم للهلوسة، مع توفير أدلة صارمة
التحقق التجريبي الشامل: تقييم كمي لفعالية CMG على معايير متعددة، مما يُظهر قدرتها على التعميم
تحسين الإطار النظري: إنشاء أساس نظري للفك التشفير المقارن بناءً على المعلومات المتبادلة النقطية (PMI)

شرح الطريقة

تعريف المهمة

بالنظر إلى إدخال نصي $x = \{x_1, x_2, ..., x_n\}$ وإدخال بصري $I = \{I_1, I_2, ..., I_m\}$ ، يجب على VLM توليد تسلسل نصي بطول k: $y = \{y_1, y_2, ..., y_k\}$ . تتبع عملية التوليد نمطاً انحدارياً ذاتياً:

$p_\theta(y|x,I) = \prod_{t=1}^k p_\theta(y_t|y_{<t}, x, I)$

تحليل انحياز اللغة

يكشف البحث عن انحياز لغوي كبير في VLMs:

تناقص أوزان الانتباه: تنخفض أوزان الانتباه لرموز الصور بشكل حاد في الطبقات الضحلة وتبقى منخفضة في الطبقات العميقة
أفضلية رموز النص: تتجاوز أوزان الانتباه لرموز النظام حتى رموز الأسئلة التي تحتوي على معلومات حاسمة
تأثير طول التسلسل: مع زيادة طول التسلسل المُولَّد، تنخفض أوزان الانتباه البصري تدريجياً

معمارية CMG الأساسية

1. بناء النموذج الهاوي

يتضمن آلية الانتباه الذاتي ثلاثة أنواع:

الانتباه داخل الرؤية $A_{iv}$
الانتباه داخل النص $A_{it}$
الانتباه عبر الوسائط $A_{cr}$

$A = A_{iv} \cup A_{it} \cup A_{cr}$

يتم بناء النموذج الهاوي من خلال إخفاء جزء من أوزان الانتباه عبر الوسائط والبصري:

$SA(Q,K,V;M) = \text{Softmax}(A \odot M)V$

حيث $M := M_{cr} \cup M_{iv}$ هو القناع المطبق على خريطة الانتباه.

2. استراتيجية الفك التشفير المقارن

تعديل توزيع الإخراج لـ VLM الأصلي:

$p_\theta(y|x,I) \propto q_\theta(y) \left(\frac{q_\theta(y)}{q_\theta(y;M)}\right)^\alpha$

حيث:

$q_\theta(y) := p_\theta(y|x,I;A_{cr}, A_{iv}, A_{it})$ (النموذج الأصلي)
$q_\theta(y;M) := p_\theta(y|x,I;A_{cr} \odot M_{cr}, A_{iv} \odot M_{iv}, A_{it})$ (النموذج الهاوي)

3. استراتيجية الإخفاء الديناميكي

إخفاء الانتباه الديناميكي: إخفاء أكبر $\gamma$ نسبة من أوزان الانتباه في $A_{iv}$ و $A_{cr}$ :

$SA(Q,K,V;M) = \text{Softmax}(A \odot M(\gamma))V$

اختيار الطبقة الديناميكي: اختيار الطبقات المهمة بناءً على التشابه الكوسيني:

$s(i) = \cos(X_i, Y_i) = \frac{X_i \cdot Y_i}{\|X_i\|_2 \|Y_i\|_2}$

اختيار أصغر $\tau$ نسبة من الطبقات ذات التشابه لتطبيق الإخفاء.

نقاط الابتكار التقني

تشغيل آليات الانتباه الداخلية: التعامل المباشر مع أوزان الانتباه داخل المحول، وليس اضطراب الإدخال
استراتيجية إخفاء تكيفية: اختيار ديناميكي لأوزان الانتباه والطبقات الأكثر تأثيراً للإخفاء
التصميم المدفوع بالنظرية: بناء إطار الفك التشفير المقارن على أساس نظرية PMI
بدون تكاليف التدريب: يعمل بالكامل في مرحلة الاستدلال، بدون تدريب إضافي

إعداد التجارب

مجموعات البيانات

معايير ذات صلة بالهلوسة: HallusionBench و POPE
معايير التقييم الشاملة: MME

مقاييس التقييم

POPE: الاستدعاء (Recall)، الدقة (Accuracy)، الدقة (Precision)، النتيجة الإجمالية (Overall)
HallusionBench: دقة محاذاة الأسئلة (qAcc)، دقة الصور (fAcc)، الدقة الإجمالية (aAcc)
MME: درجات 14 مهمة فرعية للإدراك والقدرات الاستدلالية

الطرق المقارنة

VCD: بناء نموذج هاوي من خلال إضافة ضوضاء غاوسية إلى صور الإدخال
ConVis: استخدام نموذج نص إلى صورة لإعادة توليد الصور والاستفادة من الاختلافات لتوجيه التوليد

تفاصيل التنفيذ

النماذج الأساسية: LLaVA-v1.5-7B و InstructBLIP-7B و Qwen2-VL-7B و InternVL2.5-8B
إعدادات المعاملات:
- معايير محددة للهلوسة: $\alpha=0.3, \gamma=0.5, \tau=0.5$
- معايير عامة MME: $\alpha=0.1, \gamma=0.5, \tau=0.1$
معاملات العينة: top-p=0.9، beam search=5، temperature=0.7

نتائج التجارب

النتائج الرئيسية

معيار POPE

على LLaVA-v1.5-7B، حقق CMG دقة إجمالية بنسبة 85.48، متفوقاً على VCD و ConVis. من الجدير بالملاحظة بشكل خاص أن CMG أظهر قابلية توسع إيجابية على الهندسات الجديدة (ارتفاع من 89.0 إلى 89.3 على InternVL-2.5)، بينما تنخفض أداء الطرق التقليدية عند ترقية الهندسة.

معيار HallusionBench

يتفوق CMG على VCD بـ +7.1 نقطة في الدقة، وعلى ConVis بـ +6.3 نقطة، مما يُظهر أداءً رائداً بين طرق الاستدلال بدون تدريب إضافي.

معيار MME

في المهام الفرعية ذات الصلة بالإدراك، تتجاوز النتيجة الإجمالية لـ CMG VCD بـ +62.08 نقطة، و ConVis بـ +7.30 نقطة. تحقق أعلى درجات في المجموعات الفرعية حيث يكون انحياز اللغة منتشراً بشكل خاص، مثل "اللون" و "المشهد" و "المعالم".

نتائج حسب حجم النموذج المختلف

يُظهر CMG تحسناً قوياً في الأداء عبر نماذج بأحجام معاملات مختلفة (2B و 7B و 13B و 26B)، مما يُظهر قابلية توسع جيدة وتكيفاً معمارياً.

تجارب الاستبدال

تتحقق التجارب من عدة استراتيجيات لبناء نموذج هاوي:

الإزالة الكاملة للانتباه البصري: انخفاض شديد في الأداء (fAcc: 12.14)
استبدال الضوضاء: أداء محدودة (fAcc: 29.48)
استبدال النص: تأثير عام (fAcc: 29.77)
طريقة CMG: أفضل أداء (fAcc: 30.06)

تحليل الحالات

تعرض الورقة حالتين نموذجيتين:

مهمة فهم الرسم: أخطأ النموذج الأصلي في ربط "hat" بملابس الشخصية، وصحح CMG بنجاح وحدد "bandana"
تحديد لون القميص: في مواجهة تشويش من قبعة سوداء، قام CMG بتعديل نسبة PMI بدقة وحدد لون القميص بشكل صحيح

الأعمال ذات الصلة

أبحاث مشكلة الهلوسة

أصبحت مشكلة الهلوسة في VLMs اتجاهاً بحثياً مهماً، وتشمل الطرق الموجودة بشكل أساسي:

طرق هندسة الأوامر
التدريب اللاحق بناءً على ردود الفعل البشرية
استراتيجيات استدلال مختلفة

فك التشفير الحساس للمحتوى

طرق البحث: مثل البحث الجشع والبحث بالشعاع، النتائج دقيقة لكن قد تكون متكررة
طرق العينة: مثل أخذ العينات الأساسية، تنوع أفضل لكن قد يحدث تحول موضوعي غير طبيعي
فك التشفير المقارن: الاستفادة من الفرق بين احتمالات الإخراج لنموذجين لبناء توزيع إخراج محسّن

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية CMG: يقلل بشكل كبير من مشكلة الهلوسة في VLMs بدون الحاجة إلى التدريب
تأثير انحياز اللغة: تأكيد أن انحياز اللغة عامل مهم يؤدي إلى الهلوسة
أهمية آليات الانتباه: يمكن تحسين سلوك النموذج بشكل فعال من خلال تعديل أوزان الانتباه
القابلية للتطبيق الواسع: تُظهر الطريقة أداءً ممتازاً عبر هندسات نماذج وأساليس معايير متعددة

القيود

حساسية المعاملات الفائقة: تتطلب ضبطاً دقيقاً للمعاملات الفائقة لسيناريوهات مختلفة، مثل نسب الإخفاء المتعلقة بـ $n_0$ في المعادلة 12
متطلبات الضبط الديناميكي: يتطلب الحصول على النتائج المثلى حالياً ضبط معاملات فائقة ديناميكية، مما يزيد من تعقيد الاستخدام
النفقات الحسابية: يتطلب تشغيل النموذج الأصلي والنموذج الهاوي في نفس الوقت، مما يزيد من وقت الاستدلال

الاتجاهات المستقبلية

ضبط المعاملات الفائقة التلقائي: تطوير آليات اختيار معاملات تكيفية
تحسين الكفاءة: تقليل النفقات الحسابية وتحسين كفاءة الاستدلال
تحسين النظرية: تحسين إضافي للأساس النظري لفك التشفير المقارن

التقييم المتعمق

المميزات

ابتكار قوي: أول من يعالج مشكلة الهلوسة في VLMs من منظور آليات الانتباه، مما يوفر منظوراً بحثياً جديداً
أساس نظري متين: إطار الفك التشفير المقارن المبني على PMI له أساس نظري قوي
تجارب شاملة: تحقق كافٍ على معايير متعددة وعبر نماذج متنوعة
قيمة عملية عالية: يمكن تطبيقها بدون تدريب، مما يقلل من عتبة الاستخدام
تحليل عميق: يوفر تحليل آليات توليد انحياز اللغة رؤى مهمة

أوجه القصور

تعقيد أعلى: يتضمن معاملات فائقة متعددة واستراتيجيات اختيار ديناميكية، مما يزيد من تعقيد الاستخدام
التكاليف الحسابية: يتطلب تشغيل نموذجين في نفس الوقت، مما يزيد من تكاليف الاستدلال
حساسية المعاملات: التأثير حساس نسبياً لاختيار المعاملات الفائقة، مما قد يؤثر على التطبيق العملي
نطاق التطبيق: يستهدف بشكل أساسي VLMs المستندة إلى المحول، وتطبيقيتها على الهندسات الأخرى غير معروفة

التأثير

المساهمة الأكاديمية: توفير منظور حل جديد لمشكلة الهلوسة في VLMs، قد تلهم الأبحاث اللاحقة
القيمة العملية: تسهل الخاصية الخالية من التدريب النشر في الأنظمة الموجودة
قابلية إعادة الإنتاج: وصف الطريقة مفصل وإعدادات التجارب واضحة، مع قابلية إعادة إنتاج جيدة

السيناريوهات المناسبة

سيناريوهات التطبيق التي تتطلب فهماً بصرياً عالي الجودة
التطبيقات الحساسة للأمان التي تكون حساسة لمشكلة الهلوسة
البيئات ذات الموارد المحدودة التي لا يمكن إجراء تدريب إضافي فيها
التطبيقات التجارية التي تتطلب نشراً سريعاً

المراجع

تستشهد الورقة بـ 62 مرجعاً ذا صلة، تغطي الأعمال المهمة في المجالات ذات الصلة مثل VLMs والكشف عن الهلوسة وفك التشفير المقارن، مما يوفر أساساً نظرياً كافياً ومعايير مقارنة للبحث.

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكراً لاتجاه بحثي مهم وهو مشكلة الهلوسة في VLMs. تتمتع الطريقة بأساس نظري متين وأداء تجريبي ممتاز، وتتمتع بقيمة مهمة لكل من الأوساط الأكاديمية والصناعة. على الرغم من وجود بعض القيود، إلا أن مساهماتها وتأثيرها لا يمكن إنكاره.