2025-11-24T04:40:17.767584

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Shi, Pei, Dong et al.
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
academic

اكتشاف التفاصيل: مُنبئات RoI ذاتية التقطير للإدراك الدقيق في نماذج اللغة الكبيرة متعددة الأنماط

المعلومات الأساسية

  • معرّف الورقة: 2509.16944
  • العنوان: Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
  • المؤلفون: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
  • التصنيف: cs.CV
  • وقت النشر/المؤتمر: ورقة بحثية أولية. قيد المراجعة.
  • رابط الورقة: https://arxiv.org/abs/2509.16944
  • رابط الكود: https://github.com/YuHengsss/SD-RPN

الملخص

تتطلب نماذج اللغة الكبيرة متعددة الأنماط (MLLMs) معلومات بصرية عالية الدقة لتنفيذ مهام الإدراك الدقيق، لكن معالجة الصور الكاملة عالية الدقة محظورة حسابياً. بينما تستفيد الطرق الحديثة من آليات المناطق ذات الاهتمام (RoI) للتركيز على المناطق البارزة، فإنها عادة ما تواجه مقايضات صعبة: تعتمد الطرق القائمة على التدريب على مجموعات بيانات معلَّمة واسعة النطاق، بينما تتمتع الطرق الخالية من التدريب التي تستخدم الانتباه الداخلي للنموذج بكفاءة حسابية منخفضة ودقة أقل، وتتطلب مراحل ملء مسبقة متعددة أو تعتمد على عملية فك تشفير بطيئة ذاتية الانحدار. تقترح هذه الورقة شبكة اقتراح منطقة ذاتية التقطير (SD-RPN) فعالة وخالية من التعليقات التوضيحية لحل هذه المقايضة. يتم بناء SD-RPN على أساس خط أنابيب يحول خرائط الانتباه الضوضائية من الطبقات الوسيطة في MLLM إلى تسميات RoI زائفة عالية الجودة من خلال إشارات إزالة الضوضاء الصريحة وحل الغموض. نستخدم هذه التسميات لتدريب شبكة اقتراح منطقة خفيفة الوزن (RPN) لتعلم تحديد موقع أكثر دقة. هذه الشبكة فعالة جداً، وتستخدم ميزات من الطبقات الوسيطة في MLLM للتنبؤ بـ RoI في تمرير أمامي واحد، مما يفصل بين التعرف على RoI والتوليد الذاتي الانحداري، مما يتجنب العمليات المتعددة المكلفة.

خلفية البحث والدافع

تعريف المشكلة

  1. المشكلة الأساسية: تواجه نماذج اللغة الكبيرة متعددة الأنماط مقايضة بين الكفاءة الحسابية والأداء عند التعامل مع المهام التي تتطلب إدراكاً بصرياً دقيقاً
  2. التحديات المحددة:
    • تكلفة معالجة الصور الكاملة عالية الدقة مرتفعة جداً
    • الطرق الحالية لـ RoI لها قيود: تتطلب الطرق المدربة بيانات معلَّمة كبيرة، والطرق الخالية من التدريب لها كفاءة منخفضة ودقة أقل
    • تتطلب تمريرات أمامية متعددة أو تعتمد على عملية فك تشفير ذاتية الانحدار بطيئة

الأهمية

  • الإدراك البصري الدقيق هو قدرة أساسية في نماذج اللغة الكبيرة متعددة الأنماط، مما يؤثر بشكل مباشر على فهم المستندات والتعرف البصري على الأحرف وتحديد التفاصيل
  • التعرف الفعال على RoI حاسم لتطبيقات نماذج اللغة الكبيرة متعددة الأنماط العملية
  • يساعد حل مشكلة الكفاءة الحسابية على النشر واسع النطاق لنماذج اللغة الكبيرة متعددة الأنماط

قيود الطرق الموجودة

  1. الطرق المدربة (مثل VILA-HD): تتطلب تدريباً مسبقاً واسع النطاق وتعليقات توضيحية مفصلة، كثيفة البيانات وحسابية مكلفة
  2. الطرق الخالية من التدريب (مثل ViCrop):
    • تتطلب عمليات ملء مسبقة معقدة ومتعددة
    • تعتمد على مرحلة فك تشفير ذاتية الانحدار بطيئة
    • تستخدم خرائط الانتباه الضوضائية مباشرة، مما يحد من الدقة

المساهمات الأساسية

  1. اقتراح إطار عمل SD-RPN: شبكة اقتراح منطقة ذاتية التقطير فعالة وخالية من التعليقات التوضيحية، تحل مقايضة بين الطرق المدربة والطرق الخالية من التدريب
  2. تصميم خط أنابيب توليد التسميات الزائفة: تحويل خرائط الانتباه الضوضائية إلى إشارات إشراف عالية الجودة، بما في ذلك استراتيجيات إزالة الضوضاء وتعيين التسميات
  3. تحقيق التنبؤ الفعال بـ RoI: شبكة RPN خفيفة الوزن تتنبأ بـ RoI في تمرير أمامي واحد، مما يتجنب العمليات المتعددة والاعتماد على الانحدار الذاتي
  4. التحقق من قابلية التطبيق الواسعة: التحقق على عائلات MLLM متعددة، مع تحقيق تحسن دقة مطلق يزيد عن 10% على معايير متعددة باستخدام 10K عينة فقط للتدريب
  5. توفير تحليل نظري: شرح من منظور نظري لماذا يكون تعلم التنبؤ بتسميات RoI أفضل من استخدام خرائط الانتباه الأصلية مباشرة

شرح الطريقة

تعريف المهمة

بالنظر إلى أزواج الصور والنصوص (xv, xt)، الهدف هو:

  1. تحديد المناطق ذات الاهتمام المتعلقة بالنص في الصورة بكفاءة
  2. معالجة المناطق المحددة بدقة عالية لتحسين الإدراك الدقيق
  3. توليد استجابة نصية دقيقة

معمارية النموذج

1. الإطار العام

يعتمد SD-RPN على عملية تدريب واستدلال ثنائية المراحل:

  • مرحلة التدريب: استخدام MLLM كامل لتوليد تسميات زائفة، تدريب شبكة RPN خفيفة الوزن
  • مرحلة الاستدلال: التنبؤ بـ RoI، معالجة مناطق RoI بدقة عالية

2. خط أنابيب توليد التسميات الزائفة

الخطوة 1: استخراج خرائط الانتباه استخراج انتباه الاستجابة-الصورة من الطبقات الوسيطة في MLLM:

M^l_RoI = Σ(i=1 to Nt) A^l_i / Nt
A = softmax(Q^l_t(K^l_v)^T / √d)

الخطوة 2: إزالة الرموز الغارقة تحديد وإزالة الرموز الغارقة بناءً على معيار الميزة:

(M'_RoI)_j = {
    0 if ||(H_v)_j||_2 > τ_norm
    (M_RoI)_j otherwise
}

الخطوة 3: تعيين التسميات اعتماد استراتيجية تصنيف ثنائي انتقائي:

(M̃_RoI)_j = {
    1 if token j ∈ S_fg,
    0 if token j ∈ S_bg,
    -1 otherwise (ignored)
}

حيث مجموعة المقدمة S_fg = {j | a_j ≥ τ_fg * a_max}، ومجموعة الخلفية S_bg = {j | j ∉ B_fg and a_j ≤ τ_bg * a_max}

3. تصميم معمارية RPN

بنية الشبكة:

  • بناءً على أول B طبقة من MLLM المجمدة كشبكة عمود فقري
  • إضافة R كتل محول قابلة للتدريب
  • تهيئة الأوزان من الطبقات B إلى B+R من MLLM المدرب مسبقاً

عملية التنبؤ بـ RoI:

  1. استخراج متجهات الاستعلام: H_RoI = concat(H_u^(1)-1, ..., H_u^(n)-1)
  2. حساب الانتباه: Q_RoI = LP_q(Norm(H_RoI)), K_v = LP_k(Norm(H_v))
  3. توليد خريطة RoI: M̂_RoI = Q_RoI * K_v^T

خسارة التدريب: L_BCE(M̂_RoI, M̃_RoI)، يتم حساب الخسارة فقط في المناطق غير المتجاهلة

4. الاستدلال ثنائي المراحل

المرحلة 1: التنبؤ بـ RoI

  • تنفيذ RPN لتمرير أمامي جزئي حتى الطبقة الوسيطة
  • توليد خريطة RoI كثيفة ومعالجة لاحقة إلى قناع ثنائي

المرحلة 2: المعالجة عالية الدقة توفير استراتيجيتي عينة إضافية:

  • Box Upscaling: معالجة كل منطقة متصلة بشكل مستقل
  • Masked Upscaling: معالجة موحدة لجميع مناطق المقدمة

نقاط الابتكار التقني

  1. تصميم التقطير الذاتي: استخدام الاستجابات التي ينتجها النموذج نفسه لتوجيه الانتباه، تجنب تحول التوزيع
  2. استراتيجية معالجة الضوضاء: معالجة منهجية لمشكلة الرموز الغارقة والتنشيط غير الكامل
  3. الإشراف الانتقائي: تجاهل المناطق الغامضة، الإشراف فقط في المناطق عالية الثقة
  4. تحسين الكفاءة: يتطلب RPN فقط تمرير أمامي جزئي، منفصل عن التوليد الذاتي الانحداري

إعداد التجارب

مجموعات البيانات

بيانات التدريب:

  • GQA (72K عينة): صور المشاهد الطبيعية
  • OCR-VQA (80K عينة): صور غنية بالنصوص
  • إجمالي 152K عينة للتدريب

معايير التقييم:

  1. فئة المستندات والتعرف البصري على الأحرف: DocVQA, ChartQA, OCRBench, InfoVQA, TextVQA
  2. فئة البصرية المركزة والدقة العالية: V-Star Bench, POPE, HR-Bench

مقاييس التقييم

  • الدقة (Accuracy)
  • درجة F1 (معيار POPE)
  • الإنتاجية (مضاعفات بالنسبة للخط الأساسي)

طرق المقارنة

الخطوط الأساسية الرئيسية:

  • S2: طريقة الضبط الكامل
  • ViCrop: خط أساسي للقص الخالي من التدريب
  • DeepEyes: طريقة قائمة على التعلم المعزز

النماذج المدمجة:

  • LLaVA-1.5 (7B/13B)
  • DeepSeek-VL (1.3B/7B)
  • Qwen2.5-VL (3B/7B)

تفاصيل التنفيذ

  • المُحسِّن: AdamW، معدل التعلم 5e-5
  • حجم الدفعة: 128
  • عدد الحقب: 1
  • إعدادات العتبة: τ_fg=0.2, τ_bg=0.1
  • الأجهزة: 4×NVIDIA A6000 GPU

نتائج التجارب

النتائج الرئيسية

أداء معايير المستندات والتعرف البصري على الأحرف

النتائج على LLaVA-1.5-7B:

  • DocVQA: 21.5% → 33.9% (+12.4%)
  • TextVQA: 46.1% → 58.7% (+12.6%)
  • متوسط التحسن: 6.8%
  • الإنتاجية: 0.62× (مقارنة بالخط الأساسي)

أداء معايير البصرية المركزة

  • V-Star Bench: 50.3% → 67.5% (+17.2%)
  • HR-Bench 4K: 37.5% → 48.0% (+10.5%)
  • POPE F1: 85.9% → 87.1% (+1.2%)

قابلية التعميم عبر النماذج

تظهر جميع عائلات MLLM المختبرة تحسناً متسقاً في الأداء:

  • سلسلة DeepSeek-VL: متوسط تحسن 6.6%-7.6%
  • سلسلة Qwen2.5-VL: متوسط تحسن 2.7%-3.0%

تجارب الاستئصال

تحليل المكونات الرئيسية

  1. استخدام الانتباه الأصلي مباشرة: متوسط تحسن 3.8%
  2. التنبؤ بالانتباه: متوسط تحسن 5.3%
  3. + تعيين التسميات: متوسط تحسن 7.9%
  4. + إزالة الرموز الغارقة: متوسط تحسن 9.0%
  5. + عينة إضافية للقناع: متوسط تحسن 9.2%

تأثير عدد طبقات العمود الفقري

  • B3R3: متوسط تحسن 3.1%
  • B15R3: متوسط تحسن 9.2% (الأمثل)
  • B18R3: متوسط تحسن 8.3%

تحليل كفاءة البيانات

  • 10K عينة: متوسط تحسن 7.2%
  • 152K عينة: متوسط تحسن 9.2%
  • استخدام الاستجابات الأرضية: متوسط تحسن 7.3% (أقل من الاستجابات المولدة ذاتياً)

تحليل الكفاءة

يظهر تحليل المقايضة بين الأداء والإنتاجية أن SD-RPN يتفوق على طرق تغيير الدقة البسيطة في جميع إعدادات عدد الرموز البصرية.

الأعمال ذات الصلة

تحسين إدراك MLLM

  1. الفهم البصري العام: أجهزة ترميز بصرية أكثر تعقيداً، معالجة الصور عالية الدقة، تكامل الأدوات الخارجية
  2. طرق RoI: VILA-HD, Yu et al. وغيرها من طرق التدريب التي تتطلب إشرافاً كبيراً
  3. الطرق الخالية من التدريب: ViCrop, Wang et al. وغيرها التي تستخدم الانتباه الداخلي لكن بكفاءة منخفضة

تطبيق التقطير الذاتي في MLLMs

  1. التدريب المسبق متعدد الأنماط: تحسين المحاذاة عبر الأنماط وتعلم التمثيل
  2. المهام اللاحقة: تحسين محاذاة منطقة البصرية والنصية، تحسين الأداء في التحديد والاستدلال

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. حل فعال للمقايضة: يحقق SD-RPN بنجاح توازناً بين الأداء والكفاءة دون الحاجة إلى بيانات معلَّمة واسعة النطاق
  2. قدرة تعميم قوية: يظهر أداء ممتازة على معماريات MLLM متعددة
  3. كفاءة عالية في البيانات: يحقق تحسناً كبيراً باستخدام 10K عينة فقط
  4. دعم نظري: يوفر شرحاً نظرياً لماذا يكون تعلم التنبؤ بـ RoI أفضل من استخدام الانتباه مباشرة

القيود

  1. التكلفة الحسابية: الاستدلال ثنائي المراحل لا يزال يجلب تكاليف حسابية إضافية
  2. حساسية المعاملات الفائقة: يتطلب ضبط اختيار الطبقات والعتبات لنماذج مختلفة
  3. تقييد السيناريوهات المطبقة: ينطبق بشكل أساسي على المهام التي تتطلب إدراكاً بصرياً دقيقاً

الاتجاهات المستقبلية

  1. تعيين الرموز التكيفي: ضبط عدد الرموز البصرية ديناميكياً
  2. فهم الفيديو والمستندات: التوسع إلى تطبيقات متعددة الأنماط أوسع
  3. التحسين من طرف إلى طرف: تقليل المزيد من التكاليف الحسابية في مرحلة الاستدلال

التقييم المتعمق

المميزات

  1. ابتكار قوي: يقترح إطار عمل تقطير ذاتي جديد، يحل بذكاء المقايضة في الطرق الموجودة
  2. تقنية متينة: تصميم خط أنابيب توليد التسميات الزائفة معقول، يعالج بفعالية مشكلة الضوضاء في خرائط الانتباه
  3. تجارب شاملة: تحقق شامل على نماذج متعددة ومعايير متعددة، بما في ذلك تجارب استئصال مفصلة
  4. دعم نظري: يوفر تحليلاً نظرياً يشرح فعالية الطريقة
  5. قيمة عملية عالية: الطريقة بسيطة وفعالة، متطلبات البيانات قليلة، مناسبة للتطبيقات العملية

أوجه القصور

  1. مقايضة الكفاءة: بينما تكون أكثر كفاءة من الطرق الموجودة، الاستدلال ثنائي المراحل لا يزال يحمل تكاليف
  2. الاعتماد على المعاملات الفائقة: يتطلب ضبط يدوي للمعاملات لمعماريات نموذج مختلفة
  3. قيود التقييم: التقييم الرئيسي على معايير اللغة الإنجليزية، يفتقد التحقق متعدد اللغات
  4. عمق التحليل النظري: بينما يوفر شرحاً نظرياً، يمكن تحليل الخصائص مثل التقارب بشكل أعمق

التأثير

  1. المساهمة الأكاديمية: توفر أفكاراً جديدة للإدراك البصري الفعال في نماذج اللغة الكبيرة متعددة الأنماط
  2. القيمة العملية: الطريقة بسيطة وفعالة، سهلة التكامل مع الأنظمة الموجودة
  3. قابلية إعادة الإنتاج: توفر تفاصيل تنفيذ مفصلة وكود مفتوح المصدر

السيناريوهات المطبقة

  1. فهم المستندات: التعرف البصري على الأحرف، تحليل الجداول، فهم الرسوم البيانية وغيرها
  2. الإجابة على الأسئلة البصرية الدقيقة: مهام VQA التي تتطلب تحديد الأشياء الصغيرة أو النصوص
  3. الاسترجاع متعدد الأنماط: استرجاع الصور والمطابقة بناءً على التفاصيل البصرية
  4. التطبيقات الصناعية: معالجة المستندات الآلية، كشف الجودة وغيرها من السيناريوهات

المراجع

تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، وتشمل بشكل أساسي:

  • نماذج سلسلة LLaVA متعددة الأنماط الكبيرة
  • نماذج التدريب المسبق للرؤية واللغة مثل CLIP
  • البحث المتعلق بتقطير المعرفة والتقطير الذاتي
  • البحث المتعلق بآليات الانتباه البصري وشبكات اقتراح المناطق

التقييم الشامل: هذه ورقة بحثية عالية الجودة في مجال الرؤية الحاسوبية، تقترح إطار عمل SD-RPN مبتكراً لحل مشكلة الكفاءة في الإدراك الدقيق لنماذج اللغة الكبيرة متعددة الأنماط. تصميم الطريقة معقول، التحقق التجريبي شامل، وتتمتع بقيمة عملية قوية وإسهام أكاديمي. تظهر الورقة أداءً ممتازاً في الابتكار التقني وتصميم التجارب وتحليل النتائج، وهي تمثل تقدماً مهماً في مجال الإدراك البصري لنماذج اللغة الكبيرة متعددة الأنماط.