Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
Shi, Pei, Dong et al.
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
academic
اكتشاف التفاصيل: مُنبئات RoI ذاتية التقطير للإدراك الدقيق في نماذج اللغة الكبيرة متعددة الأنماط
تتطلب نماذج اللغة الكبيرة متعددة الأنماط (MLLMs) معلومات بصرية عالية الدقة لتنفيذ مهام الإدراك الدقيق، لكن معالجة الصور الكاملة عالية الدقة محظورة حسابياً. بينما تستفيد الطرق الحديثة من آليات المناطق ذات الاهتمام (RoI) للتركيز على المناطق البارزة، فإنها عادة ما تواجه مقايضات صعبة: تعتمد الطرق القائمة على التدريب على مجموعات بيانات معلَّمة واسعة النطاق، بينما تتمتع الطرق الخالية من التدريب التي تستخدم الانتباه الداخلي للنموذج بكفاءة حسابية منخفضة ودقة أقل، وتتطلب مراحل ملء مسبقة متعددة أو تعتمد على عملية فك تشفير بطيئة ذاتية الانحدار. تقترح هذه الورقة شبكة اقتراح منطقة ذاتية التقطير (SD-RPN) فعالة وخالية من التعليقات التوضيحية لحل هذه المقايضة. يتم بناء SD-RPN على أساس خط أنابيب يحول خرائط الانتباه الضوضائية من الطبقات الوسيطة في MLLM إلى تسميات RoI زائفة عالية الجودة من خلال إشارات إزالة الضوضاء الصريحة وحل الغموض. نستخدم هذه التسميات لتدريب شبكة اقتراح منطقة خفيفة الوزن (RPN) لتعلم تحديد موقع أكثر دقة. هذه الشبكة فعالة جداً، وتستخدم ميزات من الطبقات الوسيطة في MLLM للتنبؤ بـ RoI في تمرير أمامي واحد، مما يفصل بين التعرف على RoI والتوليد الذاتي الانحداري، مما يتجنب العمليات المتعددة المكلفة.
الإدراك البصري الدقيق هو قدرة أساسية في نماذج اللغة الكبيرة متعددة الأنماط، مما يؤثر بشكل مباشر على فهم المستندات والتعرف البصري على الأحرف وتحديد التفاصيل
التعرف الفعال على RoI حاسم لتطبيقات نماذج اللغة الكبيرة متعددة الأنماط العملية
يساعد حل مشكلة الكفاءة الحسابية على النشر واسع النطاق لنماذج اللغة الكبيرة متعددة الأنماط
اقتراح إطار عمل SD-RPN: شبكة اقتراح منطقة ذاتية التقطير فعالة وخالية من التعليقات التوضيحية، تحل مقايضة بين الطرق المدربة والطرق الخالية من التدريب
تصميم خط أنابيب توليد التسميات الزائفة: تحويل خرائط الانتباه الضوضائية إلى إشارات إشراف عالية الجودة، بما في ذلك استراتيجيات إزالة الضوضاء وتعيين التسميات
تحقيق التنبؤ الفعال بـ RoI: شبكة RPN خفيفة الوزن تتنبأ بـ RoI في تمرير أمامي واحد، مما يتجنب العمليات المتعددة والاعتماد على الانحدار الذاتي
التحقق من قابلية التطبيق الواسعة: التحقق على عائلات MLLM متعددة، مع تحقيق تحسن دقة مطلق يزيد عن 10% على معايير متعددة باستخدام 10K عينة فقط للتدريب
توفير تحليل نظري: شرح من منظور نظري لماذا يكون تعلم التنبؤ بتسميات RoI أفضل من استخدام خرائط الانتباه الأصلية مباشرة
تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، وتشمل بشكل أساسي:
نماذج سلسلة LLaVA متعددة الأنماط الكبيرة
نماذج التدريب المسبق للرؤية واللغة مثل CLIP
البحث المتعلق بتقطير المعرفة والتقطير الذاتي
البحث المتعلق بآليات الانتباه البصري وشبكات اقتراح المناطق
التقييم الشامل: هذه ورقة بحثية عالية الجودة في مجال الرؤية الحاسوبية، تقترح إطار عمل SD-RPN مبتكراً لحل مشكلة الكفاءة في الإدراك الدقيق لنماذج اللغة الكبيرة متعددة الأنماط. تصميم الطريقة معقول، التحقق التجريبي شامل، وتتمتع بقيمة عملية قوية وإسهام أكاديمي. تظهر الورقة أداءً ممتازاً في الابتكار التقني وتصميم التجارب وتحليل النتائج، وهي تمثل تقدماً مهماً في مجال الإدراك البصري لنماذج اللغة الكبيرة متعددة الأنماط.