Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
Shi, Pei, Dong et al.
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
academic
विवरण को पकड़ना: सूक्ष्म-दानेदार MLLM धारणा के लिए स्व-आसवित RoI भविष्यवक्ता
बहुविध बड़े भाषा मॉडल (MLLMs) को सूक्ष्म-दानेदार धारणा कार्यों को निष्पादित करने के लिए उच्च-रिज़ॉल्यूशन दृश्य जानकारी की आवश्यकता होती है, लेकिन पूर्ण उच्च-रिज़ॉल्यूशन छवियों को संसाधित करना कम्प्यूटेशनल रूप से निषिद्ध है। हालांकि हाल के तरीके रुचि के क्षेत्र (RoI) तंत्र का उपयोग करके प्रमुख क्षेत्रों पर ध्यान केंद्रित करते हैं, लेकिन वे आमतौर पर कठिन व्यापार-बंद का सामना करते हैं: प्रशिक्षण-आधारित तरीके बड़े पैमाने पर एनोटेट किए गए डेटासेट पर निर्भर करते हैं, जबकि मॉडल के आंतरिक ध्यान का उपयोग करने वाले प्रशिक्षण-मुक्त तरीके कम्प्यूटेशनल रूप से अक्षम हैं और कम सटीकता प्रदान करते हैं, कई प्रीफिल चरणों या धीमी स्वचालित-प्रतिगामी डिकोडिंग प्रक्रिया की आवश्यकता होती है। यह पेपर इस व्यापार-बंद को संबोधित करने के लिए एक कुशल, एनोटेशन-मुक्त स्व-आसवित क्षेत्र प्रस्ताव नेटवर्क (SD-RPN) प्रस्तावित करता है। SD-RPN एक पाइपलाइन पर निर्मित है जो MLLM के मध्य-परत से शोर वाले ध्यान मानचित्रों को स्पष्ट डीनोइजिंग संकेतों और अस्पष्टता समाधान के माध्यम से उच्च-गुणवत्ता वाले छद्म RoI लेबल में परिवर्तित करता है। हम इन लेबलों का उपयोग एक हल्के वजन वाले क्षेत्र प्रस्ताव नेटवर्क (RPN) को प्रशिक्षित करने के लिए करते हैं जो अधिक सटीक स्थानीयकरण सीखता है। यह RPN अत्यधिक कुशल है, MLLM के मध्य-परत की विशेषताओं का उपयोग करके एकल आगे प्रसार में RoI की भविष्यवाणी करता है, RoI पहचान को स्वचालित-प्रतिगामी पीढ़ी से अलग करता है, महंगे बहु-संचालन से बचता है।
मुख्य समस्या: MLLMs को सूक्ष्म-दानेदार दृश्य धारणा की आवश्यकता वाले कार्यों को संभालते समय कम्प्यूटेशनल दक्षता और प्रदर्शन के बीच व्यापार-बंद का सामना करना पड़ता है
विशिष्ट चुनौतियाँ:
पूर्ण उच्च-रिज़ॉल्यूशन छवि प्रसंस्करण की कम्प्यूटेशनल लागत बहुत अधिक है
मौजूदा RoI तरीकों में सीमाएं हैं: प्रशिक्षण तरीकों को बड़ी मात्रा में एनोटेट किए गए डेटा की आवश्यकता होती है, प्रशिक्षण-मुक्त तरीके अक्षम हैं और कम सटीकता प्रदान करते हैं
कई आगे प्रसार या धीमी स्वचालित-प्रतिगामी डिकोडिंग की आवश्यकता होती है
SD-RPN फ्रेमवर्क प्रस्तावित करना: एक कुशल, एनोटेशन-मुक्त स्व-आसवित क्षेत्र प्रस्ताव नेटवर्क जो प्रशिक्षण तरीकों और प्रशिक्षण-मुक्त तरीकों के बीच व्यापार-बंद को हल करता है
छद्म लेबल पीढ़ी पाइपलाइन डिजाइन करना: शोर वाले ध्यान मानचित्रों को उच्च-गुणवत्ता वाले पर्यवेक्षण संकेतों में परिवर्तित करना, जिसमें डीनोइजिंग और लेबल असाइनमेंट रणनीति शामिल है
कुशल RoI भविष्यवाणी को लागू करना: हल्के वजन वाला RPN एकल आगे प्रसार में RoI की भविष्यवाणी करता है, कई संचालन और स्वचालित-प्रतिगामी निर्भरता से बचता है
व्यापक प्रयोज्यता को सत्यापित करना: कई MLLM परिवारों पर सत्यापित, केवल 10K नमूनों के साथ प्रशिक्षण कई बेंचमार्क पर 10% से अधिक की पूर्ण सटीकता में सुधार प्राप्त करता है
सैद्धांतिक विश्लेषण प्रदान करना: सैद्धांतिक दृष्टिकोण से समझाता है कि RoI लेबल की भविष्यवाणी करना कच्चे ध्यान मानचित्रों का सीधे उपयोग करने से बेहतर क्यों है
व्यापार-बंद समस्या को प्रभावी ढंग से हल करना: SD-RPN बड़े पैमाने पर एनोटेट किए गए डेटा की आवश्यकता के बिना प्रदर्शन और दक्षता को सफलतापूर्वक संतुलित करता है
मजबूत सामान्यीकरण क्षमता: कई MLLM आर्किटेक्चर पर उत्कृष्ट प्रदर्शन
उच्च डेटा दक्षता: केवल 10K नमूनों के साथ महत्वपूर्ण सुधार प्राप्त करता है
सैद्धांतिक समर्थन: RoI भविष्यवाणी सीखने के लिए सैद्धांतिक व्याख्या प्रदान करता है जो सीधे ध्यान का उपयोग करने से बेहतर है
पेपर बड़ी संख्या में संबंधित कार्यों का हवाला देता है, मुख्य रूप से:
LLaVA श्रृंखला बहुविध बड़े भाषा मॉडल
CLIP आदि दृश्य-भाषा प्रीट्रेनिंग मॉडल
ज्ञान आसवन और स्व-आसवन संबंधित अनुसंधान
दृश्य ध्यान तंत्र और क्षेत्र प्रस्ताव नेटवर्क अनुसंधान
समग्र मूल्यांकन: यह कंप्यूटर दृष्टि का एक उच्च-गुणवत्ता वाला पेपर है, जो MLLMs की सूक्ष्म-दानेदार धारणा की दक्षता समस्या को हल करने के लिए नई SD-RPN फ्रेमवर्क प्रस्तावित करता है। विधि डिजाइन उचित है, प्रयोगात्मक सत्यापन व्यापक है, व्यावहारिक मूल्य और शैक्षणिक योगदान बहुत मजबूत है। पेपर तकनीकी नवाचार, प्रयोगात्मक डिजाइन और परिणाम विश्लेषण के सभी पहलुओं में उत्कृष्ट प्रदर्शन करता है, यह MLLMs दृश्य धारणा क्षेत्र में महत्वपूर्ण प्रगति है।