2025-11-24T04:40:17.767584

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Shi, Pei, Dong et al.

Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.

academic

विवरण को पकड़ना: सूक्ष्म-दानेदार MLLM धारणा के लिए स्व-आसवित RoI भविष्यवक्ता

मूल जानकारी

पेपर ID: 2509.16944
शीर्षक: Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
लेखक: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
वर्गीकरण: cs.CV
प्रकाशन समय/सम्मेलन: प्रीप्रिंट। समीक्षा के अधीन।
पेपर लिंक: https://arxiv.org/abs/2509.16944
कोड लिंक: https://github.com/YuHengsss/SD-RPN

सारांश

बहुविध बड़े भाषा मॉडल (MLLMs) को सूक्ष्म-दानेदार धारणा कार्यों को निष्पादित करने के लिए उच्च-रिज़ॉल्यूशन दृश्य जानकारी की आवश्यकता होती है, लेकिन पूर्ण उच्च-रिज़ॉल्यूशन छवियों को संसाधित करना कम्प्यूटेशनल रूप से निषिद्ध है। हालांकि हाल के तरीके रुचि के क्षेत्र (RoI) तंत्र का उपयोग करके प्रमुख क्षेत्रों पर ध्यान केंद्रित करते हैं, लेकिन वे आमतौर पर कठिन व्यापार-बंद का सामना करते हैं: प्रशिक्षण-आधारित तरीके बड़े पैमाने पर एनोटेट किए गए डेटासेट पर निर्भर करते हैं, जबकि मॉडल के आंतरिक ध्यान का उपयोग करने वाले प्रशिक्षण-मुक्त तरीके कम्प्यूटेशनल रूप से अक्षम हैं और कम सटीकता प्रदान करते हैं, कई प्रीफिल चरणों या धीमी स्वचालित-प्रतिगामी डिकोडिंग प्रक्रिया की आवश्यकता होती है। यह पेपर इस व्यापार-बंद को संबोधित करने के लिए एक कुशल, एनोटेशन-मुक्त स्व-आसवित क्षेत्र प्रस्ताव नेटवर्क (SD-RPN) प्रस्तावित करता है। SD-RPN एक पाइपलाइन पर निर्मित है जो MLLM के मध्य-परत से शोर वाले ध्यान मानचित्रों को स्पष्ट डीनोइजिंग संकेतों और अस्पष्टता समाधान के माध्यम से उच्च-गुणवत्ता वाले छद्म RoI लेबल में परिवर्तित करता है। हम इन लेबलों का उपयोग एक हल्के वजन वाले क्षेत्र प्रस्ताव नेटवर्क (RPN) को प्रशिक्षित करने के लिए करते हैं जो अधिक सटीक स्थानीयकरण सीखता है। यह RPN अत्यधिक कुशल है, MLLM के मध्य-परत की विशेषताओं का उपयोग करके एकल आगे प्रसार में RoI की भविष्यवाणी करता है, RoI पहचान को स्वचालित-प्रतिगामी पीढ़ी से अलग करता है, महंगे बहु-संचालन से बचता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य समस्या: MLLMs को सूक्ष्म-दानेदार दृश्य धारणा की आवश्यकता वाले कार्यों को संभालते समय कम्प्यूटेशनल दक्षता और प्रदर्शन के बीच व्यापार-बंद का सामना करना पड़ता है
विशिष्ट चुनौतियाँ:
- पूर्ण उच्च-रिज़ॉल्यूशन छवि प्रसंस्करण की कम्प्यूटेशनल लागत बहुत अधिक है
- मौजूदा RoI तरीकों में सीमाएं हैं: प्रशिक्षण तरीकों को बड़ी मात्रा में एनोटेट किए गए डेटा की आवश्यकता होती है, प्रशिक्षण-मुक्त तरीके अक्षम हैं और कम सटीकता प्रदान करते हैं
- कई आगे प्रसार या धीमी स्वचालित-प्रतिगामी डिकोडिंग की आवश्यकता होती है

महत्व

सूक्ष्म-दानेदार दृश्य धारणा MLLMs की मुख्य क्षमता है, जो दस्तावेज़ समझ, OCR, विस्तार पहचान आदि कार्यों को सीधे प्रभावित करती है
कुशल RoI पहचान MLLMs के व्यावहारिक अनुप्रयोग के लिए महत्वपूर्ण है
कम्प्यूटेशनल दक्षता समस्या को हल करना MLLMs के बड़े पैमाने पर तैनाती में सहायता करता है

मौजूदा तरीकों की सीमाएं

प्रशिक्षण तरीके (जैसे VILA-HD): बड़े पैमाने पर प्रीट्रेनिंग और विस्तृत एनोटेशन की आवश्यकता होती है, डेटा-गहन और कम्प्यूटेशनल रूप से महंगे
प्रशिक्षण-मुक्त तरीके (जैसे ViCrop):
- जटिल बहु-प्रीफिल संचालन की आवश्यकता होती है
- धीमी स्वचालित-प्रतिगामी डिकोडिंग चरण पर निर्भर करते हैं
- सीधे शोर वाले ध्यान मानचित्रों का उपयोग करते हैं, सटीकता सीमित है

मुख्य योगदान

SD-RPN फ्रेमवर्क प्रस्तावित करना: एक कुशल, एनोटेशन-मुक्त स्व-आसवित क्षेत्र प्रस्ताव नेटवर्क जो प्रशिक्षण तरीकों और प्रशिक्षण-मुक्त तरीकों के बीच व्यापार-बंद को हल करता है
छद्म लेबल पीढ़ी पाइपलाइन डिजाइन करना: शोर वाले ध्यान मानचित्रों को उच्च-गुणवत्ता वाले पर्यवेक्षण संकेतों में परिवर्तित करना, जिसमें डीनोइजिंग और लेबल असाइनमेंट रणनीति शामिल है
कुशल RoI भविष्यवाणी को लागू करना: हल्के वजन वाला RPN एकल आगे प्रसार में RoI की भविष्यवाणी करता है, कई संचालन और स्वचालित-प्रतिगामी निर्भरता से बचता है
व्यापक प्रयोज्यता को सत्यापित करना: कई MLLM परिवारों पर सत्यापित, केवल 10K नमूनों के साथ प्रशिक्षण कई बेंचमार्क पर 10% से अधिक की पूर्ण सटीकता में सुधार प्राप्त करता है
सैद्धांतिक विश्लेषण प्रदान करना: सैद्धांतिक दृष्टिकोण से समझाता है कि RoI लेबल की भविष्यवाणी करना कच्चे ध्यान मानचित्रों का सीधे उपयोग करने से बेहतर क्यों है

विधि विवरण

कार्य परिभाषा

दिए गए छवि-पाठ जोड़े (xv, xt) को देखते हुए, लक्ष्य है:

छवि में पाठ से संबंधित रुचि के क्षेत्रों को कुशलतापूर्वक पहचानना
सूक्ष्म-दानेदार धारणा को बढ़ाने के लिए पहचाने गए RoI को उच्च-रिज़ॉल्यूशन में संसाधित करना
सटीक पाठ प्रतिक्रिया उत्पन्न करना

मॉडल आर्किटेक्चर

1. समग्र फ्रेमवर्क

SD-RPN दो-चरण प्रशिक्षण और अनुमान प्रवाह को अपनाता है:

प्रशिक्षण चरण: पूर्ण MLLM का उपयोग करके छद्म लेबल उत्पन्न करना, हल्के वजन वाले RPN को प्रशिक्षित करना
अनुमान चरण: RPN RoI की भविष्यवाणी करता है, RoI क्षेत्रों को उच्च-रिज़ॉल्यूशन में संसाधित करता है

2. छद्म लेबल पीढ़ी पाइपलाइन

चरण 1: ध्यान मानचित्र निष्कर्षण MLLM के मध्य-परत से प्रतिक्रिया-छवि ध्यान निकालना:

M^l_RoI = Σ(i=1 to Nt) A^l_i / Nt
A = softmax(Q^l_t(K^l_v)^T / √d)

चरण 2: डूबे हुए टोकन को हटाना विशेषता मानदंड के आधार पर डूबे हुए टोकन की पहचान करना और हटाना:

(M'_RoI)_j = {
    0 if ||(H_v)_j||_2 > τ_norm
    (M_RoI)_j otherwise
}

चरण 3: लेबल असाइनमेंट चयनात्मक बाइनरी वर्गीकरण रणनीति को अपनाना:

(M̃_RoI)_j = {
    1 if token j ∈ S_fg,
    0 if token j ∈ S_bg,
    -1 otherwise (ignored)
}

जहां अग्रभाग सेट S_fg = {j | a_j ≥ τ_fg * a_max}, पृष्ठभूमि सेट S_bg = {j | j ∉ B_fg and a_j ≤ τ_bg * a_max}

3. RPN आर्किटेक्चर डिजाइन

नेटवर्क संरचना:

जमे हुए MLLM के पहले B परतों पर आधारित
R प्रशिक्षणीय ट्रांसफॉर्मर ब्लॉक जोड़ना
पूर्व-प्रशिक्षित MLLM की B से B+R परतों से वजन को आरंभ करना

RoI भविष्यवाणी प्रक्रिया:

क्वेरी वेक्टर निकालना: H_RoI = concat(H_u^(1)-1, ..., H_u^(n)-1)
ध्यान की गणना करना: Q_RoI = LP_q(Norm(H_RoI)), K_v = LP_k(Norm(H_v))
RoI मानचित्र उत्पन्न करना: M̂_RoI = Q_RoI * K_v^T

प्रशिक्षण हानि: L_BCE(M̂_RoI, M̃_RoI), केवल गैर-अनदेखे क्षेत्रों में हानि की गणना करना

4. दो-चरण अनुमान

चरण 1: RoI भविष्यवाणी

RPN मध्य-परत तक आंशिक आगे प्रसार निष्पादित करता है
घनी RoI मानचित्र उत्पन्न करता है और बाइनरी मास्क में पोस्ट-प्रोसेस करता है

चरण 2: उच्च-रिज़ॉल्यूशन प्रसंस्करण दो अपसैंपलिंग रणनीतियां प्रदान करता है:

बॉक्स अपस्केलिंग: प्रत्येक जुड़े क्षेत्र को स्वतंत्र रूप से संसाधित करना
मास्क्ड अपस्केलिंग: सभी अग्रभाग क्षेत्रों को एकीकृत रूप से संसाधित करना

तकनीकी नवाचार बिंदु

स्व-आसवन डिजाइन: मॉडल द्वारा स्वयं उत्पन्न प्रतिक्रिया का उपयोग करके ध्यान को निर्देशित करना, वितरण बदलाव से बचना
शोर प्रसंस्करण रणनीति: डूबे हुए टोकन और अधूरी सक्रियता समस्याओं को व्यवस्थित रूप से हल करना
चयनात्मक पर्यवेक्षण: अस्पष्ट क्षेत्रों को अनदेखा करना, केवल उच्च आत्मविश्वास क्षेत्रों में पर्यवेक्षण करना
दक्षता अनुकूलन: RPN को केवल आंशिक आगे प्रसार की आवश्यकता होती है, स्वचालित-प्रतिगामी पीढ़ी से अलग

प्रयोगात्मक सेटअप

डेटासेट

प्रशिक्षण डेटा:

GQA (72K नमूने): प्राकृतिक दृश्य छवियां
OCR-VQA (80K नमूने): पाठ-समृद्ध छवियां
कुल 152K नमूने प्रशिक्षण के लिए

मूल्यांकन बेंचमार्क:

दस्तावेज़ और OCR वर्ग: DocVQA, ChartQA, OCRBench, InfoVQA, TextVQA
दृश्य-केंद्रित और उच्च-रिज़ॉल्यूशन वर्ग: V-Star Bench, POPE, HR-Bench

मूल्यांकन मेट्रिक्स

सटीकता (Accuracy)
F1 स्कोर (POPE बेंचमार्क)
थ्रूपुट (बेसलाइन के सापेक्ष गुणा)

तुलना विधियां

मुख्य बेसलाइन:

S2: पूर्ण ट्यूनिंग विधि
ViCrop: प्रशिक्षण-मुक्त क्रॉपिंग बेसलाइन
DeepEyes: सुदृढ़ीकरण सीखने पर आधारित विधि

एकीकृत मॉडल:

LLaVA-1.5 (7B/13B)
DeepSeek-VL (1.3B/7B)
Qwen2.5-VL (3B/7B)

कार्यान्वयन विवरण

ऑप्टिमाइज़र: AdamW, सीखने की दर 5e-5
बैच आकार: 128
प्रशिक्षण एपोक: 1
थ्रेशहोल्ड सेटिंग: τ_fg=0.2, τ_bg=0.1
हार्डवेयर: 4×NVIDIA A6000 GPU

प्रयोगात्मक परिणाम

मुख्य परिणाम

दस्तावेज़ और OCR बेंचमार्क प्रदर्शन

LLaVA-1.5-7B पर परिणाम:

DocVQA: 21.5% → 33.9% (+12.4%)
TextVQA: 46.1% → 58.7% (+12.6%)
औसत सुधार: 6.8%
थ्रूपुट: 0.62× (बेसलाइन की तुलना में)

दृश्य-केंद्रित बेंचमार्क प्रदर्शन

V-Star Bench: 50.3% → 67.5% (+17.2%)
HR-Bench 4K: 37.5% → 48.0% (+10.5%)
POPE F1: 85.9% → 87.1% (+1.2%)

क्रॉस-मॉडल सामान्यीकरण

सभी परीक्षित MLLM परिवार सुसंगत प्रदर्शन सुधार दिखाते हैं:

DeepSeek-VL श्रृंखला: औसत सुधार 6.6%-7.6%
Qwen2.5-VL श्रृंखला: औसत सुधार 2.7%-3.0%

विलोपन प्रयोग

मुख्य घटक विश्लेषण

कच्चे ध्यान का सीधा उपयोग: औसत सुधार 3.8%
ध्यान भविष्यवाणी: औसत सुधार 5.3%
+लेबल असाइनमेंट: औसत सुधार 7.9%
+डूबे हुए टोकन को हटाना: औसत सुधार 9.0%
+मास्क्ड अपसैंपलिंग: औसत सुधार 9.2%

बैकबोन नेटवर्क परत संख्या प्रभाव

B3R3: औसत सुधार 3.1%
B15R3: औसत सुधार 9.2% (इष्टतम)
B18R3: औसत सुधार 8.3%

डेटा दक्षता विश्लेषण

10K नमूने: औसत सुधार 7.2%
152K नमूने: औसत सुधार 9.2%
GT प्रतिक्रिया का उपयोग करना: औसत सुधार 7.3% (स्व-उत्पन्न प्रतिक्रिया से कम)

दक्षता विश्लेषण

प्रदर्शन-थ्रूपुट व्यापार-बंद विश्लेषण दिखाता है कि SD-RPN विभिन्न दृश्य टोकन संख्या सेटिंग्स के तहत सरल रिज़ॉल्यूशन स्केलिंग विधि से बेहतर है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

व्यापार-बंद समस्या को प्रभावी ढंग से हल करना: SD-RPN बड़े पैमाने पर एनोटेट किए गए डेटा की आवश्यकता के बिना प्रदर्शन और दक्षता को सफलतापूर्वक संतुलित करता है
मजबूत सामान्यीकरण क्षमता: कई MLLM आर्किटेक्चर पर उत्कृष्ट प्रदर्शन
उच्च डेटा दक्षता: केवल 10K नमूनों के साथ महत्वपूर्ण सुधार प्राप्त करता है
सैद्धांतिक समर्थन: RoI भविष्यवाणी सीखने के लिए सैद्धांतिक व्याख्या प्रदान करता है जो सीधे ध्यान का उपयोग करने से बेहतर है

सीमाएं

कम्प्यूटेशनल ओवरहेड: दो-चरण अनुमान अभी भी अतिरिक्त कम्प्यूटेशनल लागत लाता है
हाइपरपैरामीटर संवेदनशीलता: विभिन्न मॉडलों के लिए परत चयन और थ्रेशहोल्ड को समायोजित करने की आवश्यकता होती है
प्रयोज्यता सीमाएं: मुख्य रूप से सूक्ष्म-दानेदार दृश्य धारणा की आवश्यकता वाले कार्यों के लिए उपयुक्त है

भविष्य की दिशाएं

अनुकूली टोकन असाइनमेंट: दृश्य टोकन संख्या को गतिशील रूप से समायोजित करना
वीडियो और दस्तावेज़ समझ: व्यापक बहुविध अनुप्रयोगों तक विस्तार करना
अंत-से-अंत अनुकूलन: अनुमान चरण की कम्प्यूटेशनल लागत को और कम करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: नई स्व-आसवन फ्रेमवर्क प्रस्तावित करता है, मौजूदा तरीकों के व्यापार-बंद को चतुराई से हल करता है
ठोस तकनीक: छद्म लेबल पीढ़ी पाइपलाइन उचित रूप से डिजाइन की गई है, ध्यान मानचित्रों की शोर समस्या को प्रभावी ढंग से हल करती है
व्यापक प्रयोग: कई मॉडलों, कई बेंचमार्क पर व्यापक सत्यापन, विस्तृत विलोपन प्रयोग सहित
सैद्धांतिक समर्थन: विधि की प्रभावशीलता को समझाने के लिए सैद्धांतिक विश्लेषण प्रदान करता है
उच्च व्यावहारिक मूल्य: विधि सरल और कार्यान्वयन में आसान है, कम डेटा आवश्यकता है, व्यावहारिक अनुप्रयोग के लिए उपयुक्त है

कमियां

दक्षता व्यापार-बंद: हालांकि मौजूदा तरीकों की तुलना में अधिक कुशल है, दो-चरण अनुमान अभी भी ओवरहेड है
हाइपरपैरामीटर निर्भरता: विभिन्न मॉडल आर्किटेक्चर के लिए मैनुअल पैरामीटर समायोजन की आवश्यकता होती है
मूल्यांकन सीमाएं: मुख्य रूप से अंग्रेजी बेंचमार्क पर मूल्यांकन, बहुभाषी सत्यापन की कमी
सैद्धांतिक विश्लेषण गहराई: हालांकि सैद्धांतिक व्याख्या प्रदान करता है, अभिसरण आदि गुणों का गहन विश्लेषण कर सकता है

प्रभाव

शैक्षणिक योगदान: MLLMs की कुशल दृश्य धारणा के लिए नई सोच प्रदान करता है
व्यावहारिक मूल्य: विधि सरल और प्रभावी है, मौजूदा सिस्टम में एकीकृत करने में आसान है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और ओपन-सोर्स कोड प्रदान करता है

प्रयोज्य परिदृश्य

दस्तावेज़ समझ: OCR, तालिका विश्लेषण, चार्ट समझ आदि
सूक्ष्म-दानेदार दृश्य प्रश्न उत्तर: छोटी वस्तुओं या पाठ की पहचान की आवश्यकता वाले VQA कार्य
बहुविध पुनः प्राप्ति: दृश्य विवरण के आधार पर छवि पुनः प्राप्ति और मिलान
औद्योगिक अनुप्रयोग: स्वचालित दस्तावेज़ प्रसंस्करण, गुणवत्ता पहचान आदि परिदृश्य

संदर्भ

पेपर बड़ी संख्या में संबंधित कार्यों का हवाला देता है, मुख्य रूप से:

LLaVA श्रृंखला बहुविध बड़े भाषा मॉडल
CLIP आदि दृश्य-भाषा प्रीट्रेनिंग मॉडल
ज्ञान आसवन और स्व-आसवन संबंधित अनुसंधान
दृश्य ध्यान तंत्र और क्षेत्र प्रस्ताव नेटवर्क अनुसंधान

समग्र मूल्यांकन: यह कंप्यूटर दृष्टि का एक उच्च-गुणवत्ता वाला पेपर है, जो MLLMs की सूक्ष्म-दानेदार धारणा की दक्षता समस्या को हल करने के लिए नई SD-RPN फ्रेमवर्क प्रस्तावित करता है। विधि डिजाइन उचित है, प्रयोगात्मक सत्यापन व्यापक है, व्यावहारिक मूल्य और शैक्षणिक योगदान बहुत मजबूत है। पेपर तकनीकी नवाचार, प्रयोगात्मक डिजाइन और परिणाम विश्लेषण के सभी पहलुओं में उत्कृष्ट प्रदर्शन करता है, यह MLLMs दृश्य धारणा क्षेत्र में महत्वपूर्ण प्रगति है।