2025-11-24T04:40:17.767584

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Shi, Pei, Dong et al.

Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.

academic

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Grundinformationen

Papier-ID: 2509.16944
Titel: Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
Autoren: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
Klassifizierung: cs.CV
Veröffentlichungszeitpunkt/Konferenz: Preprint. Zur Begutachtung eingereicht.
Papierlink: https://arxiv.org/abs/2509.16944
Codelink: https://github.com/YuHengsss/SD-RPN

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) benötigen hochauflösende visuelle Informationen zur Durchführung feingranularer Wahrnehmungsaufgaben, doch die Verarbeitung vollständiger hochauflösender Bilder ist rechnerisch prohibitiv. Obwohl neuere Methoden Mechanismen für Interessensbereiche (RoI) nutzen, um sich auf hervorragende Regionen zu konzentrieren, stehen sie typischerweise vor schwierigen Kompromissen: trainingsbasierte Methoden sind auf großflächig annotierte Datensätze angewiesen, während trainingsfreie Methoden, die interne Aufmerksamkeit nutzen, rechnerisch ineffizient sind und schlechtere Genauigkeit aufweisen, da sie mehrere Vorausfüll-Phasen oder langsame autoregressives Dekodieren erfordern. Dieses Papier schlägt ein effizientes, annotationsfreies selbstdestilliertes Regionenvorschlagsnetzwerk (SD-RPN) vor, um diesen Kompromiss zu lösen. SD-RPN basiert auf einer Pipeline, die verrauschte Aufmerksamkeitskarten aus mittleren Schichten von MLLMs durch explizite Entrauschungssignale und Mehrdeutigkeitsauflösung in hochwertige Pseudo-RoI-Labels umwandelt. Wir verwenden diese Labels zum Trainieren eines leichtgewichtigen Regionenvorschlagsnetzwerks (RPN), das präzisere Lokalisierung erlernt. Dieses RPN ist hocheffizient und sagt RoIs in einem einzigen Vorwärtsdurchgang unter Verwendung von Merkmalen aus mittleren Schichten des MLLM voraus, entkoppelt die RoI-Erkennung vom autoregressiven Generieren und vermeidet teure mehrfache Operationen.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: MLLMs stehen beim Verarbeiten von Aufgaben, die feingranulare visuelle Wahrnehmung erfordern, vor einem Kompromiss zwischen Recheneffizienz und Leistung
Spezifische Herausforderungen:
- Die Verarbeitung vollständiger hochauflösender Bilder ist rechnerisch zu kostspielig
- Bestehende RoI-Methoden haben Einschränkungen: Trainingsmethoden benötigen umfangreiche annotierte Daten, trainingsfreie Methoden sind ineffizient und haben schlechtere Genauigkeit
- Erfordern mehrfache Vorwärtsdurchgänge oder sind auf langsames autoregressives Dekodieren angewiesen

Bedeutung

Feingranulare visuelle Wahrnehmung ist eine Kernfähigkeit von MLLMs und beeinflusst direkt Dokumentverständnis, OCR, Detailerkennung und andere Aufgaben
Effiziente RoI-Erkennung ist für praktische Anwendungen von MLLMs entscheidend
Die Lösung von Rechnereffizienzproblemen trägt zur großflächigen Bereitstellung von MLLMs bei

Einschränkungen bestehender Methoden

Trainingsmethoden (z.B. VILA-HD): Benötigen großflächiges Vortraining und detaillierte Annotationen, sind datenintensiv und rechnerisch teuer
Trainingsfreie Methoden (z.B. ViCrop):
- Erfordern komplexe mehrfache Vorausfüll-Operationen
- Sind auf langsame autoregressives Dekodieren angewiesen
- Nutzen direkt verrauschte Aufmerksamkeitskarten mit begrenzter Genauigkeit

Kernbeiträge

Vorschlag des SD-RPN-Rahmens: Ein effizienter, annotationsfreier selbstdestillierter Regionenvorschlagsnetzwerk-Rahmen, der den Kompromiss zwischen Trainings- und trainingsfreien Methoden löst
Entwurf einer Pseudo-Label-Generierungs-Pipeline: Wandelt verrauschte Aufmerksamkeitskarten in hochwertige Überwachungssignale um, einschließlich Entrauschungs- und Label-Zuweisungsstrategien
Implementierung effizienter RoI-Vorhersage: Leichtgewichtiges RPN sagt RoIs in einem einzigen Vorwärtsdurchgang voraus und vermeidet mehrfache Operationen und autoregressives Dekodieren
Validierung breiter Anwendbarkeit: Validierung über mehrere MLLM-Familien hinweg, mit nur 10K Trainingsproben werden über 10% absolute Genauigkeitsverbesserungen über mehrere Benchmarks erreicht
Bereitstellung theoretischer Analyse: Erklärt aus theoretischer Perspektive, warum das Erlernen von RoI-Label-Vorhersagen besser ist als die direkte Verwendung von Rohaufmerksamkeitskarten

Methodische Details

Aufgabendefinition

Gegeben Bild-Text-Paare (xv, xt), besteht das Ziel darin:

Effizient Interessensbereiche im Bild zu identifizieren, die mit dem Text relevant sind
Die identifizierten RoIs hochauflösend zu verarbeiten, um die feingranulare Wahrnehmung zu verbessern
Genaue Textantworten zu generieren

Modellarchitektur

1. Gesamter Rahmen

SD-RPN verwendet einen zweistufigen Trainings- und Inferenzprozess:

Trainingsphase: Verwendet vollständiges MLLM zur Generierung von Pseudo-Labels, trainiert leichtgewichtiges RPN
Inferenzphase: RPN sagt RoIs voraus, verarbeitet RoI-Regionen hochauflösend

2. Pseudo-Label-Generierungs-Pipeline

Schritt 1: Aufmerksamkeitskarten-Extraktion Extrahiert Antwort-Bild-Aufmerksamkeit aus mittleren Schichten des MLLM:

M^l_RoI = Σ(i=1 to Nt) A^l_i / Nt
A = softmax(Q^l_t(K^l_v)^T / √d)

Schritt 2: Entfernung von Sink-Token Identifiziert und entfernt Sink-Token basierend auf Merkmalsnorm:

(M'_RoI)_j = {
    0 if ||(H_v)_j||_2 > τ_norm
    (M_RoI)_j otherwise
}

Schritt 3: Label-Zuweisung Verwendet selektive binäre Klassifizierungsstrategie:

(M̃_RoI)_j = {
    1 if token j ∈ S_fg,
    0 if token j ∈ S_bg,
    -1 otherwise (ignored)
}

wobei die Vordergrund-Menge S_fg = {j | a_j ≥ τ_fg * a_max} und die Hintergrund-Menge S_bg = {j | j ∉ B_fg and a_j ≤ τ_bg * a_max}

3. RPN-Architektur-Design

Netzwerkstruktur:

Basiert auf gefrorenen ersten B Schichten des MLLM als Backbone-Netzwerk
Fügt R trainierbare Transformer-Blöcke hinzu
Gewichte werden aus vortrainierten MLLM-Schichten B bis B+R initialisiert

RoI-Vorhersageprozess:

Extrahiert Abfrage-Vektoren: H_RoI = concat(H_u^(1)-1, ..., H_u^(n)-1)
Berechnet Aufmerksamkeit: Q_RoI = LP_q(Norm(H_RoI)), K_v = LP_k(Norm(H_v))
Generiert RoI-Karte: M̂_RoI = Q_RoI * K_v^T

Trainings-Verlustfunktion: L_BCE(M̂_RoI, M̃_RoI), Verlust wird nur in nicht ignorierten Regionen berechnet

4. Zweistufige Inferenz

Stufe 1: RoI-Vorhersage

RPN führt partiellen Vorwärtsdurchgang bis zur mittleren Schicht durch
Generiert dichte RoI-Karte und verarbeitet sie nach zu binärer Maske

Stufe 2: Hochauflösende Verarbeitung Bietet zwei Hochskalierungs-Strategien:

Box Upscaling: Verarbeitet jede verbundene Region unabhängig
Masked Upscaling: Verarbeitet alle Vordergrund-Regionen einheitlich

Technische Innovationen

Selbstdestillierungs-Design: Nutzt vom Modell selbst generierte Antworten zur Anleitung der Aufmerksamkeit, vermeidet Verteilungsversatz
Entrauschungs-Strategie: Systematische Behandlung von Sink-Token und unvollständigen Aktivierungsproblemen
Selektive Überwachung: Ignoriert mehrdeutige Regionen, überwacht nur hochvertrauenswürdige Regionen
Effizienz-Optimierung: RPN benötigt nur partiellen Vorwärtsdurchgang, entkoppelt von autoregressivem Generieren

Experimentelle Einrichtung

Datensätze

Trainingsdaten:

GQA (72K Proben): Bilder natürlicher Szenen
OCR-VQA (80K Proben): Textreiche Bilder
Insgesamt 152K Proben zum Trainieren

Evaluierungs-Benchmarks:

Dokument- und OCR-Klasse: DocVQA, ChartQA, OCRBench, InfoVQA, TextVQA
Visuell-zentrierte und hochauflösende Klasse: V-Star Bench, POPE, HR-Bench

Bewertungsmetriken

Genauigkeit (Accuracy)
F1-Score (POPE-Benchmark)
Durchsatz (Vielfaches der Baseline)

Vergleichsmethoden

Hauptbaselines:

S2: Vollständige Feinabstimmungsmethode
ViCrop: Trainingsfreie Zuschnitt-Baseline
DeepEyes: Verstärkungslernbasierte Methode

Integrierte Modelle:

LLaVA-1.5 (7B/13B)
DeepSeek-VL (1.3B/7B)
Qwen2.5-VL (3B/7B)

Implementierungsdetails

Optimierer: AdamW, Lernrate 5e-5
Batch-Größe: 128
Trainings-Epochen: 1
Schwellenwert-Einstellungen: τ_fg=0.2, τ_bg=0.1
Hardware: 4×NVIDIA A6000 GPU

Experimentelle Ergebnisse

Hauptergebnisse

Dokument- und OCR-Benchmark-Leistung

Ergebnisse auf LLaVA-1.5-7B:

DocVQA: 21.5% → 33.9% (+12.4%)
TextVQA: 46.1% → 58.7% (+12.6%)
Durchschnittliche Verbesserung: 6.8%
Durchsatz: 0.62× (im Vergleich zur Baseline)

Visuell-zentrierte Benchmark-Leistung

V-Star Bench: 50.3% → 67.5% (+17.2%)
HR-Bench 4K: 37.5% → 48.0% (+10.5%)
POPE F1: 85.9% → 87.1% (+1.2%)

Modellübergreifende Verallgemeinerung

Alle getesteten MLLM-Familien zeigen konsistente Leistungsverbesserungen:

DeepSeek-VL-Serie: Durchschnittliche Verbesserung 6.6%-7.6%
Qwen2.5-VL-Serie: Durchschnittliche Verbesserung 2.7%-3.0%

Ablationsstudien

Analyse kritischer Komponenten

Direkte Verwendung von Rohaufmerksamkeit: Durchschnittliche Verbesserung 3.8%
Aufmerksamkeits-Vorhersage: Durchschnittliche Verbesserung 5.3%
+ Label-Zuweisung: Durchschnittliche Verbesserung 7.9%
+ Entfernung von Sink-Token: Durchschnittliche Verbesserung 9.0%
+ Masken-Hochskalierung: Durchschnittliche Verbesserung 9.2%

Einfluss der Backbone-Netzwerk-Schichtenzahl

B3R3: Durchschnittliche Verbesserung 3.1%
B15R3: Durchschnittliche Verbesserung 9.2% (optimal)
B18R3: Durchschnittliche Verbesserung 8.3%

Dateneffizienz-Analyse

10K Proben: Durchschnittliche Verbesserung 7.2%
152K Proben: Durchschnittliche Verbesserung 9.2%
Verwendung von Ground-Truth-Antworten: Durchschnittliche Verbesserung 7.3% (niedriger als selbstgenerierte Antworten)

Effizienz-Analyse

Die Analyse des Leistungs-Durchsatz-Kompromisses zeigt, dass SD-RPN bei verschiedenen visuellen Token-Zahlen-Einstellungen besser ist als einfache Auflösungs-Skalierungsmethoden.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Effektive Lösung des Kompromisses: SD-RPN balanciert erfolgreich Leistung und Effizienz aus, ohne großflächig annotierte Daten zu benötigen
Starke Verallgemeinerungsfähigkeit: Zeigt hervorragende Leistung über mehrere MLLM-Architekturen hinweg
Hohe Dateneffizienz: Erreicht signifikante Verbesserungen mit nur 10K Proben
Theoretische Unterstützung: Bietet theoretische Erklärung, warum RoI-Vorhersage-Lernen besser ist als direkte Aufmerksamkeitsnutzung

Einschränkungen

Rechnerischer Overhead: Zweistufige Inferenz bringt immer noch zusätzliche Rechenkosten mit sich
Hyperparameter-Empfindlichkeit: Erfordert Anpassung der Schichtauswahl und Schwellenwerte für verschiedene Modelle
Begrenzte Anwendungsszenarien: Hauptsächlich für Aufgaben geeignet, die feingranulare visuelle Wahrnehmung erfordern

Zukünftige Richtungen

Adaptive Token-Zuweisung: Dynamische Anpassung der Anzahl visueller Token
Video- und Dokumentverständnis: Erweiterung auf breitere multimodale Anwendungen
End-to-End-Optimierung: Weitere Reduzierung des Rechenaufwands in der Inferenzphase

Tiefgreifende Bewertung

Stärken

Starke Innovation: Schlägt einen neuartigen Selbstdestillierungs-Rahmen vor, der den Kompromiss bestehender Methoden geschickt löst
Solide Technik: Pseudo-Label-Generierungs-Pipeline ist gut durchdacht und behandelt Rauschen in Aufmerksamkeitskarten effektiv
Umfassende Experimente: Umfassende Validierung über mehrere Modelle und Benchmarks mit detaillierten Ablationsstudien
Theoretische Unterstützung: Bietet theoretische Analyse zur Erklärung der Methodeneffektivität
Hoher praktischer Wert: Methode ist einfach zu implementieren, hat geringe Datenanforderungen und ist für praktische Anwendungen geeignet

Schwächen

Effizienz-Kompromiss: Obwohl effizienter als bestehende Methoden, bringt zweistufige Inferenz immer noch Overhead mit sich
Hyperparameter-Abhängigkeit: Erfordert manuelle Parameteranpassung für verschiedene Modellarchitekturen
Evaluierungs-Einschränkungen: Hauptsächlich auf englischen Benchmarks evaluiert, fehlt mehrsprachige Validierung
Tiefe der theoretischen Analyse: Obwohl theoretische Erklärung vorhanden ist, könnte die Analyse von Konvergenz-Eigenschaften tiefer sein

Einfluss

Akademischer Beitrag: Bietet neue Perspektiven für effiziente visuelle Wahrnehmung in MLLMs
Praktischer Wert: Methode ist einfach und effektiv, leicht in bestehende Systeme integrierbar
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Code

Anwendungsszenarien

Dokumentverständnis: OCR, Tabellenanalyse, Diagrammverständnis usw.
Feingranulare visuelle Fragen-Beantwortung: VQA-Aufgaben, die Erkennung kleiner Objekte oder Text erfordern
Multimodale Retrieval: Bild-Retrieval und Matching basierend auf visuellen Details
Industrielle Anwendungen: Automatisierte Dokumentenverarbeitung, Qualitätskontrolle usw.

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

LLaVA-Serie multimodaler großer Sprachmodelle
CLIP und andere visuell-sprachliche Vortrainingsmodelle
Wissens-Destillierungs- und Selbstdestillierungs-Forschung
Visuelle Aufmerksamkeitsmechanismen und Regionenvorschlagsnetzwerk-Forschung

Gesamtbewertung: Dies ist ein hochqualitatives Computervisions-Papier, das einen innovativen SD-RPN-Rahmen zur Lösung des Effizienzproblems bei feingranularer Wahrnehmung von MLLMs vorschlägt. Die Methode ist gut durchdacht, die experimentelle Validierung ist umfassend und hat großen praktischen Wert. Das Papier zeigt hervorragende Leistung in technischer Innovation, Experimentdesign und Ergebnisanalyse und stellt einen wichtigen Fortschritt im Bereich der visuellen Wahrnehmung von MLLMs dar.