2025-11-24T04:40:17.767584

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Shi, Pei, Dong et al.
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
academic

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Grundinformationen

  • Papier-ID: 2509.16944
  • Titel: Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
  • Autoren: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
  • Klassifizierung: cs.CV
  • Veröffentlichungszeitpunkt/Konferenz: Preprint. Zur Begutachtung eingereicht.
  • Papierlink: https://arxiv.org/abs/2509.16944
  • Codelink: https://github.com/YuHengsss/SD-RPN

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) benötigen hochauflösende visuelle Informationen zur Durchführung feingranularer Wahrnehmungsaufgaben, doch die Verarbeitung vollständiger hochauflösender Bilder ist rechnerisch prohibitiv. Obwohl neuere Methoden Mechanismen für Interessensbereiche (RoI) nutzen, um sich auf hervorragende Regionen zu konzentrieren, stehen sie typischerweise vor schwierigen Kompromissen: trainingsbasierte Methoden sind auf großflächig annotierte Datensätze angewiesen, während trainingsfreie Methoden, die interne Aufmerksamkeit nutzen, rechnerisch ineffizient sind und schlechtere Genauigkeit aufweisen, da sie mehrere Vorausfüll-Phasen oder langsame autoregressives Dekodieren erfordern. Dieses Papier schlägt ein effizientes, annotationsfreies selbstdestilliertes Regionenvorschlagsnetzwerk (SD-RPN) vor, um diesen Kompromiss zu lösen. SD-RPN basiert auf einer Pipeline, die verrauschte Aufmerksamkeitskarten aus mittleren Schichten von MLLMs durch explizite Entrauschungssignale und Mehrdeutigkeitsauflösung in hochwertige Pseudo-RoI-Labels umwandelt. Wir verwenden diese Labels zum Trainieren eines leichtgewichtigen Regionenvorschlagsnetzwerks (RPN), das präzisere Lokalisierung erlernt. Dieses RPN ist hocheffizient und sagt RoIs in einem einzigen Vorwärtsdurchgang unter Verwendung von Merkmalen aus mittleren Schichten des MLLM voraus, entkoppelt die RoI-Erkennung vom autoregressiven Generieren und vermeidet teure mehrfache Operationen.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: MLLMs stehen beim Verarbeiten von Aufgaben, die feingranulare visuelle Wahrnehmung erfordern, vor einem Kompromiss zwischen Recheneffizienz und Leistung
  2. Spezifische Herausforderungen:
    • Die Verarbeitung vollständiger hochauflösender Bilder ist rechnerisch zu kostspielig
    • Bestehende RoI-Methoden haben Einschränkungen: Trainingsmethoden benötigen umfangreiche annotierte Daten, trainingsfreie Methoden sind ineffizient und haben schlechtere Genauigkeit
    • Erfordern mehrfache Vorwärtsdurchgänge oder sind auf langsames autoregressives Dekodieren angewiesen

Bedeutung

  • Feingranulare visuelle Wahrnehmung ist eine Kernfähigkeit von MLLMs und beeinflusst direkt Dokumentverständnis, OCR, Detailerkennung und andere Aufgaben
  • Effiziente RoI-Erkennung ist für praktische Anwendungen von MLLMs entscheidend
  • Die Lösung von Rechnereffizienzproblemen trägt zur großflächigen Bereitstellung von MLLMs bei

Einschränkungen bestehender Methoden

  1. Trainingsmethoden (z.B. VILA-HD): Benötigen großflächiges Vortraining und detaillierte Annotationen, sind datenintensiv und rechnerisch teuer
  2. Trainingsfreie Methoden (z.B. ViCrop):
    • Erfordern komplexe mehrfache Vorausfüll-Operationen
    • Sind auf langsame autoregressives Dekodieren angewiesen
    • Nutzen direkt verrauschte Aufmerksamkeitskarten mit begrenzter Genauigkeit

Kernbeiträge

  1. Vorschlag des SD-RPN-Rahmens: Ein effizienter, annotationsfreier selbstdestillierter Regionenvorschlagsnetzwerk-Rahmen, der den Kompromiss zwischen Trainings- und trainingsfreien Methoden löst
  2. Entwurf einer Pseudo-Label-Generierungs-Pipeline: Wandelt verrauschte Aufmerksamkeitskarten in hochwertige Überwachungssignale um, einschließlich Entrauschungs- und Label-Zuweisungsstrategien
  3. Implementierung effizienter RoI-Vorhersage: Leichtgewichtiges RPN sagt RoIs in einem einzigen Vorwärtsdurchgang voraus und vermeidet mehrfache Operationen und autoregressives Dekodieren
  4. Validierung breiter Anwendbarkeit: Validierung über mehrere MLLM-Familien hinweg, mit nur 10K Trainingsproben werden über 10% absolute Genauigkeitsverbesserungen über mehrere Benchmarks erreicht
  5. Bereitstellung theoretischer Analyse: Erklärt aus theoretischer Perspektive, warum das Erlernen von RoI-Label-Vorhersagen besser ist als die direkte Verwendung von Rohaufmerksamkeitskarten

Methodische Details

Aufgabendefinition

Gegeben Bild-Text-Paare (xv, xt), besteht das Ziel darin:

  1. Effizient Interessensbereiche im Bild zu identifizieren, die mit dem Text relevant sind
  2. Die identifizierten RoIs hochauflösend zu verarbeiten, um die feingranulare Wahrnehmung zu verbessern
  3. Genaue Textantworten zu generieren

Modellarchitektur

1. Gesamter Rahmen

SD-RPN verwendet einen zweistufigen Trainings- und Inferenzprozess:

  • Trainingsphase: Verwendet vollständiges MLLM zur Generierung von Pseudo-Labels, trainiert leichtgewichtiges RPN
  • Inferenzphase: RPN sagt RoIs voraus, verarbeitet RoI-Regionen hochauflösend

2. Pseudo-Label-Generierungs-Pipeline

Schritt 1: Aufmerksamkeitskarten-Extraktion Extrahiert Antwort-Bild-Aufmerksamkeit aus mittleren Schichten des MLLM:

M^l_RoI = Σ(i=1 to Nt) A^l_i / Nt
A = softmax(Q^l_t(K^l_v)^T / √d)

Schritt 2: Entfernung von Sink-Token Identifiziert und entfernt Sink-Token basierend auf Merkmalsnorm:

(M'_RoI)_j = {
    0 if ||(H_v)_j||_2 > τ_norm
    (M_RoI)_j otherwise
}

Schritt 3: Label-Zuweisung Verwendet selektive binäre Klassifizierungsstrategie:

(M̃_RoI)_j = {
    1 if token j ∈ S_fg,
    0 if token j ∈ S_bg,
    -1 otherwise (ignored)
}

wobei die Vordergrund-Menge S_fg = {j | a_j ≥ τ_fg * a_max} und die Hintergrund-Menge S_bg = {j | j ∉ B_fg and a_j ≤ τ_bg * a_max}

3. RPN-Architektur-Design

Netzwerkstruktur:

  • Basiert auf gefrorenen ersten B Schichten des MLLM als Backbone-Netzwerk
  • Fügt R trainierbare Transformer-Blöcke hinzu
  • Gewichte werden aus vortrainierten MLLM-Schichten B bis B+R initialisiert

RoI-Vorhersageprozess:

  1. Extrahiert Abfrage-Vektoren: H_RoI = concat(H_u^(1)-1, ..., H_u^(n)-1)
  2. Berechnet Aufmerksamkeit: Q_RoI = LP_q(Norm(H_RoI)), K_v = LP_k(Norm(H_v))
  3. Generiert RoI-Karte: M̂_RoI = Q_RoI * K_v^T

Trainings-Verlustfunktion: L_BCE(M̂_RoI, M̃_RoI), Verlust wird nur in nicht ignorierten Regionen berechnet

4. Zweistufige Inferenz

Stufe 1: RoI-Vorhersage

  • RPN führt partiellen Vorwärtsdurchgang bis zur mittleren Schicht durch
  • Generiert dichte RoI-Karte und verarbeitet sie nach zu binärer Maske

Stufe 2: Hochauflösende Verarbeitung Bietet zwei Hochskalierungs-Strategien:

  • Box Upscaling: Verarbeitet jede verbundene Region unabhängig
  • Masked Upscaling: Verarbeitet alle Vordergrund-Regionen einheitlich

Technische Innovationen

  1. Selbstdestillierungs-Design: Nutzt vom Modell selbst generierte Antworten zur Anleitung der Aufmerksamkeit, vermeidet Verteilungsversatz
  2. Entrauschungs-Strategie: Systematische Behandlung von Sink-Token und unvollständigen Aktivierungsproblemen
  3. Selektive Überwachung: Ignoriert mehrdeutige Regionen, überwacht nur hochvertrauenswürdige Regionen
  4. Effizienz-Optimierung: RPN benötigt nur partiellen Vorwärtsdurchgang, entkoppelt von autoregressivem Generieren

Experimentelle Einrichtung

Datensätze

Trainingsdaten:

  • GQA (72K Proben): Bilder natürlicher Szenen
  • OCR-VQA (80K Proben): Textreiche Bilder
  • Insgesamt 152K Proben zum Trainieren

Evaluierungs-Benchmarks:

  1. Dokument- und OCR-Klasse: DocVQA, ChartQA, OCRBench, InfoVQA, TextVQA
  2. Visuell-zentrierte und hochauflösende Klasse: V-Star Bench, POPE, HR-Bench

Bewertungsmetriken

  • Genauigkeit (Accuracy)
  • F1-Score (POPE-Benchmark)
  • Durchsatz (Vielfaches der Baseline)

Vergleichsmethoden

Hauptbaselines:

  • S2: Vollständige Feinabstimmungsmethode
  • ViCrop: Trainingsfreie Zuschnitt-Baseline
  • DeepEyes: Verstärkungslernbasierte Methode

Integrierte Modelle:

  • LLaVA-1.5 (7B/13B)
  • DeepSeek-VL (1.3B/7B)
  • Qwen2.5-VL (3B/7B)

Implementierungsdetails

  • Optimierer: AdamW, Lernrate 5e-5
  • Batch-Größe: 128
  • Trainings-Epochen: 1
  • Schwellenwert-Einstellungen: τ_fg=0.2, τ_bg=0.1
  • Hardware: 4×NVIDIA A6000 GPU

Experimentelle Ergebnisse

Hauptergebnisse

Dokument- und OCR-Benchmark-Leistung

Ergebnisse auf LLaVA-1.5-7B:

  • DocVQA: 21.5% → 33.9% (+12.4%)
  • TextVQA: 46.1% → 58.7% (+12.6%)
  • Durchschnittliche Verbesserung: 6.8%
  • Durchsatz: 0.62× (im Vergleich zur Baseline)

Visuell-zentrierte Benchmark-Leistung

  • V-Star Bench: 50.3% → 67.5% (+17.2%)
  • HR-Bench 4K: 37.5% → 48.0% (+10.5%)
  • POPE F1: 85.9% → 87.1% (+1.2%)

Modellübergreifende Verallgemeinerung

Alle getesteten MLLM-Familien zeigen konsistente Leistungsverbesserungen:

  • DeepSeek-VL-Serie: Durchschnittliche Verbesserung 6.6%-7.6%
  • Qwen2.5-VL-Serie: Durchschnittliche Verbesserung 2.7%-3.0%

Ablationsstudien

Analyse kritischer Komponenten

  1. Direkte Verwendung von Rohaufmerksamkeit: Durchschnittliche Verbesserung 3.8%
  2. Aufmerksamkeits-Vorhersage: Durchschnittliche Verbesserung 5.3%
  3. + Label-Zuweisung: Durchschnittliche Verbesserung 7.9%
  4. + Entfernung von Sink-Token: Durchschnittliche Verbesserung 9.0%
  5. + Masken-Hochskalierung: Durchschnittliche Verbesserung 9.2%

Einfluss der Backbone-Netzwerk-Schichtenzahl

  • B3R3: Durchschnittliche Verbesserung 3.1%
  • B15R3: Durchschnittliche Verbesserung 9.2% (optimal)
  • B18R3: Durchschnittliche Verbesserung 8.3%

Dateneffizienz-Analyse

  • 10K Proben: Durchschnittliche Verbesserung 7.2%
  • 152K Proben: Durchschnittliche Verbesserung 9.2%
  • Verwendung von Ground-Truth-Antworten: Durchschnittliche Verbesserung 7.3% (niedriger als selbstgenerierte Antworten)

Effizienz-Analyse

Die Analyse des Leistungs-Durchsatz-Kompromisses zeigt, dass SD-RPN bei verschiedenen visuellen Token-Zahlen-Einstellungen besser ist als einfache Auflösungs-Skalierungsmethoden.

Verwandte Arbeiten

MLLM-Wahrnehmungs-Verbesserung

  1. Globales visuelles Verständnis: Komplexere visuelle Encoder, hochauflösende Bildverarbeitung, externe Tool-Integration
  2. RoI-Methoden: VILA-HD, Yu et al. und andere, die großflächige Überwachung erfordern
  3. Trainingsfreie Methoden: ViCrop, Wang et al. und andere, die interne Aufmerksamkeit nutzen, aber ineffizient sind

Selbstdestillierung in MLLMs

  1. Multimodale Vortrainierung: Verbesserung der modalen Ausrichtung und Darstellungslernens
  2. Downstream-Aufgaben: Verbesserung der visuell-textuellen Regions-Ausrichtung, Verbesserung der Lokalisierungs- und Reasoning-Leistung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Effektive Lösung des Kompromisses: SD-RPN balanciert erfolgreich Leistung und Effizienz aus, ohne großflächig annotierte Daten zu benötigen
  2. Starke Verallgemeinerungsfähigkeit: Zeigt hervorragende Leistung über mehrere MLLM-Architekturen hinweg
  3. Hohe Dateneffizienz: Erreicht signifikante Verbesserungen mit nur 10K Proben
  4. Theoretische Unterstützung: Bietet theoretische Erklärung, warum RoI-Vorhersage-Lernen besser ist als direkte Aufmerksamkeitsnutzung

Einschränkungen

  1. Rechnerischer Overhead: Zweistufige Inferenz bringt immer noch zusätzliche Rechenkosten mit sich
  2. Hyperparameter-Empfindlichkeit: Erfordert Anpassung der Schichtauswahl und Schwellenwerte für verschiedene Modelle
  3. Begrenzte Anwendungsszenarien: Hauptsächlich für Aufgaben geeignet, die feingranulare visuelle Wahrnehmung erfordern

Zukünftige Richtungen

  1. Adaptive Token-Zuweisung: Dynamische Anpassung der Anzahl visueller Token
  2. Video- und Dokumentverständnis: Erweiterung auf breitere multimodale Anwendungen
  3. End-to-End-Optimierung: Weitere Reduzierung des Rechenaufwands in der Inferenzphase

Tiefgreifende Bewertung

Stärken

  1. Starke Innovation: Schlägt einen neuartigen Selbstdestillierungs-Rahmen vor, der den Kompromiss bestehender Methoden geschickt löst
  2. Solide Technik: Pseudo-Label-Generierungs-Pipeline ist gut durchdacht und behandelt Rauschen in Aufmerksamkeitskarten effektiv
  3. Umfassende Experimente: Umfassende Validierung über mehrere Modelle und Benchmarks mit detaillierten Ablationsstudien
  4. Theoretische Unterstützung: Bietet theoretische Analyse zur Erklärung der Methodeneffektivität
  5. Hoher praktischer Wert: Methode ist einfach zu implementieren, hat geringe Datenanforderungen und ist für praktische Anwendungen geeignet

Schwächen

  1. Effizienz-Kompromiss: Obwohl effizienter als bestehende Methoden, bringt zweistufige Inferenz immer noch Overhead mit sich
  2. Hyperparameter-Abhängigkeit: Erfordert manuelle Parameteranpassung für verschiedene Modellarchitekturen
  3. Evaluierungs-Einschränkungen: Hauptsächlich auf englischen Benchmarks evaluiert, fehlt mehrsprachige Validierung
  4. Tiefe der theoretischen Analyse: Obwohl theoretische Erklärung vorhanden ist, könnte die Analyse von Konvergenz-Eigenschaften tiefer sein

Einfluss

  1. Akademischer Beitrag: Bietet neue Perspektiven für effiziente visuelle Wahrnehmung in MLLMs
  2. Praktischer Wert: Methode ist einfach und effektiv, leicht in bestehende Systeme integrierbar
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Code

Anwendungsszenarien

  1. Dokumentverständnis: OCR, Tabellenanalyse, Diagrammverständnis usw.
  2. Feingranulare visuelle Fragen-Beantwortung: VQA-Aufgaben, die Erkennung kleiner Objekte oder Text erfordern
  3. Multimodale Retrieval: Bild-Retrieval und Matching basierend auf visuellen Details
  4. Industrielle Anwendungen: Automatisierte Dokumentenverarbeitung, Qualitätskontrolle usw.

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

  • LLaVA-Serie multimodaler großer Sprachmodelle
  • CLIP und andere visuell-sprachliche Vortrainingsmodelle
  • Wissens-Destillierungs- und Selbstdestillierungs-Forschung
  • Visuelle Aufmerksamkeitsmechanismen und Regionenvorschlagsnetzwerk-Forschung

Gesamtbewertung: Dies ist ein hochqualitatives Computervisions-Papier, das einen innovativen SD-RPN-Rahmen zur Lösung des Effizienzproblems bei feingranularer Wahrnehmung von MLLMs vorschlägt. Die Methode ist gut durchdacht, die experimentelle Validierung ist umfassend und hat großen praktischen Wert. Das Papier zeigt hervorragende Leistung in technischer Innovation, Experimentdesign und Ergebnisanalyse und stellt einen wichtigen Fortschritt im Bereich der visuellen Wahrnehmung von MLLMs dar.