Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
Shi, Pei, Dong et al.
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
academic
Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
Multimodale große Sprachmodelle (MLLMs) benötigen hochauflösende visuelle Informationen zur Durchführung feingranularer Wahrnehmungsaufgaben, doch die Verarbeitung vollständiger hochauflösender Bilder ist rechnerisch prohibitiv. Obwohl neuere Methoden Mechanismen für Interessensbereiche (RoI) nutzen, um sich auf hervorragende Regionen zu konzentrieren, stehen sie typischerweise vor schwierigen Kompromissen: trainingsbasierte Methoden sind auf großflächig annotierte Datensätze angewiesen, während trainingsfreie Methoden, die interne Aufmerksamkeit nutzen, rechnerisch ineffizient sind und schlechtere Genauigkeit aufweisen, da sie mehrere Vorausfüll-Phasen oder langsame autoregressives Dekodieren erfordern. Dieses Papier schlägt ein effizientes, annotationsfreies selbstdestilliertes Regionenvorschlagsnetzwerk (SD-RPN) vor, um diesen Kompromiss zu lösen. SD-RPN basiert auf einer Pipeline, die verrauschte Aufmerksamkeitskarten aus mittleren Schichten von MLLMs durch explizite Entrauschungssignale und Mehrdeutigkeitsauflösung in hochwertige Pseudo-RoI-Labels umwandelt. Wir verwenden diese Labels zum Trainieren eines leichtgewichtigen Regionenvorschlagsnetzwerks (RPN), das präzisere Lokalisierung erlernt. Dieses RPN ist hocheffizient und sagt RoIs in einem einzigen Vorwärtsdurchgang unter Verwendung von Merkmalen aus mittleren Schichten des MLLM voraus, entkoppelt die RoI-Erkennung vom autoregressiven Generieren und vermeidet teure mehrfache Operationen.
Kernproblem: MLLMs stehen beim Verarbeiten von Aufgaben, die feingranulare visuelle Wahrnehmung erfordern, vor einem Kompromiss zwischen Recheneffizienz und Leistung
Spezifische Herausforderungen:
Die Verarbeitung vollständiger hochauflösender Bilder ist rechnerisch zu kostspielig
Bestehende RoI-Methoden haben Einschränkungen: Trainingsmethoden benötigen umfangreiche annotierte Daten, trainingsfreie Methoden sind ineffizient und haben schlechtere Genauigkeit
Erfordern mehrfache Vorwärtsdurchgänge oder sind auf langsames autoregressives Dekodieren angewiesen
Feingranulare visuelle Wahrnehmung ist eine Kernfähigkeit von MLLMs und beeinflusst direkt Dokumentverständnis, OCR, Detailerkennung und andere Aufgaben
Effiziente RoI-Erkennung ist für praktische Anwendungen von MLLMs entscheidend
Die Lösung von Rechnereffizienzproblemen trägt zur großflächigen Bereitstellung von MLLMs bei
Vorschlag des SD-RPN-Rahmens: Ein effizienter, annotationsfreier selbstdestillierter Regionenvorschlagsnetzwerk-Rahmen, der den Kompromiss zwischen Trainings- und trainingsfreien Methoden löst
Entwurf einer Pseudo-Label-Generierungs-Pipeline: Wandelt verrauschte Aufmerksamkeitskarten in hochwertige Überwachungssignale um, einschließlich Entrauschungs- und Label-Zuweisungsstrategien
Implementierung effizienter RoI-Vorhersage: Leichtgewichtiges RPN sagt RoIs in einem einzigen Vorwärtsdurchgang voraus und vermeidet mehrfache Operationen und autoregressives Dekodieren
Validierung breiter Anwendbarkeit: Validierung über mehrere MLLM-Familien hinweg, mit nur 10K Trainingsproben werden über 10% absolute Genauigkeitsverbesserungen über mehrere Benchmarks erreicht
Bereitstellung theoretischer Analyse: Erklärt aus theoretischer Perspektive, warum das Erlernen von RoI-Label-Vorhersagen besser ist als die direkte Verwendung von Rohaufmerksamkeitskarten
Die Analyse des Leistungs-Durchsatz-Kompromisses zeigt, dass SD-RPN bei verschiedenen visuellen Token-Zahlen-Einstellungen besser ist als einfache Auflösungs-Skalierungsmethoden.
Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:
LLaVA-Serie multimodaler großer Sprachmodelle
CLIP und andere visuell-sprachliche Vortrainingsmodelle
Wissens-Destillierungs- und Selbstdestillierungs-Forschung
Visuelle Aufmerksamkeitsmechanismen und Regionenvorschlagsnetzwerk-Forschung
Gesamtbewertung: Dies ist ein hochqualitatives Computervisions-Papier, das einen innovativen SD-RPN-Rahmen zur Lösung des Effizienzproblems bei feingranularer Wahrnehmung von MLLMs vorschlägt. Die Methode ist gut durchdacht, die experimentelle Validierung ist umfassend und hat großen praktischen Wert. Das Papier zeigt hervorragende Leistung in technischer Innovation, Experimentdesign und Ergebnisanalyse und stellt einen wichtigen Fortschritt im Bereich der visuellen Wahrnehmung von MLLMs dar.