Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
Shi, Pei, Dong et al.
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
academic
Catturare i Dettagli: Predittori RoI Auto-Distillati per la Percezione Fine-Grained MLLM
I modelli linguistici multimodali di grandi dimensioni (MLLM) richiedono informazioni visive ad alta risoluzione per eseguire compiti di percezione fine-grained, ma l'elaborazione di immagini complete ad alta risoluzione è computazionalmente proibitiva. Sebbene i metodi recenti sfruttino meccanismi di regioni di interesse (RoI) per focalizzarsi su aree salienti, affrontano generalmente compromessi difficili: i metodi basati su training dipendono da set di dati annotati su larga scala, mentre i metodi senza training che sfruttano l'attenzione interna del modello sono computazionalmente inefficienti e hanno scarsa accuratezza, richiedendo più fasi di prefill o dipendendo da processi di decodifica autogressiva lenti. Questo articolo propone una rete di proposte di regioni auto-distillata (SD-RPN) efficiente e senza annotazioni per affrontare questo compromesso. SD-RPN si basa su una pipeline che trasforma le mappe di attenzione rumorose dai livelli intermedi dell'MLLM in etichette pseudo-RoI di alta qualità attraverso segnali di denoising espliciti e risoluzione di ambiguità. Utilizziamo queste etichette per addestrare una rete leggera di proposte di regioni (RPN) che apprende una localizzazione più precisa. Questa RPN è altamente efficiente, prevedendo RoI in un singolo passaggio in avanti utilizzando le caratteristiche dai livelli intermedi dell'MLLM, disaccoppiando il riconoscimento RoI dalla generazione autogressiva e evitando operazioni multiple costose.
Problema Centrale: Gli MLLM affrontano un compromesso tra efficienza computazionale e prestazioni quando elaborano compiti che richiedono percezione visiva fine-grained
Sfide Specifiche:
Il costo computazionale dell'elaborazione di immagini complete ad alta risoluzione è eccessivo
I metodi RoI esistenti hanno limitazioni: i metodi basati su training richiedono grandi quantità di dati annotati, i metodi senza training hanno bassa efficienza e scarsa accuratezza
Richiedono più passaggi in avanti o dipendono da decodifica autogressiva lenta
La percezione visiva fine-grained è una capacità fondamentale degli MLLM, che influisce direttamente su compiti come la comprensione di documenti, OCR e identificazione di dettagli
Il riconoscimento efficiente di RoI è cruciale per l'applicazione pratica degli MLLM
Risolvere i problemi di efficienza computazionale facilita il dispiegamento su larga scala degli MLLM
Metodi Basati su Training (come VILA-HD): Richiedono pretraining su larga scala e annotazioni dettagliate, sono intensivi in termini di dati e computazionalmente costosi
Metodi Senza Training (come ViCrop):
Richiedono operazioni complesse di prefill multiplo
Dipendono da fasi di decodifica autogressiva lente
Utilizzano direttamente mappe di attenzione rumorose, con accuratezza limitata
Propone il Framework SD-RPN: Una rete di proposte di regioni auto-distillata efficiente e senza annotazioni che risolve il compromesso tra metodi basati su training e metodi senza training
Progetta una Pipeline di Generazione di Pseudo-Etichette: Trasforma mappe di attenzione rumorose in segnali di supervisione di alta qualità, includendo strategie di denoising e assegnazione di etichette
Implementa Predizione Efficiente di RoI: Una RPN leggera che predice RoI in un singolo passaggio in avanti, evitando operazioni multiple e dipendenza da decodifica autogressiva
Verifica l'Applicabilità Diffusa: Convalida su più famiglie di MLLM, ottenendo miglioramenti di accuratezza assoluta superiori al 10% su più benchmark con solo 10K campioni di training
Fornisce Analisi Teorica: Spiega da una prospettiva teorica perché l'apprendimento della predizione di etichette RoI è superiore all'utilizzo diretto di mappe di attenzione grezze
L'analisi del compromesso prestazioni-throughput mostra che SD-RPN supera i semplici metodi di ridimensionamento della risoluzione in varie impostazioni del numero di token visivi.
Forte Innovatività: Propone un framework auto-distillato innovativo che risolve abilmente il compromesso dei metodi esistenti
Tecnica Solida: La progettazione della pipeline di generazione di pseudo-etichette è ragionevole e affronta efficacemente il problema del rumore nelle mappe di attenzione
Esperimenti Completi: Convalida completa su più modelli e benchmark, inclusi esperimenti di ablazione dettagliati
Supporto Teorico: Fornisce analisi teorica che spiega l'efficacia del metodo
Alto Valore Pratico: Il metodo è semplice da implementare, ha bassi requisiti di dati ed è adatto per applicazioni pratiche
L'articolo cita ampiamente lavori correlati, principalmente includendo:
Serie di modelli linguistici multimodali LLaVA
Modelli di pretraining visivo-linguistico come CLIP
Ricerca correlata sulla distillazione della conoscenza e auto-distillazione
Ricerca su meccanismi di attenzione visiva e reti di proposte di regioni
Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della visione artificiale che propone il framework innovativo SD-RPN per risolvere il problema dell'efficienza nella percezione fine-grained degli MLLM. La progettazione del metodo è ragionevole, la verifica sperimentale è completa e ha un forte valore pratico e contributo accademico. L'articolo mostra prestazioni eccellenti in innovazione tecnica, progettazione sperimentale e analisi dei risultati, rappresentando un importante progresso nel campo della percezione visiva degli MLLM.