2025-11-24T04:40:17.767584

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Shi, Pei, Dong et al.
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
academic

Catturare i Dettagli: Predittori RoI Auto-Distillati per la Percezione Fine-Grained MLLM

Informazioni Fondamentali

  • ID Articolo: 2509.16944
  • Titolo: Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
  • Autori: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
  • Classificazione: cs.CV
  • Data di Pubblicazione/Conferenza: Preprint. Sottoposto a revisione.
  • Link Articolo: https://arxiv.org/abs/2509.16944
  • Link Codice: https://github.com/YuHengsss/SD-RPN

Riassunto

I modelli linguistici multimodali di grandi dimensioni (MLLM) richiedono informazioni visive ad alta risoluzione per eseguire compiti di percezione fine-grained, ma l'elaborazione di immagini complete ad alta risoluzione è computazionalmente proibitiva. Sebbene i metodi recenti sfruttino meccanismi di regioni di interesse (RoI) per focalizzarsi su aree salienti, affrontano generalmente compromessi difficili: i metodi basati su training dipendono da set di dati annotati su larga scala, mentre i metodi senza training che sfruttano l'attenzione interna del modello sono computazionalmente inefficienti e hanno scarsa accuratezza, richiedendo più fasi di prefill o dipendendo da processi di decodifica autogressiva lenti. Questo articolo propone una rete di proposte di regioni auto-distillata (SD-RPN) efficiente e senza annotazioni per affrontare questo compromesso. SD-RPN si basa su una pipeline che trasforma le mappe di attenzione rumorose dai livelli intermedi dell'MLLM in etichette pseudo-RoI di alta qualità attraverso segnali di denoising espliciti e risoluzione di ambiguità. Utilizziamo queste etichette per addestrare una rete leggera di proposte di regioni (RPN) che apprende una localizzazione più precisa. Questa RPN è altamente efficiente, prevedendo RoI in un singolo passaggio in avanti utilizzando le caratteristiche dai livelli intermedi dell'MLLM, disaccoppiando il riconoscimento RoI dalla generazione autogressiva e evitando operazioni multiple costose.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Gli MLLM affrontano un compromesso tra efficienza computazionale e prestazioni quando elaborano compiti che richiedono percezione visiva fine-grained
  2. Sfide Specifiche:
    • Il costo computazionale dell'elaborazione di immagini complete ad alta risoluzione è eccessivo
    • I metodi RoI esistenti hanno limitazioni: i metodi basati su training richiedono grandi quantità di dati annotati, i metodi senza training hanno bassa efficienza e scarsa accuratezza
    • Richiedono più passaggi in avanti o dipendono da decodifica autogressiva lenta

Importanza

  • La percezione visiva fine-grained è una capacità fondamentale degli MLLM, che influisce direttamente su compiti come la comprensione di documenti, OCR e identificazione di dettagli
  • Il riconoscimento efficiente di RoI è cruciale per l'applicazione pratica degli MLLM
  • Risolvere i problemi di efficienza computazionale facilita il dispiegamento su larga scala degli MLLM

Limitazioni dei Metodi Esistenti

  1. Metodi Basati su Training (come VILA-HD): Richiedono pretraining su larga scala e annotazioni dettagliate, sono intensivi in termini di dati e computazionalmente costosi
  2. Metodi Senza Training (come ViCrop):
    • Richiedono operazioni complesse di prefill multiplo
    • Dipendono da fasi di decodifica autogressiva lente
    • Utilizzano direttamente mappe di attenzione rumorose, con accuratezza limitata

Contributi Principali

  1. Propone il Framework SD-RPN: Una rete di proposte di regioni auto-distillata efficiente e senza annotazioni che risolve il compromesso tra metodi basati su training e metodi senza training
  2. Progetta una Pipeline di Generazione di Pseudo-Etichette: Trasforma mappe di attenzione rumorose in segnali di supervisione di alta qualità, includendo strategie di denoising e assegnazione di etichette
  3. Implementa Predizione Efficiente di RoI: Una RPN leggera che predice RoI in un singolo passaggio in avanti, evitando operazioni multiple e dipendenza da decodifica autogressiva
  4. Verifica l'Applicabilità Diffusa: Convalida su più famiglie di MLLM, ottenendo miglioramenti di accuratezza assoluta superiori al 10% su più benchmark con solo 10K campioni di training
  5. Fornisce Analisi Teorica: Spiega da una prospettiva teorica perché l'apprendimento della predizione di etichette RoI è superiore all'utilizzo diretto di mappe di attenzione grezze

Dettagli del Metodo

Definizione del Compito

Dato un paio immagine-testo (xv, xt), l'obiettivo è:

  1. Identificare efficientemente le regioni di interesse nell'immagine correlate al testo
  2. Elaborare le RoI identificate ad alta risoluzione per migliorare la percezione fine-grained
  3. Generare risposte testuali accurate

Architettura del Modello

1. Framework Complessivo

SD-RPN adotta un processo di training e inferenza in due fasi:

  • Fase di Training: Utilizza l'MLLM completo per generare pseudo-etichette e addestra una RPN leggera
  • Fase di Inferenza: La RPN predice RoI e elabora le regioni RoI ad alta risoluzione

2. Pipeline di Generazione di Pseudo-Etichette

Passaggio 1: Estrazione delle Mappe di Attenzione Estrae l'attenzione risposta-immagine dai livelli intermedi dell'MLLM:

M^l_RoI = Σ(i=1 to Nt) A^l_i / Nt
A = softmax(Q^l_t(K^l_v)^T / √d)

Passaggio 2: Rimozione dei Token Sink Identifica e rimuove i token sink basati sulla norma delle caratteristiche:

(M'_RoI)_j = {
    0 if ||(H_v)_j||_2 > τ_norm
    (M_RoI)_j otherwise
}

Passaggio 3: Assegnazione di Etichette Adotta una strategia di classificazione binaria selettiva:

(M̃_RoI)_j = {
    1 if token j ∈ S_fg,
    0 if token j ∈ S_bg,
    -1 otherwise (ignored)
}

dove l'insieme di primo piano S_fg = {j | a_j ≥ τ_fg * a_max}, l'insieme di sfondo S_bg = {j | j ∉ B_fg and a_j ≤ τ_bg * a_max}

3. Progettazione dell'Architettura RPN

Struttura di Rete:

  • Basata sui primi B livelli congelati dell'MLLM come rete backbone
  • Aggiunge R blocchi transformer addestrabili
  • I pesi sono inizializzati dai livelli B a B+R del modello preaddestrato MLLM

Processo di Predizione RoI:

  1. Estrae vettori di query: H_RoI = concat(H_u^(1)-1, ..., H_u^(n)-1)
  2. Calcola attenzione: Q_RoI = LP_q(Norm(H_RoI)), K_v = LP_k(Norm(H_v))
  3. Genera mappa RoI: M̂_RoI = Q_RoI * K_v^T

Perdita di Training: L_BCE(M̂_RoI, M̃_RoI), calcolata solo nelle regioni non ignorate

4. Inferenza in Due Fasi

Fase 1: Predizione RoI

  • La RPN esegue un passaggio in avanti parziale fino al livello intermedio
  • Genera una mappa RoI densa e la post-elabora in una maschera binaria

Fase 2: Elaborazione ad Alta Risoluzione Fornisce due strategie di upsampling:

  • Box Upscaling: Elabora indipendentemente ogni regione connessa
  • Masked Upscaling: Elabora uniformemente tutte le regioni di primo piano

Punti di Innovazione Tecnica

  1. Progettazione Auto-Distillata: Utilizza la risposta generata dal modello stesso per guidare l'attenzione, evitando lo shift di distribuzione
  2. Strategia di Gestione del Rumore: Affronta sistematicamente i problemi dei token sink e dell'attivazione incompleta
  3. Supervisione Selettiva: Ignora le regioni ambigue e fornisce supervisione solo in regioni ad alta confidenza
  4. Ottimizzazione dell'Efficienza: La RPN richiede solo un passaggio in avanti parziale, disaccoppiato dalla generazione autogressiva

Configurazione Sperimentale

Set di Dati

Dati di Training:

  • GQA (72K campioni): Immagini di scene naturali
  • OCR-VQA (80K campioni): Immagini ricche di testo
  • Totale 152K campioni per il training

Benchmark di Valutazione:

  1. Classe Documento e OCR: DocVQA, ChartQA, OCRBench, InfoVQA, TextVQA
  2. Classe Visione-Centrica e Alta Risoluzione: V-Star Bench, POPE, HR-Bench

Metriche di Valutazione

  • Accuratezza (Accuracy)
  • Punteggio F1 (benchmark POPE)
  • Throughput (multiplo rispetto al baseline)

Metodi di Confronto

Baseline Principali:

  • S2: Metodo di fine-tuning completo
  • ViCrop: Baseline di ritaglio senza training
  • DeepEyes: Metodo basato su apprendimento per rinforzo

Modelli Integrati:

  • LLaVA-1.5 (7B/13B)
  • DeepSeek-VL (1.3B/7B)
  • Qwen2.5-VL (3B/7B)

Dettagli di Implementazione

  • Ottimizzatore: AdamW, tasso di apprendimento 5e-5
  • Dimensione batch: 128
  • Epoche di training: 1
  • Impostazione soglie: τ_fg=0.2, τ_bg=0.1
  • Hardware: 4×NVIDIA A6000 GPU

Risultati Sperimentali

Risultati Principali

Prestazioni su Benchmark Documento e OCR

Risultati su LLaVA-1.5-7B:

  • DocVQA: 21.5% → 33.9% (+12.4%)
  • TextVQA: 46.1% → 58.7% (+12.6%)
  • Miglioramento medio: 6.8%
  • Throughput: 0.62× (rispetto al baseline)

Prestazioni su Benchmark Visione-Centrica

  • V-Star Bench: 50.3% → 67.5% (+17.2%)
  • HR-Bench 4K: 37.5% → 48.0% (+10.5%)
  • POPE F1: 85.9% → 87.1% (+1.2%)

Generalizzazione Cross-Modello

Tutte le famiglie MLLM testate mostrano miglioramenti di prestazioni coerenti:

  • Serie DeepSeek-VL: Miglioramento medio 6.6%-7.6%
  • Serie Qwen2.5-VL: Miglioramento medio 2.7%-3.0%

Esperimenti di Ablazione

Analisi dei Componenti Chiave

  1. Utilizzo Diretto dell'Attenzione Originale: Miglioramento medio 3.8%
  2. Predizione dell'Attenzione: Miglioramento medio 5.3%
  3. +Assegnazione di Etichette: Miglioramento medio 7.9%
  4. +Rimozione Token Sink: Miglioramento medio 9.0%
  5. +Upsampling Mascherato: Miglioramento medio 9.2%

Impatto del Numero di Livelli della Rete Backbone

  • B3R3: Miglioramento medio 3.1%
  • B15R3: Miglioramento medio 9.2% (ottimale)
  • B18R3: Miglioramento medio 8.3%

Analisi dell'Efficienza dei Dati

  • 10K campioni: Miglioramento medio 7.2%
  • 152K campioni: Miglioramento medio 9.2%
  • Utilizzo di risposte GT: Miglioramento medio 7.3% (inferiore alle risposte auto-generate)

Analisi dell'Efficienza

L'analisi del compromesso prestazioni-throughput mostra che SD-RPN supera i semplici metodi di ridimensionamento della risoluzione in varie impostazioni del numero di token visivi.

Lavori Correlati

Miglioramento della Percezione MLLM

  1. Comprensione Visiva Globale: Codificatori visivi più complessi, elaborazione di immagini ad alta risoluzione, integrazione di strumenti esterni
  2. Metodi RoI: VILA-HD, Yu et al. e altri metodi di training che richiedono supervisione massiccia
  3. Metodi Senza Training: ViCrop, Wang et al. e altri che sfruttano l'attenzione interna ma con bassa efficienza

Applicazione dell'Auto-Distillazione negli MLLM

  1. Pretraining Multimodale: Migliora l'allineamento cross-modale e l'apprendimento di rappresentazioni
  2. Compiti a Valle: Migliora l'allineamento della regione visivo-testuale, migliora le prestazioni di localizzazione e ragionamento

Conclusioni e Discussione

Conclusioni Principali

  1. Risoluzione Efficace del Compromesso: SD-RPN bilancia con successo prestazioni ed efficienza senza richiedere dati annotati su larga scala
  2. Forte Capacità di Generalizzazione: Mostra prestazioni eccellenti su più architetture MLLM
  3. Alta Efficienza dei Dati: Ottiene miglioramenti significativi con solo 10K campioni
  4. Supporto Teorico: Fornisce spiegazioni teoriche del perché l'apprendimento della predizione RoI è superiore all'utilizzo diretto dell'attenzione

Limitazioni

  1. Overhead Computazionale: L'inferenza in due fasi introduce comunque costi computazionali aggiuntivi
  2. Sensibilità ai Iperparametri: Richiede l'adattamento della selezione dei livelli e delle soglie per diversi modelli
  3. Limitazioni dello Scenario di Applicazione: Principalmente applicabile a compiti che richiedono percezione visiva fine-grained

Direzioni Future

  1. Assegnazione di Etichette Adattiva: Regolazione dinamica del numero di token visivi
  2. Comprensione di Video e Documenti: Estensione a applicazioni multimodali più ampie
  3. Ottimizzazione End-to-End: Ulteriore riduzione dell'overhead computazionale nella fase di inferenza

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Propone un framework auto-distillato innovativo che risolve abilmente il compromesso dei metodi esistenti
  2. Tecnica Solida: La progettazione della pipeline di generazione di pseudo-etichette è ragionevole e affronta efficacemente il problema del rumore nelle mappe di attenzione
  3. Esperimenti Completi: Convalida completa su più modelli e benchmark, inclusi esperimenti di ablazione dettagliati
  4. Supporto Teorico: Fornisce analisi teorica che spiega l'efficacia del metodo
  5. Alto Valore Pratico: Il metodo è semplice da implementare, ha bassi requisiti di dati ed è adatto per applicazioni pratiche

Insufficienze

  1. Compromesso di Efficienza: Sebbene più efficiente dei metodi esistenti, l'inferenza in due fasi comporta comunque overhead
  2. Dipendenza dai Iperparametri: Richiede l'adattamento manuale dei parametri per diverse architetture di modelli
  3. Limitazioni della Valutazione: La valutazione è principalmente su benchmark in inglese, manca la verifica multilingue
  4. Profondità dell'Analisi Teorica: Sebbene fornisca spiegazioni teoriche, potrebbe analizzare più profondamente proprietà come la convergenza

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive per la percezione visiva efficiente degli MLLM
  2. Valore Pratico: Il metodo è semplice ed efficace, facile da integrare nei sistemi esistenti
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e codice open-source

Scenari di Applicazione

  1. Comprensione di Documenti: OCR, analisi di tabelle, comprensione di grafici, ecc.
  2. Visual Question Answering Fine-Grained: Compiti VQA che richiedono l'identificazione di piccoli oggetti o testo
  3. Recupero Multimodale: Recupero e matching di immagini basati su dettagli visivi
  4. Applicazioni Industriali: Elaborazione automatica di documenti, rilevamento della qualità e altri scenari

Riferimenti Bibliografici

L'articolo cita ampiamente lavori correlati, principalmente includendo:

  • Serie di modelli linguistici multimodali LLaVA
  • Modelli di pretraining visivo-linguistico come CLIP
  • Ricerca correlata sulla distillazione della conoscenza e auto-distillazione
  • Ricerca su meccanismi di attenzione visiva e reti di proposte di regioni

Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della visione artificiale che propone il framework innovativo SD-RPN per risolvere il problema dell'efficienza nella percezione fine-grained degli MLLM. La progettazione del metodo è ragionevole, la verifica sperimentale è completa e ha un forte valore pratico e contributo accademico. L'articolo mostra prestazioni eccellenti in innovazione tecnica, progettazione sperimentale e analisi dei risultati, rappresentando un importante progresso nel campo della percezione visiva degli MLLM.