2025-11-24T04:40:17.767584

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Shi, Pei, Dong et al.

Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.

academic

Attraper les Détails : Prédicteurs RoI Auto-Distillés pour la Perception Fine-Grained des MLLM

Informations de Base

ID de l'article : 2509.16944
Titre : Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
Auteurs : Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
Classification : cs.CV
Date de publication/Conférence : Préimpression. En révision.
Lien de l'article : https://arxiv.org/abs/2509.16944
Lien du code : https://github.com/YuHengsss/SD-RPN

Résumé

Les modèles de langage multimodaux de grande taille (MLLM) nécessitent des informations visuelles haute résolution pour exécuter des tâches de perception fine-grained, mais le traitement d'images haute résolution complètes est prohibitif sur le plan informatique. Bien que les méthodes récentes exploitent les mécanismes de régions d'intérêt (RoI) pour se concentrer sur les régions saillantes, elles font généralement face à un compromis difficile : les méthodes basées sur l'entraînement dépendent de grands ensembles de données annotées, tandis que les méthodes sans entraînement exploitant l'attention interne du modèle sont inefficaces sur le plan informatique et présentent une précision médiocre, nécessitant plusieurs étapes de pré-remplissage ou dépendant d'un processus de décodage auto-régressif lent. Cet article propose un réseau de proposition de régions auto-distillé (SD-RPN) efficace et sans annotation pour résoudre ce compromis. Le SD-RPN est construit sur un pipeline qui transforme les cartes d'attention bruitées des couches intermédiaires du MLLM en étiquettes pseudo-RoI de haute qualité par des signaux de débruitage explicites et la résolution d'ambiguïtés. Nous utilisons ces étiquettes pour entraîner un réseau de proposition de régions léger (RPN) qui apprend une localisation plus précise. Ce RPN est très efficace, utilisant les caractéristiques des couches intermédiaires du MLLM pour prédire les RoI en un seul passage avant, découplant la reconnaissance des RoI de la génération auto-régressive et évitant les opérations multiples coûteuses.

Contexte de Recherche et Motivation

Définition du Problème

Problème central : Les MLLM font face à un compromis entre l'efficacité informatique et la performance lors du traitement de tâches nécessitant une perception visuelle fine-grained
Défis spécifiques :
- Le coût informatique du traitement d'images haute résolution complètes est trop élevé
- Les méthodes RoI existantes présentent des limitations : les méthodes d'entraînement nécessitent de grandes quantités de données annotées, les méthodes sans entraînement sont inefficaces et peu précises
- Nécessité de plusieurs passages avant ou dépendance à un décodage auto-régressif lent

Importance

La perception visuelle fine-grained est une capacité fondamentale des MLLM, affectant directement les tâches de compréhension de documents, OCR, reconnaissance de détails, etc.
L'identification efficace des RoI est cruciale pour les applications pratiques des MLLM
Résoudre les problèmes d'efficacité informatique facilite le déploiement à grande échelle des MLLM

Limitations des Méthodes Existantes

Méthodes d'entraînement (comme VILA-HD) : Nécessitent un pré-entraînement à grande échelle et une annotation détaillée, intensives en données et coûteuses en calcul
Méthodes sans entraînement (comme ViCrop) :
- Nécessitent des opérations complexes de pré-remplissage multiples
- Dépendent d'étapes de décodage auto-régressif lentes
- Utilisent directement des cartes d'attention bruitées, avec une précision limitée

Contributions Principales

Proposition du cadre SD-RPN : Un réseau de proposition de régions auto-distillé efficace et sans annotation, résolvant le compromis entre les méthodes d'entraînement et sans entraînement
Conception d'un pipeline de génération d'étiquettes pseudo : Transformation des cartes d'attention bruitées en signaux de supervision de haute qualité, incluant des stratégies de débruitage et d'assignation d'étiquettes
Implémentation d'une prédiction RoI efficace : Un RPN léger prédisant les RoI en un seul passage avant, évitant les opérations multiples et la dépendance auto-régressive
Validation de l'applicabilité générale : Vérification sur plusieurs familles de MLLM, obtenant des améliorations de précision absolue supérieures à 10% sur plusieurs benchmarks avec seulement 10K échantillons d'entraînement
Fourniture d'une analyse théorique : Explication théorique de pourquoi l'apprentissage de la prédiction d'étiquettes RoI est supérieur à l'utilisation directe des cartes d'attention brutes

Détails de la Méthode

Définition de la Tâche

Étant donné une paire image-texte (xv, xt), l'objectif est :

Identifier efficacement les régions d'intérêt dans l'image pertinentes pour le texte
Traiter les RoI identifiés à haute résolution pour améliorer la perception fine-grained
Générer des réponses textuelles précises

Architecture du Modèle

1. Cadre Global

Le SD-RPN adopte un processus d'entraînement et d'inférence en deux étapes :

Phase d'entraînement : Utilisation du MLLM complet pour générer des étiquettes pseudo, entraînement du RPN léger
Phase d'inférence : Le RPN prédit les RoI, traitement haute résolution des régions RoI

2. Pipeline de Génération d'Étiquettes Pseudo

Étape 1 : Extraction des Cartes d'Attention Extraction de l'attention réponse-image des couches intermédiaires du MLLM :

M^l_RoI = Σ(i=1 to Nt) A^l_i / Nt
A = softmax(Q^l_t(K^l_v)^T / √d)

Étape 2 : Suppression des Tokens Noyés Identification et suppression des tokens noyés basées sur la norme des caractéristiques :

(M'_RoI)_j = {
    0 if ||(H_v)_j||_2 > τ_norm
    (M_RoI)_j otherwise
}

Étape 3 : Assignation d'Étiquettes Adoption d'une stratégie de classification binaire sélective :

(M̃_RoI)_j = {
    1 if token j ∈ S_fg,
    0 if token j ∈ S_bg,
    -1 otherwise (ignored)
}

où l'ensemble de premier plan S_fg = {j | a_j ≥ τ_fg * a_max}, l'ensemble de fond S_bg = {j | j ∉ B_fg and a_j ≤ τ_bg * a_max}

3. Conception de l'Architecture RPN

Structure du Réseau :

Basée sur les B premières couches du MLLM gelé comme réseau de base
Ajout de R blocs transformer entraînables
Initialisation des poids à partir des couches B à B+R du MLLM pré-entraîné

Processus de Prédiction RoI :

Extraction des vecteurs de requête : H_RoI = concat(H_u^(1)-1, ..., H_u^(n)-1)
Calcul de l'attention : Q_RoI = LP_q(Norm(H_RoI)), K_v = LP_k(Norm(H_v))
Génération de la carte RoI : M̂_RoI = Q_RoI * K_v^T

Perte d'Entraînement : L_BCE(M̂_RoI, M̃_RoI), calculée uniquement sur les régions non ignorées

4. Inférence en Deux Étapes

Étape 1 : Prédiction RoI

Le RPN exécute un passage avant partiel jusqu'à la couche intermédiaire
Génération d'une carte RoI dense et post-traitement en masque binaire

Étape 2 : Traitement Haute Résolution Fourniture de deux stratégies de sur-échantillonnage :

Box Upscaling : Traitement indépendant de chaque région connexe
Masked Upscaling : Traitement unifié de toutes les régions de premier plan

Points d'Innovation Technique

Conception auto-distillée : Utilisation de la réponse générée par le modèle lui-même pour guider l'attention, évitant le décalage de distribution
Stratégie de traitement du bruit : Résolution systématique des problèmes de tokens noyés et d'activation incomplète
Supervision sélective : Ignorance des régions ambiguës, supervision uniquement sur les régions haute confiance
Optimisation d'efficacité : Le RPN ne nécessite qu'un passage avant partiel, découplé de la génération auto-régressive

Configuration Expérimentale

Ensembles de Données

Données d'entraînement :

GQA (72K échantillons) : Images de scènes naturelles
OCR-VQA (80K échantillons) : Images riches en texte
Total de 152K échantillons pour l'entraînement

Benchmarks d'évaluation :

Classe Documents et OCR : DocVQA, ChartQA, OCRBench, InfoVQA, TextVQA
Classe Visuelle Centrée et Haute Résolution : V-Star Bench, POPE, HR-Bench

Métriques d'Évaluation

Précision (Accuracy)
Score F1 (benchmark POPE)
Débit (multiple par rapport à la ligne de base)

Méthodes de Comparaison

Lignes de Base Principales :

S2 : Méthode d'ajustement complet
ViCrop : Ligne de base de recadrage sans entraînement
DeepEyes : Méthode basée sur l'apprentissage par renforcement

Modèles Intégrés :

LLaVA-1.5 (7B/13B)
DeepSeek-VL (1.3B/7B)
Qwen2.5-VL (3B/7B)

Détails d'Implémentation

Optimiseur : AdamW, taux d'apprentissage 5e-5
Taille de lot : 128
Nombre d'épochs : 1
Paramètres de seuil : τ_fg=0.2, τ_bg=0.1
Matériel : 4×GPU NVIDIA A6000

Résultats Expérimentaux

Résultats Principaux

Performance sur les Benchmarks Documents et OCR

Résultats sur LLaVA-1.5-7B :

DocVQA : 21.5% → 33.9% (+12.4%)
TextVQA : 46.1% → 58.7% (+12.6%)
Amélioration moyenne : 6.8%
Débit : 0.62× (par rapport à la ligne de base)

Performance sur les Benchmarks Visuels Centrés

V-Star Bench : 50.3% → 67.5% (+17.2%)
HR-Bench 4K : 37.5% → 48.0% (+10.5%)
POPE F1 : 85.9% → 87.1% (+1.2%)

Généralisation Transversale aux Modèles

Toutes les familles de MLLM testées montrent des améliorations de performance cohérentes :

Série DeepSeek-VL : Amélioration moyenne 6.6%-7.6%
Série Qwen2.5-VL : Amélioration moyenne 2.7%-3.0%

Expériences d'Ablation

Analyse des Composants Clés

Utilisation directe de l'attention brute : Amélioration moyenne 3.8%
Prédiction d'attention : Amélioration moyenne 5.3%
+ Assignation d'étiquettes : Amélioration moyenne 7.9%
+ Suppression des tokens noyés : Amélioration moyenne 9.0%
+ Sur-échantillonnage masqué : Amélioration moyenne 9.2%

Impact du Nombre de Couches du Réseau de Base

B3R3 : Amélioration moyenne 3.1%
B15R3 : Amélioration moyenne 9.2% (optimal)
B18R3 : Amélioration moyenne 8.3%

Analyse de l'Efficacité des Données

10K échantillons : Amélioration moyenne 7.2%
152K échantillons : Amélioration moyenne 9.2%
Utilisation de réponses GT : Amélioration moyenne 7.3% (inférieure aux réponses auto-générées)

Analyse d'Efficacité

L'analyse du compromis performance-débit montre que le SD-RPN surpasse les méthodes simples de mise à l'échelle de résolution dans diverses configurations de nombre de tokens visuels.

Travaux Connexes

Amélioration de la Perception des MLLM

Compréhension Visuelle Globale : Encodeurs visuels plus complexes, traitement d'images haute résolution, intégration d'outils externes
Méthodes RoI : VILA-HD, Yu et al. et autres méthodes d'entraînement nécessitant une supervision importante
Méthodes Sans Entraînement : ViCrop, Wang et al. et autres exploitant l'attention interne mais inefficaces

Application de l'Auto-Distillation dans les MLLM

Pré-entraînement Multimodal : Amélioration de l'alignement inter-modal et de l'apprentissage de représentations
Tâches en Aval : Amélioration de l'alignement région visuelle-texte, amélioration de la localisation et des performances de raisonnement

Conclusion et Discussion

Conclusions Principales

Résolution Efficace du Compromis : Le SD-RPN réussit à équilibrer performance et efficacité sans nécessiter de données annotées à grande échelle
Forte Capacité de Généralisation : Performances excellentes sur plusieurs architectures de MLLM
Efficacité des Données Élevée : Amélioration significative avec seulement 10K échantillons
Support Théorique : Fourniture d'une explication théorique de pourquoi l'apprentissage de la prédiction RoI surpasse l'utilisation directe de l'attention

Limitations

Surcharge Informatique : L'inférence en deux étapes introduit toujours un coût informatique supplémentaire
Sensibilité aux Hyperparamètres : Nécessité d'ajuster la sélection des couches et les seuils pour différents modèles
Limitation des Scénarios Applicables : Principalement applicable aux tâches nécessitant une perception visuelle fine-grained

Directions Futures

Assignation de Tokens Adaptative : Ajustement dynamique du nombre de tokens visuels
Compréhension Vidéo et Documents : Extension à des applications multimodales plus larges
Optimisation Bout-en-Bout : Réduction supplémentaire des coûts informatiques de la phase d'inférence

Évaluation Approfondie

Points Forts

Innovation Forte : Proposition d'un cadre auto-distillé novateur, résolvant intelligemment les compromis des méthodes existantes
Technique Solide : Conception raisonnée du pipeline de génération d'étiquettes pseudo, traitement efficace du bruit des cartes d'attention
Expériences Complètes : Vérification complète sur plusieurs modèles et benchmarks, incluant des expériences d'ablation détaillées
Support Théorique : Fourniture d'une analyse théorique expliquant l'efficacité de la méthode
Valeur Pratique Élevée : Méthode simple et facile à implémenter, faibles besoins en données, adaptée aux applications pratiques

Insuffisances

Compromis d'Efficacité : Bien que plus efficace que les méthodes existantes, l'inférence en deux étapes entraîne toujours une surcharge
Dépendance aux Hyperparamètres : Nécessité d'ajustement manuel des paramètres pour différentes architectures de modèles
Limitations d'Évaluation : Évaluation principalement sur des benchmarks en anglais, manque de vérification multilingue
Profondeur de l'Analyse Théorique : Bien que fournissant une explication théorique, une analyse plus approfondie des propriétés de convergence serait bénéfique

Impact

Contribution Académique : Fourniture de nouvelles perspectives pour la perception visuelle efficace des MLLM
Valeur Pratique : Méthode simple et efficace, facile à intégrer dans les systèmes existants
Reproductibilité : Fourniture de détails d'implémentation détaillés et de code open-source

Scénarios Applicables

Compréhension de Documents : OCR, analyse de tableaux, compréhension de graphiques, etc.
Questions-Réponses Visuelles Fine-Grained : Tâches VQA nécessitant l'identification de petits objets ou de texte
Récupération Multimodale : Récupération et appariement d'images basés sur des détails visuels
Applications Industrielles : Traitement automatisé de documents, détection de qualité, etc.

Références

L'article cite un grand nombre de travaux connexes, incluant principalement :

Modèles de langage multimodaux de la série LLaVA
Modèles de pré-entraînement vision-langage comme CLIP
Recherches connexes sur la distillation de connaissances et l'auto-distillation
Recherches sur les mécanismes d'attention visuelle et les réseaux de proposition de régions

Évaluation Globale : Ceci est un article de haute qualité en vision par ordinateur, proposant un cadre SD-RPN innovant pour résoudre le problème d'efficacité de la perception fine-grained des MLLM. La conception de la méthode est raisonnée, la vérification expérimentale est complète, et elle possède une forte valeur pratique et une contribution académique. L'article excelle dans l'innovation technique, la conception expérimentale et l'analyse des résultats, représentant un progrès important dans le domaine de la perception visuelle des MLLM.