2025-11-24T04:40:17.767584

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Shi, Pei, Dong et al.
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
academic

Attraper les Détails : Prédicteurs RoI Auto-Distillés pour la Perception Fine-Grained des MLLM

Informations de Base

  • ID de l'article : 2509.16944
  • Titre : Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
  • Auteurs : Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
  • Classification : cs.CV
  • Date de publication/Conférence : Préimpression. En révision.
  • Lien de l'article : https://arxiv.org/abs/2509.16944
  • Lien du code : https://github.com/YuHengsss/SD-RPN

Résumé

Les modèles de langage multimodaux de grande taille (MLLM) nécessitent des informations visuelles haute résolution pour exécuter des tâches de perception fine-grained, mais le traitement d'images haute résolution complètes est prohibitif sur le plan informatique. Bien que les méthodes récentes exploitent les mécanismes de régions d'intérêt (RoI) pour se concentrer sur les régions saillantes, elles font généralement face à un compromis difficile : les méthodes basées sur l'entraînement dépendent de grands ensembles de données annotées, tandis que les méthodes sans entraînement exploitant l'attention interne du modèle sont inefficaces sur le plan informatique et présentent une précision médiocre, nécessitant plusieurs étapes de pré-remplissage ou dépendant d'un processus de décodage auto-régressif lent. Cet article propose un réseau de proposition de régions auto-distillé (SD-RPN) efficace et sans annotation pour résoudre ce compromis. Le SD-RPN est construit sur un pipeline qui transforme les cartes d'attention bruitées des couches intermédiaires du MLLM en étiquettes pseudo-RoI de haute qualité par des signaux de débruitage explicites et la résolution d'ambiguïtés. Nous utilisons ces étiquettes pour entraîner un réseau de proposition de régions léger (RPN) qui apprend une localisation plus précise. Ce RPN est très efficace, utilisant les caractéristiques des couches intermédiaires du MLLM pour prédire les RoI en un seul passage avant, découplant la reconnaissance des RoI de la génération auto-régressive et évitant les opérations multiples coûteuses.

Contexte de Recherche et Motivation

Définition du Problème

  1. Problème central : Les MLLM font face à un compromis entre l'efficacité informatique et la performance lors du traitement de tâches nécessitant une perception visuelle fine-grained
  2. Défis spécifiques :
    • Le coût informatique du traitement d'images haute résolution complètes est trop élevé
    • Les méthodes RoI existantes présentent des limitations : les méthodes d'entraînement nécessitent de grandes quantités de données annotées, les méthodes sans entraînement sont inefficaces et peu précises
    • Nécessité de plusieurs passages avant ou dépendance à un décodage auto-régressif lent

Importance

  • La perception visuelle fine-grained est une capacité fondamentale des MLLM, affectant directement les tâches de compréhension de documents, OCR, reconnaissance de détails, etc.
  • L'identification efficace des RoI est cruciale pour les applications pratiques des MLLM
  • Résoudre les problèmes d'efficacité informatique facilite le déploiement à grande échelle des MLLM

Limitations des Méthodes Existantes

  1. Méthodes d'entraînement (comme VILA-HD) : Nécessitent un pré-entraînement à grande échelle et une annotation détaillée, intensives en données et coûteuses en calcul
  2. Méthodes sans entraînement (comme ViCrop) :
    • Nécessitent des opérations complexes de pré-remplissage multiples
    • Dépendent d'étapes de décodage auto-régressif lentes
    • Utilisent directement des cartes d'attention bruitées, avec une précision limitée

Contributions Principales

  1. Proposition du cadre SD-RPN : Un réseau de proposition de régions auto-distillé efficace et sans annotation, résolvant le compromis entre les méthodes d'entraînement et sans entraînement
  2. Conception d'un pipeline de génération d'étiquettes pseudo : Transformation des cartes d'attention bruitées en signaux de supervision de haute qualité, incluant des stratégies de débruitage et d'assignation d'étiquettes
  3. Implémentation d'une prédiction RoI efficace : Un RPN léger prédisant les RoI en un seul passage avant, évitant les opérations multiples et la dépendance auto-régressive
  4. Validation de l'applicabilité générale : Vérification sur plusieurs familles de MLLM, obtenant des améliorations de précision absolue supérieures à 10% sur plusieurs benchmarks avec seulement 10K échantillons d'entraînement
  5. Fourniture d'une analyse théorique : Explication théorique de pourquoi l'apprentissage de la prédiction d'étiquettes RoI est supérieur à l'utilisation directe des cartes d'attention brutes

Détails de la Méthode

Définition de la Tâche

Étant donné une paire image-texte (xv, xt), l'objectif est :

  1. Identifier efficacement les régions d'intérêt dans l'image pertinentes pour le texte
  2. Traiter les RoI identifiés à haute résolution pour améliorer la perception fine-grained
  3. Générer des réponses textuelles précises

Architecture du Modèle

1. Cadre Global

Le SD-RPN adopte un processus d'entraînement et d'inférence en deux étapes :

  • Phase d'entraînement : Utilisation du MLLM complet pour générer des étiquettes pseudo, entraînement du RPN léger
  • Phase d'inférence : Le RPN prédit les RoI, traitement haute résolution des régions RoI

2. Pipeline de Génération d'Étiquettes Pseudo

Étape 1 : Extraction des Cartes d'Attention Extraction de l'attention réponse-image des couches intermédiaires du MLLM :

M^l_RoI = Σ(i=1 to Nt) A^l_i / Nt
A = softmax(Q^l_t(K^l_v)^T / √d)

Étape 2 : Suppression des Tokens Noyés Identification et suppression des tokens noyés basées sur la norme des caractéristiques :

(M'_RoI)_j = {
    0 if ||(H_v)_j||_2 > τ_norm
    (M_RoI)_j otherwise
}

Étape 3 : Assignation d'Étiquettes Adoption d'une stratégie de classification binaire sélective :

(M̃_RoI)_j = {
    1 if token j ∈ S_fg,
    0 if token j ∈ S_bg,
    -1 otherwise (ignored)
}

où l'ensemble de premier plan S_fg = {j | a_j ≥ τ_fg * a_max}, l'ensemble de fond S_bg = {j | j ∉ B_fg and a_j ≤ τ_bg * a_max}

3. Conception de l'Architecture RPN

Structure du Réseau :

  • Basée sur les B premières couches du MLLM gelé comme réseau de base
  • Ajout de R blocs transformer entraînables
  • Initialisation des poids à partir des couches B à B+R du MLLM pré-entraîné

Processus de Prédiction RoI :

  1. Extraction des vecteurs de requête : H_RoI = concat(H_u^(1)-1, ..., H_u^(n)-1)
  2. Calcul de l'attention : Q_RoI = LP_q(Norm(H_RoI)), K_v = LP_k(Norm(H_v))
  3. Génération de la carte RoI : M̂_RoI = Q_RoI * K_v^T

Perte d'Entraînement : L_BCE(M̂_RoI, M̃_RoI), calculée uniquement sur les régions non ignorées

4. Inférence en Deux Étapes

Étape 1 : Prédiction RoI

  • Le RPN exécute un passage avant partiel jusqu'à la couche intermédiaire
  • Génération d'une carte RoI dense et post-traitement en masque binaire

Étape 2 : Traitement Haute Résolution Fourniture de deux stratégies de sur-échantillonnage :

  • Box Upscaling : Traitement indépendant de chaque région connexe
  • Masked Upscaling : Traitement unifié de toutes les régions de premier plan

Points d'Innovation Technique

  1. Conception auto-distillée : Utilisation de la réponse générée par le modèle lui-même pour guider l'attention, évitant le décalage de distribution
  2. Stratégie de traitement du bruit : Résolution systématique des problèmes de tokens noyés et d'activation incomplète
  3. Supervision sélective : Ignorance des régions ambiguës, supervision uniquement sur les régions haute confiance
  4. Optimisation d'efficacité : Le RPN ne nécessite qu'un passage avant partiel, découplé de la génération auto-régressive

Configuration Expérimentale

Ensembles de Données

Données d'entraînement :

  • GQA (72K échantillons) : Images de scènes naturelles
  • OCR-VQA (80K échantillons) : Images riches en texte
  • Total de 152K échantillons pour l'entraînement

Benchmarks d'évaluation :

  1. Classe Documents et OCR : DocVQA, ChartQA, OCRBench, InfoVQA, TextVQA
  2. Classe Visuelle Centrée et Haute Résolution : V-Star Bench, POPE, HR-Bench

Métriques d'Évaluation

  • Précision (Accuracy)
  • Score F1 (benchmark POPE)
  • Débit (multiple par rapport à la ligne de base)

Méthodes de Comparaison

Lignes de Base Principales :

  • S2 : Méthode d'ajustement complet
  • ViCrop : Ligne de base de recadrage sans entraînement
  • DeepEyes : Méthode basée sur l'apprentissage par renforcement

Modèles Intégrés :

  • LLaVA-1.5 (7B/13B)
  • DeepSeek-VL (1.3B/7B)
  • Qwen2.5-VL (3B/7B)

Détails d'Implémentation

  • Optimiseur : AdamW, taux d'apprentissage 5e-5
  • Taille de lot : 128
  • Nombre d'épochs : 1
  • Paramètres de seuil : τ_fg=0.2, τ_bg=0.1
  • Matériel : 4×GPU NVIDIA A6000

Résultats Expérimentaux

Résultats Principaux

Performance sur les Benchmarks Documents et OCR

Résultats sur LLaVA-1.5-7B :

  • DocVQA : 21.5% → 33.9% (+12.4%)
  • TextVQA : 46.1% → 58.7% (+12.6%)
  • Amélioration moyenne : 6.8%
  • Débit : 0.62× (par rapport à la ligne de base)

Performance sur les Benchmarks Visuels Centrés

  • V-Star Bench : 50.3% → 67.5% (+17.2%)
  • HR-Bench 4K : 37.5% → 48.0% (+10.5%)
  • POPE F1 : 85.9% → 87.1% (+1.2%)

Généralisation Transversale aux Modèles

Toutes les familles de MLLM testées montrent des améliorations de performance cohérentes :

  • Série DeepSeek-VL : Amélioration moyenne 6.6%-7.6%
  • Série Qwen2.5-VL : Amélioration moyenne 2.7%-3.0%

Expériences d'Ablation

Analyse des Composants Clés

  1. Utilisation directe de l'attention brute : Amélioration moyenne 3.8%
  2. Prédiction d'attention : Amélioration moyenne 5.3%
  3. + Assignation d'étiquettes : Amélioration moyenne 7.9%
  4. + Suppression des tokens noyés : Amélioration moyenne 9.0%
  5. + Sur-échantillonnage masqué : Amélioration moyenne 9.2%

Impact du Nombre de Couches du Réseau de Base

  • B3R3 : Amélioration moyenne 3.1%
  • B15R3 : Amélioration moyenne 9.2% (optimal)
  • B18R3 : Amélioration moyenne 8.3%

Analyse de l'Efficacité des Données

  • 10K échantillons : Amélioration moyenne 7.2%
  • 152K échantillons : Amélioration moyenne 9.2%
  • Utilisation de réponses GT : Amélioration moyenne 7.3% (inférieure aux réponses auto-générées)

Analyse d'Efficacité

L'analyse du compromis performance-débit montre que le SD-RPN surpasse les méthodes simples de mise à l'échelle de résolution dans diverses configurations de nombre de tokens visuels.

Travaux Connexes

Amélioration de la Perception des MLLM

  1. Compréhension Visuelle Globale : Encodeurs visuels plus complexes, traitement d'images haute résolution, intégration d'outils externes
  2. Méthodes RoI : VILA-HD, Yu et al. et autres méthodes d'entraînement nécessitant une supervision importante
  3. Méthodes Sans Entraînement : ViCrop, Wang et al. et autres exploitant l'attention interne mais inefficaces

Application de l'Auto-Distillation dans les MLLM

  1. Pré-entraînement Multimodal : Amélioration de l'alignement inter-modal et de l'apprentissage de représentations
  2. Tâches en Aval : Amélioration de l'alignement région visuelle-texte, amélioration de la localisation et des performances de raisonnement

Conclusion et Discussion

Conclusions Principales

  1. Résolution Efficace du Compromis : Le SD-RPN réussit à équilibrer performance et efficacité sans nécessiter de données annotées à grande échelle
  2. Forte Capacité de Généralisation : Performances excellentes sur plusieurs architectures de MLLM
  3. Efficacité des Données Élevée : Amélioration significative avec seulement 10K échantillons
  4. Support Théorique : Fourniture d'une explication théorique de pourquoi l'apprentissage de la prédiction RoI surpasse l'utilisation directe de l'attention

Limitations

  1. Surcharge Informatique : L'inférence en deux étapes introduit toujours un coût informatique supplémentaire
  2. Sensibilité aux Hyperparamètres : Nécessité d'ajuster la sélection des couches et les seuils pour différents modèles
  3. Limitation des Scénarios Applicables : Principalement applicable aux tâches nécessitant une perception visuelle fine-grained

Directions Futures

  1. Assignation de Tokens Adaptative : Ajustement dynamique du nombre de tokens visuels
  2. Compréhension Vidéo et Documents : Extension à des applications multimodales plus larges
  3. Optimisation Bout-en-Bout : Réduction supplémentaire des coûts informatiques de la phase d'inférence

Évaluation Approfondie

Points Forts

  1. Innovation Forte : Proposition d'un cadre auto-distillé novateur, résolvant intelligemment les compromis des méthodes existantes
  2. Technique Solide : Conception raisonnée du pipeline de génération d'étiquettes pseudo, traitement efficace du bruit des cartes d'attention
  3. Expériences Complètes : Vérification complète sur plusieurs modèles et benchmarks, incluant des expériences d'ablation détaillées
  4. Support Théorique : Fourniture d'une analyse théorique expliquant l'efficacité de la méthode
  5. Valeur Pratique Élevée : Méthode simple et facile à implémenter, faibles besoins en données, adaptée aux applications pratiques

Insuffisances

  1. Compromis d'Efficacité : Bien que plus efficace que les méthodes existantes, l'inférence en deux étapes entraîne toujours une surcharge
  2. Dépendance aux Hyperparamètres : Nécessité d'ajustement manuel des paramètres pour différentes architectures de modèles
  3. Limitations d'Évaluation : Évaluation principalement sur des benchmarks en anglais, manque de vérification multilingue
  4. Profondeur de l'Analyse Théorique : Bien que fournissant une explication théorique, une analyse plus approfondie des propriétés de convergence serait bénéfique

Impact

  1. Contribution Académique : Fourniture de nouvelles perspectives pour la perception visuelle efficace des MLLM
  2. Valeur Pratique : Méthode simple et efficace, facile à intégrer dans les systèmes existants
  3. Reproductibilité : Fourniture de détails d'implémentation détaillés et de code open-source

Scénarios Applicables

  1. Compréhension de Documents : OCR, analyse de tableaux, compréhension de graphiques, etc.
  2. Questions-Réponses Visuelles Fine-Grained : Tâches VQA nécessitant l'identification de petits objets ou de texte
  3. Récupération Multimodale : Récupération et appariement d'images basés sur des détails visuels
  4. Applications Industrielles : Traitement automatisé de documents, détection de qualité, etc.

Références

L'article cite un grand nombre de travaux connexes, incluant principalement :

  • Modèles de langage multimodaux de la série LLaVA
  • Modèles de pré-entraînement vision-langage comme CLIP
  • Recherches connexes sur la distillation de connaissances et l'auto-distillation
  • Recherches sur les mécanismes d'attention visuelle et les réseaux de proposition de régions

Évaluation Globale : Ceci est un article de haute qualité en vision par ordinateur, proposant un cadre SD-RPN innovant pour résoudre le problème d'efficacité de la perception fine-grained des MLLM. La conception de la méthode est raisonnée, la vérification expérimentale est complète, et elle possède une forte valeur pratique et une contribution académique. L'article excelle dans l'innovation technique, la conception expérimentale et l'analyse des résultats, représentant un progrès important dans le domaine de la perception visuelle des MLLM.