Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
Shi, Pei, Dong et al.
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
academic
Attraper les Détails : Prédicteurs RoI Auto-Distillés pour la Perception Fine-Grained des MLLM
Les modèles de langage multimodaux de grande taille (MLLM) nécessitent des informations visuelles haute résolution pour exécuter des tâches de perception fine-grained, mais le traitement d'images haute résolution complètes est prohibitif sur le plan informatique. Bien que les méthodes récentes exploitent les mécanismes de régions d'intérêt (RoI) pour se concentrer sur les régions saillantes, elles font généralement face à un compromis difficile : les méthodes basées sur l'entraînement dépendent de grands ensembles de données annotées, tandis que les méthodes sans entraînement exploitant l'attention interne du modèle sont inefficaces sur le plan informatique et présentent une précision médiocre, nécessitant plusieurs étapes de pré-remplissage ou dépendant d'un processus de décodage auto-régressif lent. Cet article propose un réseau de proposition de régions auto-distillé (SD-RPN) efficace et sans annotation pour résoudre ce compromis. Le SD-RPN est construit sur un pipeline qui transforme les cartes d'attention bruitées des couches intermédiaires du MLLM en étiquettes pseudo-RoI de haute qualité par des signaux de débruitage explicites et la résolution d'ambiguïtés. Nous utilisons ces étiquettes pour entraîner un réseau de proposition de régions léger (RPN) qui apprend une localisation plus précise. Ce RPN est très efficace, utilisant les caractéristiques des couches intermédiaires du MLLM pour prédire les RoI en un seul passage avant, découplant la reconnaissance des RoI de la génération auto-régressive et évitant les opérations multiples coûteuses.
Problème central : Les MLLM font face à un compromis entre l'efficacité informatique et la performance lors du traitement de tâches nécessitant une perception visuelle fine-grained
Défis spécifiques :
Le coût informatique du traitement d'images haute résolution complètes est trop élevé
Les méthodes RoI existantes présentent des limitations : les méthodes d'entraînement nécessitent de grandes quantités de données annotées, les méthodes sans entraînement sont inefficaces et peu précises
Nécessité de plusieurs passages avant ou dépendance à un décodage auto-régressif lent
La perception visuelle fine-grained est une capacité fondamentale des MLLM, affectant directement les tâches de compréhension de documents, OCR, reconnaissance de détails, etc.
L'identification efficace des RoI est cruciale pour les applications pratiques des MLLM
Résoudre les problèmes d'efficacité informatique facilite le déploiement à grande échelle des MLLM
Méthodes d'entraînement (comme VILA-HD) : Nécessitent un pré-entraînement à grande échelle et une annotation détaillée, intensives en données et coûteuses en calcul
Méthodes sans entraînement (comme ViCrop) :
Nécessitent des opérations complexes de pré-remplissage multiples
Dépendent d'étapes de décodage auto-régressif lentes
Utilisent directement des cartes d'attention bruitées, avec une précision limitée
Proposition du cadre SD-RPN : Un réseau de proposition de régions auto-distillé efficace et sans annotation, résolvant le compromis entre les méthodes d'entraînement et sans entraînement
Conception d'un pipeline de génération d'étiquettes pseudo : Transformation des cartes d'attention bruitées en signaux de supervision de haute qualité, incluant des stratégies de débruitage et d'assignation d'étiquettes
Implémentation d'une prédiction RoI efficace : Un RPN léger prédisant les RoI en un seul passage avant, évitant les opérations multiples et la dépendance auto-régressive
Validation de l'applicabilité générale : Vérification sur plusieurs familles de MLLM, obtenant des améliorations de précision absolue supérieures à 10% sur plusieurs benchmarks avec seulement 10K échantillons d'entraînement
Fourniture d'une analyse théorique : Explication théorique de pourquoi l'apprentissage de la prédiction d'étiquettes RoI est supérieur à l'utilisation directe des cartes d'attention brutes
L'analyse du compromis performance-débit montre que le SD-RPN surpasse les méthodes simples de mise à l'échelle de résolution dans diverses configurations de nombre de tokens visuels.
Résolution Efficace du Compromis : Le SD-RPN réussit à équilibrer performance et efficacité sans nécessiter de données annotées à grande échelle
Forte Capacité de Généralisation : Performances excellentes sur plusieurs architectures de MLLM
Efficacité des Données Élevée : Amélioration significative avec seulement 10K échantillons
Support Théorique : Fourniture d'une explication théorique de pourquoi l'apprentissage de la prédiction RoI surpasse l'utilisation directe de l'attention
Compromis d'Efficacité : Bien que plus efficace que les méthodes existantes, l'inférence en deux étapes entraîne toujours une surcharge
Dépendance aux Hyperparamètres : Nécessité d'ajustement manuel des paramètres pour différentes architectures de modèles
Limitations d'Évaluation : Évaluation principalement sur des benchmarks en anglais, manque de vérification multilingue
Profondeur de l'Analyse Théorique : Bien que fournissant une explication théorique, une analyse plus approfondie des propriétés de convergence serait bénéfique
L'article cite un grand nombre de travaux connexes, incluant principalement :
Modèles de langage multimodaux de la série LLaVA
Modèles de pré-entraînement vision-langage comme CLIP
Recherches connexes sur la distillation de connaissances et l'auto-distillation
Recherches sur les mécanismes d'attention visuelle et les réseaux de proposition de régions
Évaluation Globale : Ceci est un article de haute qualité en vision par ordinateur, proposant un cadre SD-RPN innovant pour résoudre le problème d'efficacité de la perception fine-grained des MLLM. La conception de la méthode est raisonnée, la vérification expérimentale est complète, et elle possède une forte valeur pratique et une contribution académique. L'article excelle dans l'innovation technique, la conception expérimentale et l'analyse des résultats, représentant un progrès important dans le domaine de la perception visuelle des MLLM.