Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
Shi, Pei, Dong et al.
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
academic
Поимка деталей: самодистиллированные предсказатели RoI для тонкозернистого восприятия MLLM
Многомодальные большие языковые модели (MLLM) требуют высокоразрешающейся визуальной информации для выполнения задач тонкозернистого восприятия, однако обработка полных высокоразрешающихся изображений вычислительно запретительна. Хотя недавние методы используют механизмы интересующих областей (RoI) для концентрации внимания на значимых регионах, они обычно сталкиваются с трудным компромиссом: методы на основе обучения зависят от крупномасштабных аннотированных наборов данных, а методы без обучения, использующие внутреннее внимание модели, характеризуются низкой вычислительной эффективностью и худшей точностью, требуя многократных этапов предзаполнения или зависимости от медленного автогрессивного декодирования. В данной работе предлагается эффективная, не требующая аннотаций самодистиллированная сеть предложения областей (SD-RPN) для решения этого компромисса. SD-RPN построена на основе конвейера, который преобразует шумные карты внимания из промежуточных слоев MLLM в высокачественные псевдо-метки RoI посредством явных сигналов шумоподавления и разрешения неоднозначности. Мы используем эти метки для обучения легковесной сети предложения областей (RPN), которая изучает более точное локализацию. Эта RPN весьма эффективна, используя признаки из промежуточных слоев MLLM для предсказания RoI в одном прямом проходе, разделяя идентификацию RoI и автогрессивное генерирование, избегая дорогостоящих многократных операций.
Основная проблема: MLLM сталкиваются с компромиссом между вычислительной эффективностью и производительностью при обработке задач, требующих тонкозернистого визуального восприятия
Конкретные вызовы:
Обработка полных высокоразрешающихся изображений требует чрезмерных вычислительных затрат
Существующие методы RoI имеют ограничения: методы обучения требуют больших объемов аннотированных данных, методы без обучения неэффективны и имеют низкую точность
Требуются многократные прямые проходы или зависимость от медленного автогрессивного декодирования
Тонкозернистое визуальное восприятие является ключевой способностью MLLM, напрямую влияя на понимание документов, OCR, распознавание деталей и другие задачи
Эффективное распознавание RoI критично для практического применения MLLM
Решение проблемы вычислительной эффективности способствует масштабному развертыванию MLLM
Методы обучения (например, VILA-HD): требуют крупномасштабного предварительного обучения и детальной аннотации, являются интенсивными по данным и вычислениям
Методы без обучения (например, ViCrop):
Требуют сложных многократных операций предзаполнения
Зависят от медленного этапа автогрессивного декодирования
Используют шумные карты внимания напрямую, что ограничивает точность
Предложена структура SD-RPN: эффективная, не требующая аннотаций самодистиллированная сеть предложения областей, решающая компромисс между методами обучения и методами без обучения
Разработан конвейер генерации псевдо-меток: преобразует шумные карты внимания в высокачественные сигналы контроля, включая стратегии шумоподавления и назначения меток
Реализовано эффективное предсказание RoI: легковесная RPN предсказывает RoI в одном прямом проходе, избегая многократных операций и зависимости от автогрессии
Проверена широкая применимость: валидация на нескольких семействах MLLM показывает абсолютное улучшение точности более чем на 10% при обучении только на 10K образцах
Предоставлен теоретический анализ: объясняет с теоретической точки зрения, почему изучение предсказания меток RoI превосходит прямое использование исходных карт внимания
Анализ компромисса производительность-пропускная способность показывает, что SD-RPN превосходит простые методы масштабирования разрешения при различных установках количества визуальных токенов.
Эффективное решение компромисса: SD-RPN успешно балансирует производительность и эффективность без необходимости в крупномасштабных аннотированных данных
Сильная обобщаемость: демонстрирует отличную производительность на нескольких архитектурах MLLM
Высокая эффективность данных: достигает значительного улучшения, используя только 10K образцов
Теоретическая поддержка: предоставляет теоретическое объяснение, почему изучение предсказания RoI превосходит прямое использование внимания
Статья цитирует большой объем связанных работ, включая:
Серию моделей LLaVA многомодальных больших языковых моделей
Модели предварительного обучения видение-язык, такие как CLIP
Исследования по передаче знаний и самодистилляции
Исследования механизмов визуального внимания и сетей предложения областей
Общая оценка: Это высокачественная статья в области компьютерного зрения, предлагающая инновационную структуру SD-RPN для решения проблемы эффективности тонкозернистого восприятия MLLM. Метод хорошо спроектирован, эксперименты полны, обладает сильной практической ценностью и академическим вкладом. Статья демонстрирует превосходство в технической инновации, проектировании экспериментов и анализе результатов, представляя собой важный прогресс в области визуального восприятия MLLM.