2025-11-24T04:40:17.767584

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Shi, Pei, Dong et al.

Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.

academic

Поимка деталей: самодистиллированные предсказатели RoI для тонкозернистого восприятия MLLM

Основная информация

ID статьи: 2509.16944
Название: Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
Авторы: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
Категория: cs.CV
Время публикации/конференция: Препринт. На рассмотрении.
Ссылка на статью: https://arxiv.org/abs/2509.16944
Ссылка на код: https://github.com/YuHengsss/SD-RPN

Аннотация

Многомодальные большие языковые модели (MLLM) требуют высокоразрешающейся визуальной информации для выполнения задач тонкозернистого восприятия, однако обработка полных высокоразрешающихся изображений вычислительно запретительна. Хотя недавние методы используют механизмы интересующих областей (RoI) для концентрации внимания на значимых регионах, они обычно сталкиваются с трудным компромиссом: методы на основе обучения зависят от крупномасштабных аннотированных наборов данных, а методы без обучения, использующие внутреннее внимание модели, характеризуются низкой вычислительной эффективностью и худшей точностью, требуя многократных этапов предзаполнения или зависимости от медленного автогрессивного декодирования. В данной работе предлагается эффективная, не требующая аннотаций самодистиллированная сеть предложения областей (SD-RPN) для решения этого компромисса. SD-RPN построена на основе конвейера, который преобразует шумные карты внимания из промежуточных слоев MLLM в высокачественные псевдо-метки RoI посредством явных сигналов шумоподавления и разрешения неоднозначности. Мы используем эти метки для обучения легковесной сети предложения областей (RPN), которая изучает более точное локализацию. Эта RPN весьма эффективна, используя признаки из промежуточных слоев MLLM для предсказания RoI в одном прямом проходе, разделяя идентификацию RoI и автогрессивное генерирование, избегая дорогостоящих многократных операций.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: MLLM сталкиваются с компромиссом между вычислительной эффективностью и производительностью при обработке задач, требующих тонкозернистого визуального восприятия
Конкретные вызовы:
- Обработка полных высокоразрешающихся изображений требует чрезмерных вычислительных затрат
- Существующие методы RoI имеют ограничения: методы обучения требуют больших объемов аннотированных данных, методы без обучения неэффективны и имеют низкую точность
- Требуются многократные прямые проходы или зависимость от медленного автогрессивного декодирования

Значимость

Тонкозернистое визуальное восприятие является ключевой способностью MLLM, напрямую влияя на понимание документов, OCR, распознавание деталей и другие задачи
Эффективное распознавание RoI критично для практического применения MLLM
Решение проблемы вычислительной эффективности способствует масштабному развертыванию MLLM

Ограничения существующих методов

Методы обучения (например, VILA-HD): требуют крупномасштабного предварительного обучения и детальной аннотации, являются интенсивными по данным и вычислениям
Методы без обучения (например, ViCrop):
- Требуют сложных многократных операций предзаполнения
- Зависят от медленного этапа автогрессивного декодирования
- Используют шумные карты внимания напрямую, что ограничивает точность

Основные вклады

Предложена структура SD-RPN: эффективная, не требующая аннотаций самодистиллированная сеть предложения областей, решающая компромисс между методами обучения и методами без обучения
Разработан конвейер генерации псевдо-меток: преобразует шумные карты внимания в высокачественные сигналы контроля, включая стратегии шумоподавления и назначения меток
Реализовано эффективное предсказание RoI: легковесная RPN предсказывает RoI в одном прямом проходе, избегая многократных операций и зависимости от автогрессии
Проверена широкая применимость: валидация на нескольких семействах MLLM показывает абсолютное улучшение точности более чем на 10% при обучении только на 10K образцах
Предоставлен теоретический анализ: объясняет с теоретической точки зрения, почему изучение предсказания меток RoI превосходит прямое использование исходных карт внимания

Подробное описание методики

Определение задачи

Дано пара изображение-текст (xv, xt), цель состоит в:

Эффективном распознавании интересующих областей в изображении, релевантных тексту
Высокоразрешающейся обработке распознанных RoI для улучшения тонкозернистого восприятия
Генерации точного текстового ответа

Архитектура модели

1. Общая структура

SD-RPN использует двухэтапный процесс обучения и вывода:

Этап обучения: использует полную MLLM для генерации псевдо-меток, обучает легковесную RPN
Этап вывода: RPN предсказывает RoI, выполняет высокоразрешающуюся обработку областей RoI

2. Конвейер генерации псевдо-меток

Шаг 1: Извлечение карт внимания Извлечение внимания ответ-изображение из промежуточных слоев MLLM:

M^l_RoI = Σ(i=1 to Nt) A^l_i / Nt
A = softmax(Q^l_t(K^l_v)^T / √d)

Шаг 2: Удаление утонувших токенов Идентификация и удаление утонувших токенов на основе нормы признаков:

(M'_RoI)_j = {
    0 если ||(H_v)_j||_2 > τ_norm
    (M_RoI)_j иначе
}

Шаг 3: Назначение меток Применение стратегии селективной бинарной классификации:

(M̃_RoI)_j = {
    1 если токен j ∈ S_fg,
    0 если токен j ∈ S_bg,
    -1 иначе (игнорируется)
}

где множество переднего плана S_fg = {j | a_j ≥ τ_fg * a_max}, множество фона S_bg = {j | j ∉ B_fg и a_j ≤ τ_bg * a_max}

3. Проектирование архитектуры RPN

Структура сети:

Основана на замороженных первых B слоях предварительно обученной MLLM в качестве магистрали
Добавлены R обучаемых блоков трансформера
Веса инициализированы из слоев B до B+R предварительно обученной MLLM

Процесс предсказания RoI:

Извлечение векторов запроса: H_RoI = concat(H_u^(1)-1, ..., H_u^(n)-1)
Вычисление внимания: Q_RoI = LP_q(Norm(H_RoI)), K_v = LP_k(Norm(H_v))
Генерация карты RoI: M̂_RoI = Q_RoI * K_v^T

Функция потерь обучения: L_BCE(M̂_RoI, M̃_RoI), потери вычисляются только в областях, не игнорируемых

4. Двухэтапный вывод

Этап 1: Предсказание RoI

RPN выполняет частичный прямой проход до промежуточного слоя
Генерирует плотную карту RoI и постобработку в бинарную маску

Этап 2: Высокоразрешающаяся обработка Предоставляются две стратегии увеличения масштаба:

Масштабирование ограничивающего прямоугольника: независимая обработка каждой связной области
Масштабирование с маской: единая обработка всех областей переднего плана

Технические инновации

Проектирование самодистилляции: использует ответы, генерируемые самой моделью, для направления внимания, избегая смещения распределения
Стратегия обработки шума: систематически решает проблемы утонувших токенов и неполной активации
Селективный контроль: игнорирует неоднозначные области, применяет контроль только в высокодоверительных регионах
Оптимизация эффективности: RPN требует только частичного прямого прохода, разделена с автогрессивной генерацией

Экспериментальная установка

Наборы данных

Данные обучения:

GQA (72K образцов): изображения естественных сцен
OCR-VQA (80K образцов): изображения, богатые текстом
Всего 152K образцов для обучения

Оценочные эталоны:

Класс документов и OCR: DocVQA, ChartQA, OCRBench, InfoVQA, TextVQA
Класс визуально-центрированный и высокоразрешающийся: V-Star Bench, POPE, HR-Bench

Метрики оценки

Точность (Accuracy)
F1-оценка (эталон POPE)
Пропускная способность (кратно базовой)

Методы сравнения

Основные базовые линии:

S2: метод полной настройки
ViCrop: базовая линия обрезки без обучения
DeepEyes: метод на основе обучения с подкреплением

Интегрированные модели:

LLaVA-1.5 (7B/13B)
DeepSeek-VL (1.3B/7B)
Qwen2.5-VL (3B/7B)

Детали реализации

Оптимизатор: AdamW, скорость обучения 5e-5
Размер пакета: 128
Количество эпох: 1
Установка порогов: τ_fg=0.2, τ_bg=0.1
Оборудование: 4×NVIDIA A6000 GPU

Результаты экспериментов

Основные результаты

Производительность на эталонах документов и OCR

Результаты на LLaVA-1.5-7B:

DocVQA: 21.5% → 33.9% (+12.4%)
TextVQA: 46.1% → 58.7% (+12.6%)
Среднее улучшение: 6.8%
Пропускная способность: 0.62× (по сравнению с базовой)

Производительность на визуально-центрированных эталонах

V-Star Bench: 50.3% → 67.5% (+17.2%)
HR-Bench 4K: 37.5% → 48.0% (+10.5%)
POPE F1: 85.9% → 87.1% (+1.2%)

Кросс-модельная обобщаемость

Все протестированные семейства MLLM показывают последовательное улучшение производительности:

Серия DeepSeek-VL: среднее улучшение 6.6%-7.6%
Серия Qwen2.5-VL: среднее улучшение 2.7%-3.0%

Абляционные эксперименты

Анализ ключевых компонентов

Прямое использование исходного внимания: среднее улучшение 3.8%
Предсказание внимания: среднее улучшение 5.3%
+назначение меток: среднее улучшение 7.9%
+удаление утонувших токенов: среднее улучшение 9.0%
+масштабирование с маской: среднее улучшение 9.2%

Влияние количества слоев магистрали

B3R3: среднее улучшение 3.1%
B15R3: среднее улучшение 9.2% (оптимально)
B18R3: среднее улучшение 8.3%

Анализ эффективности данных

10K образцов: среднее улучшение 7.2%
152K образцов: среднее улучшение 9.2%
Использование истинных ответов: среднее улучшение 7.3% (ниже, чем самогенерируемые ответы)

Анализ эффективности

Анализ компромисса производительность-пропускная способность показывает, что SD-RPN превосходит простые методы масштабирования разрешения при различных установках количества визуальных токенов.

Связанные работы

Улучшение восприятия MLLM

Глобальное визуальное понимание: более сложные кодировщики видения, обработка высокоразрешающихся изображений, интеграция внешних инструментов
Методы RoI: VILA-HD, Yu et al. и другие методы обучения, требующие большого объема контроля
Методы без обучения: ViCrop, Wang et al. и другие, использующие внутреннее внимание, но с низкой эффективностью

Применение самодистилляции в MLLM

Многомодальное предварительное обучение: улучшение кросс-модального выравнивания и обучения представлениям
Задачи нижнего уровня: улучшение выравнивания визуально-текстовых областей, улучшение локализации и производительности рассуждений

Выводы и обсуждение

Основные выводы

Эффективное решение компромисса: SD-RPN успешно балансирует производительность и эффективность без необходимости в крупномасштабных аннотированных данных
Сильная обобщаемость: демонстрирует отличную производительность на нескольких архитектурах MLLM
Высокая эффективность данных: достигает значительного улучшения, используя только 10K образцов
Теоретическая поддержка: предоставляет теоретическое объяснение, почему изучение предсказания RoI превосходит прямое использование внимания

Ограничения

Вычислительные издержки: двухэтапный вывод все еще вносит дополнительные вычислительные затраты
Чувствительность гиперпараметров: требует настройки выбора слоев и порогов для различных моделей
Ограничения применимости: в основном применима к задачам, требующим тонкозернистого визуального восприятия

Направления будущих исследований

Адаптивное назначение токенов: динамическая регулировка количества визуальных токенов
Понимание видео и документов: расширение на более широкий спектр многомодальных приложений
Сквозная оптимизация: дальнейшее снижение вычислительных затрат на этапе вывода

Глубокая оценка

Преимущества

Сильная инновационность: предлагает новую структуру самодистилляции, умно решая компромиссы существующих методов
Надежная техника: конвейер генерации псевдо-меток хорошо спроектирован, эффективно обрабатывает шум карт внимания
Полные эксперименты: всесторонняя валидация на нескольких моделях и эталонах, включая детальные абляционные исследования
Теоретическая поддержка: предоставляет теоретический анализ, объясняющий эффективность метода
Высокая практическая ценность: метод прост в реализации, требует мало данных, подходит для практического применения

Недостатки

Компромисс эффективности: хотя более эффективна, чем существующие методы, двухэтапный вывод все еще имеет издержки
Зависимость от гиперпараметров: требует ручной настройки параметров для различных архитектур моделей
Ограничения оценки: в основном оценивается на английских эталонах, отсутствует многоязычная валидация
Глубина теоретического анализа: хотя предоставляется теоретическое объяснение, можно провести более глубокий анализ свойств сходимости

Влияние

Академический вклад: предоставляет новые идеи для эффективного визуального восприятия MLLM
Практическая ценность: метод прост и эффективен, легко интегрируется в существующие системы
Воспроизводимость: предоставляет детальные детали реализации и открытый исходный код

Применимые сценарии

Понимание документов: OCR, анализ таблиц, понимание диаграмм и т.д.
Тонкозернистые визуальные вопросы и ответы: задачи VQA, требующие распознавания мелких объектов или текста
Многомодальный поиск: поиск и сопоставление изображений на основе визуальных деталей
Промышленные приложения: автоматизированная обработка документов, контроль качества и другие сценарии

Библиография

Статья цитирует большой объем связанных работ, включая:

Серию моделей LLaVA многомодальных больших языковых моделей
Модели предварительного обучения видение-язык, такие как CLIP
Исследования по передаче знаний и самодистилляции
Исследования механизмов визуального внимания и сетей предложения областей

Общая оценка: Это высокачественная статья в области компьютерного зрения, предлагающая инновационную структуру SD-RPN для решения проблемы эффективности тонкозернистого восприятия MLLM. Метод хорошо спроектирован, эксперименты полны, обладает сильной практической ценностью и академическим вкладом. Статья демонстрирует превосходство в технической инновации, проектировании экспериментов и анализе результатов, представляя собой важный прогресс в области визуального восприятия MLLM.