2025-11-24T04:40:17.767584

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

Shi, Pei, Dong et al.
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.
academic

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

基本信息

摘要

多模态大语言模型(MLLMs)需要高分辨率视觉信息来执行细粒度感知任务,但处理完整的高分辨率图像在计算上是禁止的。虽然最近的方法利用感兴趣区域(RoI)机制来关注显著区域,但它们通常面临困难的权衡:基于训练的方法依赖大规模标注数据集,而利用模型内部注意力的无训练方法计算效率低且准确性较差,需要多次预填充阶段或依赖缓慢的自回归解码过程。本文提出了一个高效、无标注的自蒸馏区域提议网络(SD-RPN)来解决这一权衡。SD-RPN基于一个管道构建,该管道通过显式去噪信号和解决歧义,将MLLM中间层的噪声注意力图转换为高质量的伪RoI标签。我们使用这些标签训练一个轻量级区域提议网络(RPN),学习更精确的定位。该RPN效率很高,使用MLLM中间层的特征在单次前向传播中预测RoI,将RoI识别与自回归生成解耦,避免了昂贵的多次操作。

研究背景与动机

问题定义

  1. 核心问题:MLLMs在处理需要细粒度视觉感知的任务时面临计算效率与性能的权衡问题
  2. 具体挑战
    • 处理完整高分辨率图像计算成本过高
    • 现有RoI方法存在局限:训练方法需要大量标注数据,无训练方法效率低且准确性差
    • 需要多次前向传播或依赖缓慢的自回归解码

重要性

  • 细粒度视觉感知是MLLMs的核心能力,直接影响文档理解、OCR、细节识别等任务
  • 高效的RoI识别对于MLLMs的实际应用至关重要
  • 解决计算效率问题有助于MLLMs的大规模部署

现有方法局限性

  1. 训练方法(如VILA-HD):需要大规模预训练和详细标注,数据密集且计算昂贵
  2. 无训练方法(如ViCrop):
    • 需要复杂的多次预填充操作
    • 依赖缓慢的自回归解码阶段
    • 直接使用噪声注意力图,准确性有限

核心贡献

  1. 提出SD-RPN框架:一个高效、无标注的自蒸馏区域提议网络,解决了训练方法与无训练方法的权衡问题
  2. 设计伪标签生成管道:将噪声注意力图转换为高质量监督信号,包括去噪和标签分配策略
  3. 实现高效RoI预测:轻量级RPN在单次前向传播中预测RoI,避免多次操作和自回归依赖
  4. 验证广泛适用性:在多个MLLM家族上验证,仅用10K样本训练就在多个基准上取得超过10%的绝对准确率提升
  5. 提供理论分析:从理论角度解释为什么学习预测RoI标签优于直接使用原始注意力图

方法详解

任务定义

给定图像-文本对(xv, xt),目标是:

  1. 高效识别图像中与文本相关的感兴趣区域
  2. 对识别的RoI进行高分辨率处理以增强细粒度感知
  3. 生成准确的文本响应

模型架构

1. 整体框架

SD-RPN采用两阶段训练和推理流程:

  • 训练阶段:使用完整MLLM生成伪标签,训练轻量级RPN
  • 推理阶段:RPN预测RoI,对RoI区域进行高分辨率处理

2. 伪标签生成管道

步骤1:提取注意力图 从MLLM中间层提取响应-图像注意力:

M^l_RoI = Σ(i=1 to Nt) A^l_i / Nt
A = softmax(Q^l_t(K^l_v)^T / √d)

步骤2:去除沉没标记 基于特征范数识别并移除沉没标记:

(M'_RoI)_j = {
    0 if ||(H_v)_j||_2 > τ_norm
    (M_RoI)_j otherwise
}

步骤3:标签分配 采用选择性二分类策略:

(M̃_RoI)_j = {
    1 if token j ∈ S_fg,
    0 if token j ∈ S_bg,
    -1 otherwise (ignored)
}

其中前景集S_fg = {j | a_j ≥ τ_fg * a_max},背景集S_bg = {j | j ∉ B_fg and a_j ≤ τ_bg * a_max}

3. RPN架构设计

网络结构

  • 基于冻结MLLM的前B层作为骨干网络
  • 添加R个可训练的transformer块
  • 权重从预训练MLLM的B到B+R层初始化

RoI预测过程

  1. 提取查询向量:H_RoI = concat(H_u^(1)-1, ..., H_u^(n)-1)
  2. 计算注意力:Q_RoI = LP_q(Norm(H_RoI)), K_v = LP_k(Norm(H_v))
  3. 生成RoI图:M̂_RoI = Q_RoI * K_v^T

训练损失: L_BCE(M̂_RoI, M̃_RoI),仅在非忽略区域计算损失

4. 两阶段推理

阶段1:RoI预测

  • RPN执行部分前向传播至中间层
  • 生成密集RoI图并后处理为二值掩码

阶段2:高分辨率处理 提供两种上采样策略:

  • Box Upscaling:独立处理每个连通区域
  • Masked Upscaling:统一处理所有前景区域

技术创新点

  1. 自蒸馏设计:使用模型自身生成的响应指导注意力,避免分布偏移
  2. 噪声处理策略:系统性解决沉没标记和激活不完整问题
  3. 选择性监督:忽略模糊区域,仅在高置信度区域进行监督
  4. 效率优化:RPN仅需部分前向传播,与自回归生成解耦

实验设置

数据集

训练数据

  • GQA(72K样本):自然场景图像
  • OCR-VQA(80K样本):文本丰富图像
  • 总计152K样本用于训练

评估基准

  1. 文档与OCR类:DocVQA, ChartQA, OCRBench, InfoVQA, TextVQA
  2. 视觉中心与高分辨率类:V-Star Bench, POPE, HR-Bench

评价指标

  • 准确率(Accuracy)
  • F1分数(POPE基准)
  • 吞吐量(相对于基线的倍数)

对比方法

主要基线

  • S2:全调优方法
  • ViCrop:无训练裁剪基线
  • DeepEyes:基于强化学习的方法

集成模型

  • LLaVA-1.5 (7B/13B)
  • DeepSeek-VL (1.3B/7B)
  • Qwen2.5-VL (3B/7B)

实现细节

  • 优化器:AdamW,学习率5e-5
  • 批次大小:128
  • 训练轮数:1
  • 阈值设置:τ_fg=0.2, τ_bg=0.1
  • 硬件:4×NVIDIA A6000 GPU

实验结果

主要结果

文档与OCR基准性能

在LLaVA-1.5-7B上的结果:

  • DocVQA:21.5% → 33.9%(+12.4%)
  • TextVQA:46.1% → 58.7%(+12.6%)
  • 平均提升:6.8%
  • 吞吐量:0.62×(相比基线)

视觉中心基准性能

  • V-Star Bench:50.3% → 67.5%(+17.2%)
  • HR-Bench 4K:37.5% → 48.0%(+10.5%)
  • POPE F1:85.9% → 87.1%(+1.2%)

跨模型泛化性

所有测试的MLLM家族都显示出一致的性能提升:

  • DeepSeek-VL系列:平均提升6.6%-7.6%
  • Qwen2.5-VL系列:平均提升2.7%-3.0%

消融实验

关键组件分析

  1. 原始注意力直接使用:平均提升3.8%
  2. 注意力预测:平均提升5.3%
  3. +标签分配:平均提升7.9%
  4. +去除沉没标记:平均提升9.0%
  5. +掩码上采样:平均提升9.2%

骨干网络层数影响

  • B3R3:平均提升3.1%
  • B15R3:平均提升9.2%(最优)
  • B18R3:平均提升8.3%

数据效率分析

  • 10K样本:平均提升7.2%
  • 152K样本:平均提升9.2%
  • 使用GT响应:平均提升7.3%(低于自生成响应)

效率分析

性能-吞吐量权衡分析显示SD-RPN在各种视觉标记数量设置下都优于简单的分辨率缩放方法。

相关工作

MLLM感知增强

  1. 全局视觉理解:更复杂的视觉编码器、高分辨率图像处理、外部工具集成
  2. RoI方法:VILA-HD, Yu et al.等需要大量监督的训练方法
  3. 无训练方法:ViCrop, Wang et al.等利用内部注意力但效率较低

自蒸馏在MLLMs中的应用

  1. 多模态预训练:改善跨模态对齐和表示学习
  2. 下游任务:增强视觉-文本区域对齐,改善定位和推理性能

结论与讨论

主要结论

  1. 有效解决权衡问题:SD-RPN成功平衡了性能与效率,无需大规模标注数据
  2. 强泛化能力:在多个MLLM架构上都表现出色
  3. 数据效率高:仅需10K样本就能获得显著提升
  4. 理论支撑:提供了学习RoI预测优于直接使用注意力的理论解释

局限性

  1. 计算开销:两阶段推理仍然带来额外的计算成本
  2. 超参数敏感性:需要针对不同模型调整层选择和阈值
  3. 适用场景限制:主要适用于需要细粒度视觉感知的任务

未来方向

  1. 自适应标记分配:动态调整视觉标记数量
  2. 视频和文档理解:扩展到更广泛的多模态应用
  3. 端到端优化:进一步减少推理阶段的计算开销

深度评价

优点

  1. 创新性强:提出了新颖的自蒸馏框架,巧妙解决了现有方法的权衡问题
  2. 技术扎实:伪标签生成管道设计合理,有效处理了注意力图的噪声问题
  3. 实验充分:在多个模型、多个基准上进行了全面验证,包括详细的消融实验
  4. 理论支撑:提供了理论分析解释方法的有效性
  5. 实用价值高:方法简单易实现,数据需求少,适合实际应用

不足

  1. 效率权衡:虽然比现有方法更高效,但两阶段推理仍有开销
  2. 超参数依赖:需要针对不同模型架构手动调整参数
  3. 评估局限:主要在英文基准上评估,缺乏多语言验证
  4. 理论分析深度:虽然提供了理论解释,但可以更深入分析收敛性等性质

影响力

  1. 学术贡献:为MLLMs的高效视觉感知提供了新思路
  2. 实用价值:方法简单有效,易于集成到现有系统
  3. 可复现性:提供了详细的实现细节和开源代码

适用场景

  1. 文档理解:OCR、表格分析、图表理解等
  2. 细粒度视觉问答:需要识别小物体或文字的VQA任务
  3. 多模态检索:基于视觉细节的图像检索和匹配
  4. 工业应用:自动化文档处理、质量检测等场景

参考文献

论文引用了大量相关工作,主要包括:

  • LLaVA系列多模态大语言模型
  • CLIP等视觉-语言预训练模型
  • 知识蒸馏和自蒸馏相关研究
  • 视觉注意力机制和区域提议网络研究

总体评价:这是一篇高质量的计算机视觉论文,提出了创新的SD-RPN框架来解决MLLMs细粒度感知的效率问题。方法设计合理,实验验证充分,具有很强的实用价值和学术贡献。论文在技术创新、实验设计和结果分析方面都表现出色,是MLLMs视觉感知领域的重要进展。