2025-11-19T16:58:15.123993

Unified Open-World Segmentation with Multi-Modal Prompts

Liu, Yin, Jing et al.
In this work, we present COSINE, a unified open-world segmentation model that consolidates open-vocabulary segmentation and in-context segmentation with multi-modal prompts (e.g., text and image). COSINE exploits foundation models to extract representations for an input image and corresponding multi-modal prompts, and a SegDecoder to align these representations, model their interaction, and obtain masks specified by input prompts across different granularities. In this way, COSINE overcomes architectural discrepancies, divergent learning objectives, and distinct representation learning strategies of previous pipelines for open-vocabulary segmentation and in-context segmentation. Comprehensive experiments demonstrate that COSINE has significant performance improvements in both open-vocabulary and in-context segmentation tasks. Our exploratory analyses highlight that the synergistic collaboration between using visual and textual prompts leads to significantly improved generalization over single-modality approaches.
academic

Unified Open-World Segmentation with Multi-Modal Prompts

基本信息

  • 论文ID: 2510.10524
  • 标题: Unified Open-World Segmentation with Multi-Modal Prompts
  • 作者: Yang Liu, Yufei Yin, Chenchen Jing, Muzhi Zhu, Hao Chen, Yuling Xi, Bo Feng, Hao Wang, Shiyu Li, Chunhua Shen
  • 分类: cs.CV
  • 发表时间: 2024年10月12日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.10524

摘要

本研究提出了COSINE,一个统一的开放世界分割模型,该模型整合了开放词汇分割和上下文分割,支持多模态提示(如文本和图像)。COSINE利用基础模型提取输入图像和相应多模态提示的表示,并使用SegDecoder对齐这些表示、建模它们的交互,并获得由输入提示在不同粒度上指定的掩码。通过这种方式,COSINE克服了先前开放词汇分割和上下文分割流水线在架构差异、学习目标分歧和表示学习策略差异方面的问题。综合实验表明,COSINE在开放词汇和上下文分割任务上都有显著的性能提升。探索性分析突出表明,视觉和文本提示的协同合作相比单模态方法显著提高了泛化能力。

研究背景与动机

问题定义

传统的闭世界分割模型仅限于识别训练时遇到的固定类别集合,而开放世界分割模型需要基于用户提供的提示在野外环境中定位任意相关对象。当前开放世界分割研究主要围绕两个不同的范式:

  1. 开放词汇分割:用从类别描述符派生的文本嵌入替换可学习分类器,通过自然语言对齐将传统闭集分割框架扩展到识别新类别
  2. 上下文分割:利用示例图像的上下文线索在查询图像中实现自适应对象分割

研究动机

现有方法主要存在三个核心问题:

  1. 架构差异:不同方法采用截然不同的架构设计(如SegGPT使用ViT编码器架构,ODISE采用Mask2Former编码器-解码器结构)
  2. 学习目标分歧:开放词汇分割专注于图像-文本语义对齐,而上下文分割强调参考-查询关系建模
  3. 表示学习策略差异:开放词汇分割依赖多模态模型进行类别匹配,上下文分割主要使用视觉基础模型进行目标定位

重要性

统一这两种范式具有重要意义:单纯依赖文本可能导致细粒度语义抽象不足,而基于图像的示例往往缺乏明确的类别边界和语义对齐。整合两者可以充分发挥文本和视觉模态的互补优势。

核心贡献

  1. 首次统一框架:据作者所知,这是第一个统一上下文分割和开放词汇分割的方法,提出了简单而有效的COSINE框架
  2. 显著性能提升:在开放词汇和上下文分割任务上都实现了显著的性能改进
  3. 多模态协同洞察:发现不同模态分支之间的协同合作增强了开放世界分割的泛化能力,为研究社区提供了宝贵见解
  4. 轻量级设计:通过冻结基础模型并仅训练轻量级解码器,有效释放了基础模型在开放世界感知方面的潜力

方法详解

任务定义

COSINE旨在处理统一的开放世界分割任务,输入包括:

  • 目标图像
  • 多模态提示(文本描述或示例图像)
  • 输出:不同粒度的分割掩码(语义、实例、全景分割等)

模型架构

整体设计

COSINE采用简单的设计哲学,包含两个主要组件:

  1. 模型池(Model Pool):提取目标图像和不同模态提示的特征
  2. SegDecoder:仅解码器的分割模型,处理图像和提示特征

模型池

  • 视觉模型:DINOv2和CLIP视觉编码器
  • 语言模型:CLIP文本编码器
  • 输入处理
    • 目标图像:使用所有视觉模型编码为图像特征 F={Fi}iPF = \{F_i\}^P_i
    • 视觉提示:使用DINOv2编码并用上下文掩码池化为提示token V={vi}iMV = \{v_i\}^M_i
    • 文本提示:使用语言模型提取文本特征 T={ti}iNT = \{t_i\}^N_i

SegDecoder架构

包含四个核心模块:

  1. 适配器组
    • Feature Blender:融合不同图像特征
    • V-Adapter和T-Adapter:对齐图像和各种模态提示的特征维度
  2. 图像-提示对齐器(Image-Prompt Aligner)
    ⟨F', V', T'⟩ = Alignment(F, V, T; θ)
    

    通过自注意力、交叉注意力和前馈网络对齐图像和不同模态提示
  3. 像素解码器(Pixel Decoder)
    • 单尺度:两个转置卷积层,实现4×上采样
    • 多尺度:可变形注意力Transformer
  4. 多模态解码器(Multi-Modality Decoder)
    ⟨Q_r, V_r, T_r⟩ = Decoder(Q, V', T', F', F_mask; φ)
    

    采用双路径设计,通过自注意力和交叉注意力促进对象查询、不同模态提示和图像特征之间的交互

技术创新点

  1. 统一表示空间:将不同模态的输入转换为标准化的token序列,实现结构统一
  2. 协同训练策略:训练期间保持图像和文本提示1:1的样本比例
  3. 多模态协作推理:支持单模态和多模态提示的协作推理,通过简单的平均融合机制整合不同模态信息

实验设置

数据集

  • COCO:118K训练图像,5K验证图像,支持多种分割任务
  • Objects365:365个对象类别,638K图像,使用Objects365-SAM增强版本
  • 参考分割数据集:refCLEF, refCOCO, refCOCO+, refCOCOg
  • 评估数据集:LVIS, ADE20K, Cityscapes, DAVIS 2017, YouTube-VOS 2019等

评价指标

  • 少样本分割:mIoU(一次和少次学习)
  • 实例分割:AP(所有类别)和APr(稀有类别)
  • 全景分割:PQ(全景质量)和AP
  • 视频对象分割:J&F分数
  • 参考分割:cIoU

实现细节

  • 基础模型:DINOv2 (ViT-L)和CLIP (ConvNeXt-Large)
  • 可训练参数:单尺度25M,多尺度32M
  • 训练设置:50K步,批大小64,Adam优化器,学习率1e-4
  • 数据增强:随机水平翻转和大尺度抖动(LSJ)

实验结果

主要结果

少样本语义分割(LVIS-92i)

  • 一次学习:35.2 mIoU(vs. Matcher 33.0, SINE 31.2)
  • 少次学习:40.7 mIoU(vs. Matcher 40.0, SINE 35.5)

少样本实例分割(LVIS)

  • AP:20.3(显著优于DINOv的15.4)
  • APr:25.8(在稀有类别上表现优异)

开放词汇全景分割

  • ADE20K:PQ 31.0, AP 21.1(优于ODISE的23.4 PQ, 13.9 AP)
  • Cityscapes:PQ 35.7, AP 15.6(与SOTA方法相当)

开放词汇语义分割

  • A-847:15.6 mIoU
  • PC-459:19.2 mIoU

消融实验

视觉-文本交互效果

训练阶段(10K步训练):

  • 仅视觉分支:LVIS-92i一次学习24.5 mIoU
  • 仅文本分支:ADE20K PQ 13.2
  • 多模态联合:显著提升两个分支性能

推理阶段

  • 多模态协作在LVIS-92i上从35.2提升至43.1 mIoU
  • 在ADE20K上从31.0提升至31.4 PQ

组件贡献分析

  • 仅DINOv2编码器:在开放词汇任务上性能下降显著
  • 仅CLIP编码器:在上下文任务上性能下降
  • 移除Feature Blender:性能明显下降
  • 移除Image-Prompt Aligner:各项指标均有下降

案例分析

论文展示了多种场景下的定性结果:

  • 工业检查:视觉和文本提示协作准确分割缺陷
  • 医学成像:多模态提示在复杂医学图像中的应用
  • 一般场景:不同粒度分割任务的统一处理

相关工作

开放世界分割

  • 开放词汇分割:ODISE, FC-CLIP, OpenSeeD等方法专注于文本-图像对齐
  • 上下文分割:SegGPT, PerSAM, Matcher, DINOv等方法利用视觉示例

视觉基础模型

  • 自监督学习:MAE, DINOv2提供强大的视觉特征
  • 多模态学习:CLIP通过对比学习实现图像-文本对齐
  • 通用分割:SAM实现类别无关的零样本分割

与相关工作的区别

COSINE是首个统一开放词汇和上下文分割的方法,通过冻结基础模型并训练轻量级解码器,实现了两种范式的有效整合。

结论与讨论

主要结论

  1. 统一框架的有效性:COSINE成功统一了开放词汇和上下文分割,在多个任务上达到SOTA性能
  2. 多模态协同的重要性:视觉和文本提示的协作显著提升了模型的泛化能力
  3. 轻量级设计的优势:通过冻结基础模型,COSINE在保持强性能的同时显著降低了训练成本

局限性

  1. 闭集性能牺牲:为增强开放世界泛化能力,在闭集场景下性能有所下降(如COCO上PQ 50.6 vs OpenSeeD 59.5)
  2. 模型池限制:仅探索了有限的基础模型组合,未深入研究更先进的MLLMs和扩散模型
  3. 计算成本:使用多个基础模型不可避免地增加了计算开销

未来方向

  1. 知识蒸馏:将多个模型的知识蒸馏到单一模型中以降低计算成本
  2. 更多基础模型:探索MLLMs、扩散模型等更先进的基础模型
  3. 架构优化:进一步优化统一架构设计

深度评价

优点

  1. 创新性强:首次提出统一开放词汇和上下文分割的框架,解决了重要的技术问题
  2. 实验充分:在多个数据集和任务上进行了全面评估,包括详细的消融实验
  3. 技术贡献明确:通过冻结基础模型和轻量级解码器设计,提供了实用的解决方案
  4. 分析深入:对多模态协同效果进行了深入的探索性分析

不足

  1. 理论分析不足:缺乏对为什么多模态协作有效的理论解释
  2. 基础模型选择局限:未充分探索其他可能的基础模型组合
  3. 计算效率分析不够:对多模型带来的计算开销分析不够详细

影响力

  1. 学术价值:为开放世界分割提供了新的统一视角,可能启发后续研究
  2. 实用价值:轻量级设计使得方法具有较好的实用性
  3. 可复现性:作者承诺开源代码,有利于研究社区采用和改进

适用场景

  • 自动驾驶:需要识别和分割道路上的各种对象
  • 交互式机器人:需要根据自然语言指令或视觉示例进行分割
  • 医学图像分析:结合文本描述和视觉示例进行病灶分割
  • 工业检测:基于多模态提示进行缺陷检测

参考文献

论文引用了73篇相关文献,涵盖了分割、基础模型、多模态学习等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇高质量的计算机视觉论文,在开放世界分割这一重要问题上提出了创新性的统一框架。虽然存在一些局限性,但其技术贡献明确,实验结果convincing,对领域发展具有重要推动作用。