2025-11-19T16:58:15.123993

Unified Open-World Segmentation with Multi-Modal Prompts

Liu, Yin, Jing et al.

In this work, we present COSINE, a unified open-world segmentation model that consolidates open-vocabulary segmentation and in-context segmentation with multi-modal prompts (e.g., text and image). COSINE exploits foundation models to extract representations for an input image and corresponding multi-modal prompts, and a SegDecoder to align these representations, model their interaction, and obtain masks specified by input prompts across different granularities. In this way, COSINE overcomes architectural discrepancies, divergent learning objectives, and distinct representation learning strategies of previous pipelines for open-vocabulary segmentation and in-context segmentation. Comprehensive experiments demonstrate that COSINE has significant performance improvements in both open-vocabulary and in-context segmentation tasks. Our exploratory analyses highlight that the synergistic collaboration between using visual and textual prompts leads to significantly improved generalization over single-modality approaches.

academic

基本信息

论文ID: 2510.10524
标题: Unified Open-World Segmentation with Multi-Modal Prompts
作者: Yang Liu, Yufei Yin, Chenchen Jing, Muzhi Zhu, Hao Chen, Yuling Xi, Bo Feng, Hao Wang, Shiyu Li, Chunhua Shen
分类: cs.CV
发表时间: 2024年10月12日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.10524

摘要

本研究提出了COSINE，一个统一的开放世界分割模型，该模型整合了开放词汇分割和上下文分割，支持多模态提示（如文本和图像）。COSINE利用基础模型提取输入图像和相应多模态提示的表示，并使用SegDecoder对齐这些表示、建模它们的交互，并获得由输入提示在不同粒度上指定的掩码。通过这种方式，COSINE克服了先前开放词汇分割和上下文分割流水线在架构差异、学习目标分歧和表示学习策略差异方面的问题。综合实验表明，COSINE在开放词汇和上下文分割任务上都有显著的性能提升。探索性分析突出表明，视觉和文本提示的协同合作相比单模态方法显著提高了泛化能力。

研究背景与动机

问题定义

传统的闭世界分割模型仅限于识别训练时遇到的固定类别集合，而开放世界分割模型需要基于用户提供的提示在野外环境中定位任意相关对象。当前开放世界分割研究主要围绕两个不同的范式：

开放词汇分割：用从类别描述符派生的文本嵌入替换可学习分类器，通过自然语言对齐将传统闭集分割框架扩展到识别新类别
上下文分割：利用示例图像的上下文线索在查询图像中实现自适应对象分割

研究动机

现有方法主要存在三个核心问题：

架构差异：不同方法采用截然不同的架构设计（如SegGPT使用ViT编码器架构，ODISE采用Mask2Former编码器-解码器结构）
学习目标分歧：开放词汇分割专注于图像-文本语义对齐，而上下文分割强调参考-查询关系建模
表示学习策略差异：开放词汇分割依赖多模态模型进行类别匹配，上下文分割主要使用视觉基础模型进行目标定位

重要性

统一这两种范式具有重要意义：单纯依赖文本可能导致细粒度语义抽象不足，而基于图像的示例往往缺乏明确的类别边界和语义对齐。整合两者可以充分发挥文本和视觉模态的互补优势。

核心贡献

首次统一框架：据作者所知，这是第一个统一上下文分割和开放词汇分割的方法，提出了简单而有效的COSINE框架
显著性能提升：在开放词汇和上下文分割任务上都实现了显著的性能改进
多模态协同洞察：发现不同模态分支之间的协同合作增强了开放世界分割的泛化能力，为研究社区提供了宝贵见解
轻量级设计：通过冻结基础模型并仅训练轻量级解码器，有效释放了基础模型在开放世界感知方面的潜力

方法详解

任务定义

COSINE旨在处理统一的开放世界分割任务，输入包括：

目标图像
多模态提示（文本描述或示例图像）
输出：不同粒度的分割掩码（语义、实例、全景分割等）

模型架构

整体设计

COSINE采用简单的设计哲学，包含两个主要组件：

模型池（Model Pool）：提取目标图像和不同模态提示的特征
SegDecoder：仅解码器的分割模型，处理图像和提示特征

模型池

视觉模型：DINOv2和CLIP视觉编码器
语言模型：CLIP文本编码器
输入处理：
- 目标图像：使用所有视觉模型编码为图像特征 $F = \{F_i\}^P_i$
- 视觉提示：使用DINOv2编码并用上下文掩码池化为提示token $V = \{v_i\}^M_i$
- 文本提示：使用语言模型提取文本特征 $T = \{t_i\}^N_i$

SegDecoder架构

包含四个核心模块：

适配器组：
- Feature Blender：融合不同图像特征
- V-Adapter和T-Adapter：对齐图像和各种模态提示的特征维度
图像-提示对齐器（Image-Prompt Aligner）：
```
⟨F', V', T'⟩ = Alignment(F, V, T; θ)
```
通过自注意力、交叉注意力和前馈网络对齐图像和不同模态提示
像素解码器（Pixel Decoder）：
- 单尺度：两个转置卷积层，实现4×上采样
- 多尺度：可变形注意力Transformer
多模态解码器（Multi-Modality Decoder）：
```
⟨Q_r, V_r, T_r⟩ = Decoder(Q, V', T', F', F_mask; φ)
```
采用双路径设计，通过自注意力和交叉注意力促进对象查询、不同模态提示和图像特征之间的交互