2025-11-19T16:58:15.123993

Unified Open-World Segmentation with Multi-Modal Prompts

Liu, Yin, Jing et al.
In this work, we present COSINE, a unified open-world segmentation model that consolidates open-vocabulary segmentation and in-context segmentation with multi-modal prompts (e.g., text and image). COSINE exploits foundation models to extract representations for an input image and corresponding multi-modal prompts, and a SegDecoder to align these representations, model their interaction, and obtain masks specified by input prompts across different granularities. In this way, COSINE overcomes architectural discrepancies, divergent learning objectives, and distinct representation learning strategies of previous pipelines for open-vocabulary segmentation and in-context segmentation. Comprehensive experiments demonstrate that COSINE has significant performance improvements in both open-vocabulary and in-context segmentation tasks. Our exploratory analyses highlight that the synergistic collaboration between using visual and textual prompts leads to significantly improved generalization over single-modality approaches.
academic

マルチモーダルプロンプトを用いた統一的オープンワールドセグメンテーション

基本情報

  • 論文ID: 2510.10524
  • タイトル: Unified Open-World Segmentation with Multi-Modal Prompts
  • 著者: Yang Liu, Yufei Yin, Chenchen Jing, Muzhi Zhu, Hao Chen, Yuling Xi, Bo Feng, Hao Wang, Shiyu Li, Chunhua Shen
  • 分類: cs.CV
  • 発表日: 2024年10月12日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.10524

要旨

本研究ではCOSINEを提案する。これはオープン語彙セグメンテーションと文脈セグメンテーションを統合し、テキストと画像などのマルチモーダルプロンプトをサポートする統一的なオープンワールドセグメンテーションモデルである。COSINEは基礎モデルを利用して入力画像と対応するマルチモーダルプロンプトの表現を抽出し、SegDecoderを使用してこれらの表現を整列させ、それらの相互作用をモデル化し、入力プロンプトによって異なる粒度で指定されたマスクを取得する。このようにして、COSINEは先行するオープン語彙セグメンテーションと文脈セグメンテーションパイプラインにおけるアーキテクチャの相違、学習目標の相違、および表現学習戦略の相違という問題を克服する。包括的な実験により、COSINEはオープン語彙および文脈セグメンテーションタスクの両方で顕著なパフォーマンス向上を示す。探索的分析は、視覚的およびテキストプロンプトの協調作用が単一モーダル手法と比較して汎化能力を大幅に向上させることを強調している。

研究背景と動機

問題定義

従来の閉世界セグメンテーションモデルは、訓練時に遭遇した固定クラスセットの認識に限定されるのに対し、オープンワールドセグメンテーションモデルはユーザーが提供するプロンプトに基づいて野生環境で任意の関連オブジェクトを位置特定する必要がある。現在のオープンワールドセグメンテーション研究は主に2つの異なるパラダイムを中心としている:

  1. オープン語彙セグメンテーション:クラス記述子から導出されたテキスト埋め込みで学習可能な分類器を置き換え、自然言語整列を通じて従来の閉集合セグメンテーションフレームワークを新しいクラスの認識に拡張する
  2. 文脈セグメンテーション:参照画像の文脈手がかりを利用して、クエリ画像で適応的なオブジェクトセグメンテーションを実現する

研究動機

既存手法には主に3つの核心的な問題が存在する:

  1. アーキテクチャの相違:異なる手法は全く異なるアーキテクチャ設計を採用している(例えば、SegGPTはViTエンコーダアーキテクチャを使用し、ODISEはMask2Formerエンコーダ-デコーダ構造を採用している)
  2. 学習目標の相違:オープン語彙セグメンテーションは画像-テキスト意味論的整列に焦点を当てるのに対し、文脈セグメンテーションは参照-クエリ関係のモデル化を強調する
  3. 表現学習戦略の相違:オープン語彙セグメンテーションはクラスマッチングのためにマルチモーダルモデルに依存し、文脈セグメンテーションは主にオブジェクト位置特定のために視覚基礎モデルを使用する

重要性

これら2つのパラダイムの統一は重要な意義を持つ:テキストのみに依存すると細粒度意味論的抽象化が不十分になる可能性があり、画像ベースの例は明確なクラス境界と意味論的整列が不足していることが多い。両者を統合することで、テキストと視覚モダリティの相補的な利点を十分に活用できる。

核心的貢献

  1. 初の統一フレームワーク:著者の知る限り、これは文脈セグメンテーションとオープン語彙セグメンテーションを統一する最初の手法であり、シンプルで効果的なCOSINEフレームワークを提案している
  2. 顕著なパフォーマンス向上:オープン語彙および文脈セグメンテーションタスクの両方で顕著なパフォーマンス改善を実現している
  3. マルチモーダル協調の洞察:異なるモダリティブランチ間の協調作用がオープンワールドセグメンテーションの汎化能力を強化することを発見し、研究コミュニティに貴重な洞察を提供している
  4. 軽量設計:基礎モデルを凍結し軽量デコーダのみを訓練することにより、基礎モデルのオープンワールド認識における可能性を効果的に解放している

方法の詳細

タスク定義

COSINEは統一的なオープンワールドセグメンテーションタスクを処理することを目的としており、入力は以下を含む:

  • ターゲット画像
  • マルチモーダルプロンプト(テキスト記述または参照画像)
  • 出力:異なる粒度のセグメンテーションマスク(意味論的、インスタンス、全景セグメンテーションなど)

モデルアーキテクチャ

全体設計

COSINEはシンプルな設計哲学を採用し、2つの主要コンポーネントを含む:

  1. モデルプール(Model Pool):ターゲット画像と異なるモダリティプロンプトの特徴を抽出する
  2. SegDecoder:画像とプロンプト特徴を処理するデコーダのみのセグメンテーションモデル

モデルプール

  • 視覚モデル:DINOv2およびCLIP視覚エンコーダ
  • 言語モデル:CLIPテキストエンコーダ
  • 入力処理
    • ターゲット画像:すべての視覚モデルを使用して画像特徴 F={Fi}iPF = \{F_i\}^P_i にエンコードする
    • 視覚プロンプト:DINOv2を使用してエンコードし、文脈マスクプーリングでプロンプトトークン V={vi}iMV = \{v_i\}^M_i に変換する
    • テキストプロンプト:言語モデルを使用してテキスト特徴 T={ti}iNT = \{t_i\}^N_i を抽出する

SegDecoderアーキテクチャ

4つの核心的なモジュールを含む:

  1. アダプタグループ
    • Feature Blender:異なる画像特徴を融合する
    • V-AdapterおよびT-Adapter:画像と各種モダリティプロンプトの特徴次元を整列させる
  2. 画像-プロンプト整列器(Image-Prompt Aligner)
    ⟨F', V', T'⟩ = Alignment(F, V, T; θ)
    

    自己注意、交差注意、およびフィードフォワードネットワークを通じて画像と異なるモダリティプロンプトを整列させる
  3. ピクセルデコーダ(Pixel Decoder)
    • 単一スケール:2つの転置畳み込み層で4×アップサンプリングを実現する
    • マルチスケール:変形可能な注意Transformer
  4. マルチモーダルデコーダ(Multi-Modality Decoder)
    ⟨Q_r, V_r, T_r⟩ = Decoder(Q, V', T', F', F_mask; φ)
    

    双経路設計を採用し、自己注意と交差注意を通じてオブジェクトクエリ、異なるモダリティプロンプト、および画像特徴間の相互作用を促進する

技術的革新点

  1. 統一表現空間:異なるモダリティの入力を標準化されたトークンシーケンスに変換し、構造的統一を実現する
  2. 協調訓練戦略:訓練期間中、画像とテキストプロンプトのサンプル比を1:1に保つ
  3. マルチモーダル協調推論:単一モーダルおよびマルチモーダルプロンプトの協調推論をサポートし、シンプルな平均融合メカニズムを通じて異なるモダリティ情報を統合する

実験設定

データセット

  • COCO:118K訓練画像、5K検証画像、複数のセグメンテーションタスクをサポート
  • Objects365:365個のオブジェクトクラス、638K画像、Objects365-SAM拡張版を使用
  • 参照セグメンテーションデータセット:refCLEF, refCOCO, refCOCO+, refCOCOg
  • 評価データセット:LVIS, ADE20K, Cityscapes, DAVIS 2017, YouTube-VOS 2019など

評価指標

  • 少数ショットセグメンテーション:mIoU(ワンショットおよび少数ショット学習)
  • インスタンスセグメンテーション:AP(すべてのクラス)およびAPr(稀少クラス)
  • 全景セグメンテーション:PQ(全景品質)およびAP
  • ビデオオブジェクトセグメンテーション:J&Fスコア
  • 参照セグメンテーション:cIoU

実装詳細

  • 基礎モデル:DINOv2 (ViT-L)およびCLIP (ConvNeXt-Large)
  • 訓練可能パラメータ:単一スケール25M、マルチスケール32M
  • 訓練設定:50K ステップ、バッチサイズ64、Adamオプティマイザ、学習率1e-4
  • データ拡張:ランダム水平反転および大規模スケール抖動(LSJ)

実験結果

主要結果

少数ショット意味論的セグメンテーション(LVIS-92i)

  • ワンショット学習:35.2 mIoU(vs. Matcher 33.0, SINE 31.2)
  • 少数ショット学習:40.7 mIoU(vs. Matcher 40.0, SINE 35.5)

少数ショットインスタンスセグメンテーション(LVIS)

  • AP:20.3(DINOv2の15.4を大幅に上回る)
  • APr:25.8(稀少クラスで優れたパフォーマンス)

オープン語彙全景セグメンテーション

  • ADE20K:PQ 31.0, AP 21.1(ODISEの23.4 PQ, 13.9 APを上回る)
  • Cityscapes:PQ 35.7, AP 15.6(SOTA手法と同等)

オープン語彙意味論的セグメンテーション

  • A-847:15.6 mIoU
  • PC-459:19.2 mIoU

アブレーション実験

視覚-テキスト相互作用効果

訓練段階(10K ステップ訓練):

  • 視覚ブランチのみ:LVIS-92i ワンショット学習 24.5 mIoU
  • テキストブランチのみ:ADE20K PQ 13.2
  • マルチモーダル結合:両ブランチのパフォーマンスを大幅に向上させる

推論段階

  • マルチモーダル協調により LVIS-92i で 35.2 から 43.1 mIoU に向上
  • ADE20K で 31.0 から 31.4 PQ に向上

コンポーネント貢献分析

  • DINOv2エンコーダのみ:オープン語彙タスクでパフォーマンスが大幅に低下
  • CLIPエンコーダのみ:文脈タスクでパフォーマンスが低下
  • Feature Blenderを削除:パフォーマンスが明らかに低下
  • Image-Prompt Aligner を削除:すべての指標が低下

ケース分析

論文は複数のシナリオでの定性的結果を示している:

  • 産業検査:視覚的およびテキストプロンプトの協調による欠陥の正確なセグメンテーション
  • 医学画像:複雑な医学画像でのマルチモーダルプロンプトの応用
  • 一般的なシーン:異なる粒度のセグメンテーションタスクの統一的処理

関連研究

オープンワールドセグメンテーション

  • オープン語彙セグメンテーション:ODISE, FC-CLIP, OpenSeeD などの手法はテキスト-画像整列に焦点を当てている
  • 文脈セグメンテーション:SegGPT, PerSAM, Matcher, DINOv などの手法は視覚的例を利用している

視覚基礎モデル

  • 自己教師あり学習:MAE, DINOv2 は強力な視覚特徴を提供する
  • マルチモーダル学習:CLIP は対比学習を通じて画像-テキスト整列を実現する
  • 汎用セグメンテーション:SAM はクラス非依存のゼロショットセグメンテーションを実現する

関連研究との相違

COSINEはオープン語彙および文脈セグメンテーションを統一する最初の手法であり、基礎モデルを凍結し軽量デコーダを訓練することにより、2つのパラダイムの効果的な統合を実現している。

結論と考察

主要な結論

  1. 統一フレームワークの有効性:COSINEはオープン語彙および文脈セグメンテーションを成功裏に統一し、複数のタスクで SOTA パフォーマンスを達成している
  2. マルチモーダル協調の重要性:視覚的およびテキストプロンプトの協調作用がモデルの汎化能力を大幅に向上させている
  3. 軽量設計の利点:基礎モデルを凍結することにより、COSINEは強いパフォーマンスを維持しながら訓練コストを大幅に削減している

制限事項

  1. 閉集合パフォーマンスの低下:オープンワールド汎化能力を強化するため、閉集合シナリオでのパフォーマンスが低下している(例えば、COCO での PQ 50.6 vs OpenSeeD 59.5)
  2. モデルプールの制限:限定された基礎モデルの組み合わせのみを探索し、より先進的な MLLM と拡散モデルの深い研究が不足している
  3. 計算コスト:複数の基礎モデルの使用は必然的に計算オーバーヘッドを増加させる

今後の方向性

  1. 知識蒸留:複数のモデルの知識を単一モデルに蒸留して計算コストを削減する
  2. より多くの基礎モデル:MLLM、拡散モデルなどのより先進的な基礎モデルを探索する
  3. アーキテクチャ最適化:統一アーキテクチャ設計をさらに最適化する

深い評価

利点

  1. 革新性が強い:オープン語彙および文脈セグメンテーションを統一するフレームワークを初めて提案し、重要な技術的問題を解決している
  2. 実験が充分:複数のデータセットとタスクで包括的な評価を実施し、詳細なアブレーション実験を含む
  3. 技術的貢献が明確:基礎モデルの凍結と軽量デコーダ設計を通じて実用的なソリューションを提供している
  4. 分析が深い:マルチモーダル協調効果について深い探索的分析を実施している

不足

  1. 理論分析が不足:マルチモーダル協調が有効である理由についての理論的説明が不足している
  2. 基礎モデル選択が限定的:他の可能な基礎モデルの組み合わせの探索が十分でない
  3. 計算効率分析が不十分:複数モデルがもたらす計算オーバーヘッドの分析が詳細でない

影響力

  1. 学術的価値:オープンワールドセグメンテーションに新しい統一的視点を提供し、後続研究を刺激する可能性がある
  2. 実用的価値:軽量設計により手法は優れた実用性を持つ
  3. 再現性:著者がコードのオープンソース化を約束しており、研究コミュニティによる採用と改善が容易である

適用シーン

  • 自動運転:道路上の様々なオブジェクトの認識とセグメンテーションが必要
  • インタラクティブロボット:自然言語指示または視覚的例に基づくセグメンテーションが必要
  • 医学画像分析:テキスト記述と視覚的例を組み合わせた病変セグメンテーション
  • 産業検査:マルチモーダルプロンプトに基づく欠陥検出

参考文献

論文は分割、基礎モデル、マルチモーダル学習など複数の分野の重要な研究を網羅した73篇の関連文献を引用しており、研究に堅実な理論的基礎を提供している。


総合評価:これはオープンワールドセグメンテーションという重要な問題に対して革新的な統一フレームワークを提案した高品質のコンピュータビジョン論文である。いくつかの制限事項が存在するが、その技術的貢献は明確であり、実験結果は説得力があり、分野の発展に重要な推進力を持つ。