2025-11-19T16:58:15.123993

Unified Open-World Segmentation with Multi-Modal Prompts

Liu, Yin, Jing et al.
In this work, we present COSINE, a unified open-world segmentation model that consolidates open-vocabulary segmentation and in-context segmentation with multi-modal prompts (e.g., text and image). COSINE exploits foundation models to extract representations for an input image and corresponding multi-modal prompts, and a SegDecoder to align these representations, model their interaction, and obtain masks specified by input prompts across different granularities. In this way, COSINE overcomes architectural discrepancies, divergent learning objectives, and distinct representation learning strategies of previous pipelines for open-vocabulary segmentation and in-context segmentation. Comprehensive experiments demonstrate that COSINE has significant performance improvements in both open-vocabulary and in-context segmentation tasks. Our exploratory analyses highlight that the synergistic collaboration between using visual and textual prompts leads to significantly improved generalization over single-modality approaches.
academic

Segmentazione Unificata del Mondo Aperto con Prompt Multi-Modali

Informazioni Fondamentali

  • ID Articolo: 2510.10524
  • Titolo: Unified Open-World Segmentation with Multi-Modal Prompts
  • Autori: Yang Liu, Yufei Yin, Chenchen Jing, Muzhi Zhu, Hao Chen, Yuling Xi, Bo Feng, Hao Wang, Shiyu Li, Chunhua Shen
  • Categoria: cs.CV
  • Data di Pubblicazione: 12 ottobre 2024 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2510.10524

Riassunto

Questo studio propone COSINE, un modello unificato di segmentazione del mondo aperto che integra la segmentazione con vocabolario aperto e la segmentazione contestuale, supportando prompt multi-modali (come testo e immagini). COSINE sfrutta i modelli fondamentali per estrarre rappresentazioni dell'immagine di input e dei corrispondenti prompt multi-modali, utilizzando SegDecoder per allineare queste rappresentazioni, modellare le loro interazioni e ottenere maschere specificate dai prompt di input a diverse granularità. In questo modo, COSINE supera i problemi dei precedenti pipeline di segmentazione con vocabolario aperto e segmentazione contestuale riguardanti differenze architettoniche, divergenze negli obiettivi di apprendimento e differenze nelle strategie di apprendimento delle rappresentazioni. Gli esperimenti complessivi dimostrano miglioramenti significativi delle prestazioni di COSINE sia nei compiti di segmentazione con vocabolario aperto che contestuale. L'analisi esplorativa evidenzia che la cooperazione sinergica tra prompt visivi e testuali migliora significativamente la capacità di generalizzazione rispetto agli approcci unimodali.

Contesto di Ricerca e Motivazione

Definizione del Problema

I modelli tradizionali di segmentazione in mondo chiuso sono limitati al riconoscimento di un insieme fisso di categorie incontrate durante l'addestramento, mentre i modelli di segmentazione del mondo aperto devono localizzare oggetti arbitrari rilevanti in ambienti selvatici sulla base di prompt forniti dall'utente. La ricerca attuale sulla segmentazione del mondo aperto si concentra principalmente su due paradigmi distinti:

  1. Segmentazione con Vocabolario Aperto: sostituisce i classificatori apprendibili con incorporamenti testuali derivati da descrittori di categorie, estendendo il framework di segmentazione in insieme chiuso tradizionale al riconoscimento di nuove categorie attraverso l'allineamento del linguaggio naturale
  2. Segmentazione Contestuale: sfrutta i segnali contestuali delle immagini di esempio per realizzare la segmentazione adattiva degli oggetti nelle immagini di query

Motivazione della Ricerca

I metodi esistenti presentano principalmente tre problemi fondamentali:

  1. Differenze Architettoniche: diversi metodi adottano design architettonici completamente diversi (ad esempio, SegGPT utilizza l'architettura dell'encoder ViT, ODISE adotta la struttura encoder-decoder Mask2Former)
  2. Divergenza negli Obiettivi di Apprendimento: la segmentazione con vocabolario aperto si concentra sull'allineamento semantico immagine-testo, mentre la segmentazione contestuale enfatizza la modellazione della relazione riferimento-query
  3. Differenze nelle Strategie di Apprendimento delle Rappresentazioni: la segmentazione con vocabolario aperto si basa su modelli multi-modali per l'abbinamento di categorie, mentre la segmentazione contestuale utilizza principalmente modelli fondamentali visivi per la localizzazione degli oggetti

Importanza

L'unificazione di questi due paradigmi è di grande importanza: dipendere esclusivamente dal testo può portare a un'astrazione semantica insufficiente a grana fine, mentre gli esempi basati su immagini spesso mancano di confini di categorie chiari e allineamento semantico. L'integrazione di entrambi può sfruttare pienamente i vantaggi complementari delle modalità testuali e visive.

Contributi Fondamentali

  1. Framework Unificato Innovativo: a conoscenza degli autori, questo è il primo metodo che unifica la segmentazione contestuale e la segmentazione con vocabolario aperto, proponendo il framework semplice ed efficace COSINE
  2. Miglioramenti Significativi delle Prestazioni: realizza miglioramenti significativi delle prestazioni sia nei compiti di segmentazione con vocabolario aperto che contestuale
  3. Intuizioni sulla Cooperazione Multi-Modale: scopre che la cooperazione sinergica tra diversi rami modali migliora la capacità di generalizzazione della segmentazione del mondo aperto, fornendo intuizioni preziose alla comunità di ricerca
  4. Design Leggero: attraverso il congelamento dei modelli fondamentali e l'addestramento solo del decoder leggero, libera efficacemente il potenziale dei modelli fondamentali nella percezione del mondo aperto

Spiegazione Dettagliata del Metodo

Definizione del Compito

COSINE mira a gestire il compito unificato di segmentazione del mondo aperto, con input che includono:

  • Immagine target
  • Prompt multi-modali (descrizioni testuali o immagini di esempio)
  • Output: maschere di segmentazione a diverse granularità (segmentazione semantica, di istanza, panoramica, ecc.)

Architettura del Modello

Design Complessivo

COSINE adotta una filosofia di design semplice, contenente due componenti principali:

  1. Pool di Modelli (Model Pool): estrae caratteristiche dell'immagine target e prompt di diverse modalità
  2. SegDecoder: modello di segmentazione solo-decoder che elabora caratteristiche di immagine e prompt

Pool di Modelli

  • Modello Visivo: encoder visivo DINOv2 e CLIP
  • Modello Linguistico: encoder testuale CLIP
  • Elaborazione dell'Input:
    • Immagine target: codificata utilizzando tutti i modelli visivi in caratteristiche di immagine F={Fi}iPF = \{F_i\}^P_i
    • Prompt visivi: codificati utilizzando DINOv2 e raggruppati con maschera contestuale in token di prompt V={vi}iMV = \{v_i\}^M_i
    • Prompt testuali: caratteristiche testuali estratte utilizzando il modello linguistico T={ti}iNT = \{t_i\}^N_i

Architettura SegDecoder

Contiene quattro moduli fondamentali:

  1. Gruppo di Adattatori:
    • Feature Blender: fonde diverse caratteristiche di immagine
    • V-Adapter e T-Adapter: allineano le dimensioni delle caratteristiche di immagine e vari prompt modali
  2. Allineatore Immagine-Prompt (Image-Prompt Aligner):
    ⟨F', V', T'⟩ = Alignment(F, V, T; θ)
    

    Allinea immagine e prompt di diverse modalità attraverso auto-attenzione, attenzione incrociata e reti feed-forward
  3. Decoder di Pixel (Pixel Decoder):
    • Scala singola: due strati di convoluzione trasposta, realizzando 4× sovracampionamento
    • Multi-scala: Transformer con attenzione deformabile
  4. Decoder Multi-Modale (Multi-Modality Decoder):
    ⟨Q_r, V_r, T_r⟩ = Decoder(Q, V', T', F', F_mask; φ)
    

    Adotta un design a doppio percorso, promuovendo l'interazione tra query di oggetti, prompt di diverse modalità e caratteristiche di immagine attraverso auto-attenzione e attenzione incrociata

Punti di Innovazione Tecnica

  1. Spazio di Rappresentazione Unificato: converte input di diverse modalità in sequenze di token standardizzate, realizzando l'unificazione strutturale
  2. Strategia di Addestramento Cooperativo: mantiene un rapporto 1:1 tra campioni di prompt di immagine e testo durante l'addestramento
  3. Inferenza Multi-Modale Cooperativa: supporta l'inferenza cooperativa di prompt unimodali e multi-modali, integrando informazioni di diverse modalità attraverso un semplice meccanismo di fusione per media

Configurazione Sperimentale

Dataset

  • COCO: 118K immagini di addestramento, 5K immagini di validazione, supporta molteplici compiti di segmentazione
  • Objects365: 365 categorie di oggetti, 638K immagini, utilizza la versione migliorata Objects365-SAM
  • Dataset di Segmentazione di Riferimento: refCLEF, refCOCO, refCOCO+, refCOCOg
  • Dataset di Valutazione: LVIS, ADE20K, Cityscapes, DAVIS 2017, YouTube-VOS 2019, ecc.

Metriche di Valutazione

  • Segmentazione con Pochi Campioni: mIoU (apprendimento one-shot e few-shot)
  • Segmentazione di Istanza: AP (tutte le categorie) e APr (categorie rare)
  • Segmentazione Panoramica: PQ (qualità panoramica) e AP
  • Segmentazione di Oggetti Video: punteggio J&F
  • Segmentazione di Riferimento: cIoU

Dettagli di Implementazione

  • Modelli Fondamentali: DINOv2 (ViT-L) e CLIP (ConvNeXt-Large)
  • Parametri Addestrabili: 25M scala singola, 32M multi-scala
  • Configurazione di Addestramento: 50K step, dimensione batch 64, ottimizzatore Adam, tasso di apprendimento 1e-4
  • Aumento dei Dati: capovolgimento orizzontale casuale e jitter su larga scala (LSJ)

Risultati Sperimentali

Risultati Principali

Segmentazione Semantica con Pochi Campioni (LVIS-92i)

  • Apprendimento One-Shot: 35.2 mIoU (vs. Matcher 33.0, SINE 31.2)
  • Apprendimento Few-Shot: 40.7 mIoU (vs. Matcher 40.0, SINE 35.5)

Segmentazione di Istanza con Pochi Campioni (LVIS)

  • AP: 20.3 (significativamente superiore a DINOv 15.4)
  • APr: 25.8 (prestazioni eccellenti su categorie rare)

Segmentazione Panoramica con Vocabolario Aperto

  • ADE20K: PQ 31.0, AP 21.1 (superiore a ODISE 23.4 PQ, 13.9 AP)
  • Cityscapes: PQ 35.7, AP 15.6 (paragonabile ai metodi SOTA)

Segmentazione Semantica con Vocabolario Aperto

  • A-847: 15.6 mIoU
  • PC-459: 19.2 mIoU

Esperimenti di Ablazione

Effetto dell'Interazione Visivo-Testuale

Fase di Addestramento (10K step di addestramento):

  • Solo ramo visivo: LVIS-92i apprendimento one-shot 24.5 mIoU
  • Solo ramo testuale: ADE20K PQ 13.2
  • Unione multi-modale: miglioramento significativo delle prestazioni di entrambi i rami

Fase di Inferenza:

  • Cooperazione multi-modale migliora LVIS-92i da 35.2 a 43.1 mIoU
  • Su ADE20K migliora da 31.0 a 31.4 PQ

Analisi del Contributo dei Componenti

  • Solo encoder DINOv2: calo significativo delle prestazioni nei compiti con vocabolario aperto
  • Solo encoder CLIP: calo delle prestazioni nei compiti contestuali
  • Rimozione di Feature Blender: chiaro calo delle prestazioni
  • Rimozione di Image-Prompt Aligner: calo di tutti gli indicatori

Analisi Qualitativa

L'articolo presenta risultati qualitativi in vari scenari:

  • Ispezione Industriale: cooperazione di prompt visivi e testuali per la segmentazione accurata dei difetti
  • Imaging Medico: applicazione di prompt multi-modali in immagini mediche complesse
  • Scene Generali: gestione unificata di compiti di segmentazione a diverse granularità

Lavori Correlati

Segmentazione del Mondo Aperto

  • Segmentazione con Vocabolario Aperto: ODISE, FC-CLIP, OpenSeeD e altri metodi si concentrano sull'allineamento testo-immagine
  • Segmentazione Contestuale: SegGPT, PerSAM, Matcher, DINOv e altri metodi sfruttano esempi visivi

Modelli Fondamentali Visivi

  • Apprendimento Auto-Supervisionato: MAE, DINOv2 forniscono caratteristiche visive robuste
  • Apprendimento Multi-Modale: CLIP realizza l'allineamento immagine-testo attraverso l'apprendimento contrastivo
  • Segmentazione Universale: SAM realizza la segmentazione zero-shot indipendente dalla categoria

Distinzione dai Lavori Correlati

COSINE è il primo metodo che unifica la segmentazione con vocabolario aperto e la segmentazione contestuale, realizzando un'integrazione efficace dei due paradigmi attraverso il congelamento dei modelli fondamentali e l'addestramento di un decoder leggero.

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Framework Unificato: COSINE unifica con successo la segmentazione con vocabolario aperto e la segmentazione contestuale, raggiungendo prestazioni SOTA su molteplici compiti
  2. Importanza della Cooperazione Multi-Modale: la cooperazione tra prompt visivi e testuali migliora significativamente la capacità di generalizzazione del modello
  3. Vantaggi del Design Leggero: attraverso il congelamento dei modelli fondamentali, COSINE riduce significativamente i costi di addestramento mantenendo prestazioni robuste

Limitazioni

  1. Sacrificio delle Prestazioni in Insieme Chiuso: per migliorare la capacità di generalizzazione del mondo aperto, le prestazioni in scenari di insieme chiuso diminuiscono (ad esempio, PQ 50.6 su COCO vs. OpenSeeD 59.5)
  2. Limitazioni del Pool di Modelli: esplora solo combinazioni limitate di modelli fondamentali, non approfondisce la ricerca su MLLM più avanzati e modelli di diffusione
  3. Costo Computazionale: l'uso di molteplici modelli fondamentali inevitabilmente aumenta il sovraccarico computazionale

Direzioni Future

  1. Distillazione della Conoscenza: distillare la conoscenza di molteplici modelli in un singolo modello per ridurre i costi computazionali
  2. Più Modelli Fondamentali: esplorare modelli fondamentali più avanzati come MLLM e modelli di diffusione
  3. Ottimizzazione Architetturale: ottimizzare ulteriormente il design dell'architettura unificata

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: propone per la prima volta un framework che unifica la segmentazione con vocabolario aperto e la segmentazione contestuale, risolvendo un importante problema tecnico
  2. Esperimenti Completi: conduce una valutazione completa su molteplici dataset e compiti, inclusi dettagliati esperimenti di ablazione
  3. Contributi Tecnici Chiari: fornisce una soluzione pratica attraverso il congelamento dei modelli fondamentali e il design del decoder leggero
  4. Analisi Approfondita: conduce un'analisi esplorativa approfondita degli effetti della cooperazione multi-modale

Insufficienze

  1. Analisi Teorica Insufficiente: manca una spiegazione teorica del perché la cooperazione multi-modale sia efficace
  2. Limitazioni nella Scelta dei Modelli Fondamentali: non esplora sufficientemente altre possibili combinazioni di modelli fondamentali
  3. Analisi dell'Efficienza Computazionale Insufficiente: l'analisi del sovraccarico computazionale causato da molteplici modelli non è sufficientemente dettagliata

Impatto

  1. Valore Accademico: fornisce una nuova prospettiva unificata per la segmentazione del mondo aperto, potenzialmente ispirando ricerche successive
  2. Valore Pratico: il design leggero rende il metodo di buona praticità
  3. Riproducibilità: gli autori si impegnano a rendere il codice open-source, facilitando l'adozione e il miglioramento da parte della comunità di ricerca

Scenari Applicabili

  • Guida Autonoma: necessita di riconoscere e segmentare vari oggetti sulla strada
  • Robot Interattivi: necessita di segmentazione basata su istruzioni in linguaggio naturale o esempi visivi
  • Analisi di Imaging Medico: combina descrizioni testuali e esempi visivi per la segmentazione di lesioni
  • Rilevamento Industriale: rilevamento di difetti basato su prompt multi-modali

Bibliografia

L'articolo cita 73 riferimenti correlati, coprendo importanti lavori in molteplici campi come segmentazione, modelli fondamentali e apprendimento multi-modale, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della visione artificiale, che propone un framework unificato innovativo per l'importante problema della segmentazione del mondo aperto. Sebbene presenti alcune limitazioni, i suoi contributi tecnici sono chiari, i risultati sperimentali convincenti e ha un ruolo importante nel promuovere lo sviluppo del settore.