2025-11-19T16:58:15.123993

Unified Open-World Segmentation with Multi-Modal Prompts

Liu, Yin, Jing et al.

In this work, we present COSINE, a unified open-world segmentation model that consolidates open-vocabulary segmentation and in-context segmentation with multi-modal prompts (e.g., text and image). COSINE exploits foundation models to extract representations for an input image and corresponding multi-modal prompts, and a SegDecoder to align these representations, model their interaction, and obtain masks specified by input prompts across different granularities. In this way, COSINE overcomes architectural discrepancies, divergent learning objectives, and distinct representation learning strategies of previous pipelines for open-vocabulary segmentation and in-context segmentation. Comprehensive experiments demonstrate that COSINE has significant performance improvements in both open-vocabulary and in-context segmentation tasks. Our exploratory analyses highlight that the synergistic collaboration between using visual and textual prompts leads to significantly improved generalization over single-modality approaches.

academic

Segmentazione Unificata del Mondo Aperto con Prompt Multi-Modali

Informazioni Fondamentali

ID Articolo: 2510.10524
Titolo: Unified Open-World Segmentation with Multi-Modal Prompts
Autori: Yang Liu, Yufei Yin, Chenchen Jing, Muzhi Zhu, Hao Chen, Yuling Xi, Bo Feng, Hao Wang, Shiyu Li, Chunhua Shen
Categoria: cs.CV
Data di Pubblicazione: 12 ottobre 2024 (preprint arXiv)
Link dell'Articolo: https://arxiv.org/abs/2510.10524

Riassunto

Questo studio propone COSINE, un modello unificato di segmentazione del mondo aperto che integra la segmentazione con vocabolario aperto e la segmentazione contestuale, supportando prompt multi-modali (come testo e immagini). COSINE sfrutta i modelli fondamentali per estrarre rappresentazioni dell'immagine di input e dei corrispondenti prompt multi-modali, utilizzando SegDecoder per allineare queste rappresentazioni, modellare le loro interazioni e ottenere maschere specificate dai prompt di input a diverse granularità. In questo modo, COSINE supera i problemi dei precedenti pipeline di segmentazione con vocabolario aperto e segmentazione contestuale riguardanti differenze architettoniche, divergenze negli obiettivi di apprendimento e differenze nelle strategie di apprendimento delle rappresentazioni. Gli esperimenti complessivi dimostrano miglioramenti significativi delle prestazioni di COSINE sia nei compiti di segmentazione con vocabolario aperto che contestuale. L'analisi esplorativa evidenzia che la cooperazione sinergica tra prompt visivi e testuali migliora significativamente la capacità di generalizzazione rispetto agli approcci unimodali.

Contesto di Ricerca e Motivazione

Definizione del Problema

I modelli tradizionali di segmentazione in mondo chiuso sono limitati al riconoscimento di un insieme fisso di categorie incontrate durante l'addestramento, mentre i modelli di segmentazione del mondo aperto devono localizzare oggetti arbitrari rilevanti in ambienti selvatici sulla base di prompt forniti dall'utente. La ricerca attuale sulla segmentazione del mondo aperto si concentra principalmente su due paradigmi distinti:

Segmentazione con Vocabolario Aperto: sostituisce i classificatori apprendibili con incorporamenti testuali derivati da descrittori di categorie, estendendo il framework di segmentazione in insieme chiuso tradizionale al riconoscimento di nuove categorie attraverso l'allineamento del linguaggio naturale
Segmentazione Contestuale: sfrutta i segnali contestuali delle immagini di esempio per realizzare la segmentazione adattiva degli oggetti nelle immagini di query

Motivazione della Ricerca

I metodi esistenti presentano principalmente tre problemi fondamentali:

Differenze Architettoniche: diversi metodi adottano design architettonici completamente diversi (ad esempio, SegGPT utilizza l'architettura dell'encoder ViT, ODISE adotta la struttura encoder-decoder Mask2Former)
Divergenza negli Obiettivi di Apprendimento: la segmentazione con vocabolario aperto si concentra sull'allineamento semantico immagine-testo, mentre la segmentazione contestuale enfatizza la modellazione della relazione riferimento-query
Differenze nelle Strategie di Apprendimento delle Rappresentazioni: la segmentazione con vocabolario aperto si basa su modelli multi-modali per l'abbinamento di categorie, mentre la segmentazione contestuale utilizza principalmente modelli fondamentali visivi per la localizzazione degli oggetti

Importanza

L'unificazione di questi due paradigmi è di grande importanza: dipendere esclusivamente dal testo può portare a un'astrazione semantica insufficiente a grana fine, mentre gli esempi basati su immagini spesso mancano di confini di categorie chiari e allineamento semantico. L'integrazione di entrambi può sfruttare pienamente i vantaggi complementari delle modalità testuali e visive.

Contributi Fondamentali

Framework Unificato Innovativo: a conoscenza degli autori, questo è il primo metodo che unifica la segmentazione contestuale e la segmentazione con vocabolario aperto, proponendo il framework semplice ed efficace COSINE
Miglioramenti Significativi delle Prestazioni: realizza miglioramenti significativi delle prestazioni sia nei compiti di segmentazione con vocabolario aperto che contestuale
Intuizioni sulla Cooperazione Multi-Modale: scopre che la cooperazione sinergica tra diversi rami modali migliora la capacità di generalizzazione della segmentazione del mondo aperto, fornendo intuizioni preziose alla comunità di ricerca
Design Leggero: attraverso il congelamento dei modelli fondamentali e l'addestramento solo del decoder leggero, libera efficacemente il potenziale dei modelli fondamentali nella percezione del mondo aperto

Spiegazione Dettagliata del Metodo

Definizione del Compito

COSINE mira a gestire il compito unificato di segmentazione del mondo aperto, con input che includono:

Immagine target
Prompt multi-modali (descrizioni testuali o immagini di esempio)
Output: maschere di segmentazione a diverse granularità (segmentazione semantica, di istanza, panoramica, ecc.)

Architettura del Modello

Design Complessivo

COSINE adotta una filosofia di design semplice, contenente due componenti principali:

Pool di Modelli (Model Pool): estrae caratteristiche dell'immagine target e prompt di diverse modalità
SegDecoder: modello di segmentazione solo-decoder che elabora caratteristiche di immagine e prompt

Pool di Modelli

Modello Visivo: encoder visivo DINOv2 e CLIP
Modello Linguistico: encoder testuale CLIP
Elaborazione dell'Input:
- Immagine target: codificata utilizzando tutti i modelli visivi in caratteristiche di immagine $F = \{F_i\}^P_i$
- Prompt visivi: codificati utilizzando DINOv2 e raggruppati con maschera contestuale in token di prompt $V = \{v_i\}^M_i$
- Prompt testuali: caratteristiche testuali estratte utilizzando il modello linguistico $T = \{t_i\}^N_i$

Architettura SegDecoder

Contiene quattro moduli fondamentali:

Gruppo di Adattatori:
- Feature Blender: fonde diverse caratteristiche di immagine
- V-Adapter e T-Adapter: allineano le dimensioni delle caratteristiche di immagine e vari prompt modali
Allineatore Immagine-Prompt (Image-Prompt Aligner):
```
⟨F', V', T'⟩ = Alignment(F, V, T; θ)
```
Allinea immagine e prompt di diverse modalità attraverso auto-attenzione, attenzione incrociata e reti feed-forward
Decoder di Pixel (Pixel Decoder):
- Scala singola: due strati di convoluzione trasposta, realizzando 4× sovracampionamento
- Multi-scala: Transformer con attenzione deformabile
Decoder Multi-Modale (Multi-Modality Decoder):
```
⟨Q_r, V_r, T_r⟩ = Decoder(Q, V', T', F', F_mask; φ)
```
Adotta un design a doppio percorso, promuovendo l'interazione tra query di oggetti, prompt di diverse modalità e caratteristiche di immagine attraverso auto-attenzione e attenzione incrociata

Punti di Innovazione Tecnica

Spazio di Rappresentazione Unificato: converte input di diverse modalità in sequenze di token standardizzate, realizzando l'unificazione strutturale
Strategia di Addestramento Cooperativo: mantiene un rapporto 1:1 tra campioni di prompt di immagine e testo durante l'addestramento
Inferenza Multi-Modale Cooperativa: supporta l'inferenza cooperativa di prompt unimodali e multi-modali, integrando informazioni di diverse modalità attraverso un semplice meccanismo di fusione per media

Configurazione Sperimentale

Dataset

COCO: 118K immagini di addestramento, 5K immagini di validazione, supporta molteplici compiti di segmentazione
Objects365: 365 categorie di oggetti, 638K immagini, utilizza la versione migliorata Objects365-SAM
Dataset di Segmentazione di Riferimento: refCLEF, refCOCO, refCOCO+, refCOCOg
Dataset di Valutazione: LVIS, ADE20K, Cityscapes, DAVIS 2017, YouTube-VOS 2019, ecc.

Metriche di Valutazione

Segmentazione con Pochi Campioni: mIoU (apprendimento one-shot e few-shot)
Segmentazione di Istanza: AP (tutte le categorie) e APr (categorie rare)
Segmentazione Panoramica: PQ (qualità panoramica) e AP
Segmentazione di Oggetti Video: punteggio J&F
Segmentazione di Riferimento: cIoU

Dettagli di Implementazione

Modelli Fondamentali: DINOv2 (ViT-L) e CLIP (ConvNeXt-Large)
Parametri Addestrabili: 25M scala singola, 32M multi-scala
Configurazione di Addestramento: 50K step, dimensione batch 64, ottimizzatore Adam, tasso di apprendimento 1e-4
Aumento dei Dati: capovolgimento orizzontale casuale e jitter su larga scala (LSJ)

Risultati Sperimentali

Risultati Principali

Segmentazione Semantica con Pochi Campioni (LVIS-92i)

Apprendimento One-Shot: 35.2 mIoU (vs. Matcher 33.0, SINE 31.2)
Apprendimento Few-Shot: 40.7 mIoU (vs. Matcher 40.0, SINE 35.5)

Segmentazione di Istanza con Pochi Campioni (LVIS)

AP: 20.3 (significativamente superiore a DINOv 15.4)
APr: 25.8 (prestazioni eccellenti su categorie rare)

Segmentazione Panoramica con Vocabolario Aperto

ADE20K: PQ 31.0, AP 21.1 (superiore a ODISE 23.4 PQ, 13.9 AP)
Cityscapes: PQ 35.7, AP 15.6 (paragonabile ai metodi SOTA)

Segmentazione Semantica con Vocabolario Aperto

A-847: 15.6 mIoU
PC-459: 19.2 mIoU

Esperimenti di Ablazione

Effetto dell'Interazione Visivo-Testuale

Fase di Addestramento (10K step di addestramento):

Solo ramo visivo: LVIS-92i apprendimento one-shot 24.5 mIoU
Solo ramo testuale: ADE20K PQ 13.2
Unione multi-modale: miglioramento significativo delle prestazioni di entrambi i rami

Fase di Inferenza:

Cooperazione multi-modale migliora LVIS-92i da 35.2 a 43.1 mIoU
Su ADE20K migliora da 31.0 a 31.4 PQ

Analisi del Contributo dei Componenti

Solo encoder DINOv2: calo significativo delle prestazioni nei compiti con vocabolario aperto
Solo encoder CLIP: calo delle prestazioni nei compiti contestuali
Rimozione di Feature Blender: chiaro calo delle prestazioni
Rimozione di Image-Prompt Aligner: calo di tutti gli indicatori

Analisi Qualitativa

L'articolo presenta risultati qualitativi in vari scenari:

Ispezione Industriale: cooperazione di prompt visivi e testuali per la segmentazione accurata dei difetti
Imaging Medico: applicazione di prompt multi-modali in immagini mediche complesse
Scene Generali: gestione unificata di compiti di segmentazione a diverse granularità

Lavori Correlati

Segmentazione del Mondo Aperto

Segmentazione con Vocabolario Aperto: ODISE, FC-CLIP, OpenSeeD e altri metodi si concentrano sull'allineamento testo-immagine
Segmentazione Contestuale: SegGPT, PerSAM, Matcher, DINOv e altri metodi sfruttano esempi visivi

Modelli Fondamentali Visivi

Apprendimento Auto-Supervisionato: MAE, DINOv2 forniscono caratteristiche visive robuste
Apprendimento Multi-Modale: CLIP realizza l'allineamento immagine-testo attraverso l'apprendimento contrastivo
Segmentazione Universale: SAM realizza la segmentazione zero-shot indipendente dalla categoria

Distinzione dai Lavori Correlati

COSINE è il primo metodo che unifica la segmentazione con vocabolario aperto e la segmentazione contestuale, realizzando un'integrazione efficace dei due paradigmi attraverso il congelamento dei modelli fondamentali e l'addestramento di un decoder leggero.

Conclusioni e Discussione

Conclusioni Principali

Efficacia del Framework Unificato: COSINE unifica con successo la segmentazione con vocabolario aperto e la segmentazione contestuale, raggiungendo prestazioni SOTA su molteplici compiti
Importanza della Cooperazione Multi-Modale: la cooperazione tra prompt visivi e testuali migliora significativamente la capacità di generalizzazione del modello
Vantaggi del Design Leggero: attraverso il congelamento dei modelli fondamentali, COSINE riduce significativamente i costi di addestramento mantenendo prestazioni robuste

Limitazioni

Sacrificio delle Prestazioni in Insieme Chiuso: per migliorare la capacità di generalizzazione del mondo aperto, le prestazioni in scenari di insieme chiuso diminuiscono (ad esempio, PQ 50.6 su COCO vs. OpenSeeD 59.5)
Limitazioni del Pool di Modelli: esplora solo combinazioni limitate di modelli fondamentali, non approfondisce la ricerca su MLLM più avanzati e modelli di diffusione
Costo Computazionale: l'uso di molteplici modelli fondamentali inevitabilmente aumenta il sovraccarico computazionale

Direzioni Future

Distillazione della Conoscenza: distillare la conoscenza di molteplici modelli in un singolo modello per ridurre i costi computazionali
Più Modelli Fondamentali: esplorare modelli fondamentali più avanzati come MLLM e modelli di diffusione
Ottimizzazione Architetturale: ottimizzare ulteriormente il design dell'architettura unificata

Valutazione Approfondita

Punti di Forza

Forte Innovatività: propone per la prima volta un framework che unifica la segmentazione con vocabolario aperto e la segmentazione contestuale, risolvendo un importante problema tecnico
Esperimenti Completi: conduce una valutazione completa su molteplici dataset e compiti, inclusi dettagliati esperimenti di ablazione
Contributi Tecnici Chiari: fornisce una soluzione pratica attraverso il congelamento dei modelli fondamentali e il design del decoder leggero
Analisi Approfondita: conduce un'analisi esplorativa approfondita degli effetti della cooperazione multi-modale

Insufficienze

Analisi Teorica Insufficiente: manca una spiegazione teorica del perché la cooperazione multi-modale sia efficace
Limitazioni nella Scelta dei Modelli Fondamentali: non esplora sufficientemente altre possibili combinazioni di modelli fondamentali
Analisi dell'Efficienza Computazionale Insufficiente: l'analisi del sovraccarico computazionale causato da molteplici modelli non è sufficientemente dettagliata

Impatto

Valore Accademico: fornisce una nuova prospettiva unificata per la segmentazione del mondo aperto, potenzialmente ispirando ricerche successive
Valore Pratico: il design leggero rende il metodo di buona praticità
Riproducibilità: gli autori si impegnano a rendere il codice open-source, facilitando l'adozione e il miglioramento da parte della comunità di ricerca

Scenari Applicabili

Guida Autonoma: necessita di riconoscere e segmentare vari oggetti sulla strada
Robot Interattivi: necessita di segmentazione basata su istruzioni in linguaggio naturale o esempi visivi
Analisi di Imaging Medico: combina descrizioni testuali e esempi visivi per la segmentazione di lesioni
Rilevamento Industriale: rilevamento di difetti basato su prompt multi-modali

Bibliografia

L'articolo cita 73 riferimenti correlati, coprendo importanti lavori in molteplici campi come segmentazione, modelli fondamentali e apprendimento multi-modale, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della visione artificiale, che propone un framework unificato innovativo per l'importante problema della segmentazione del mondo aperto. Sebbene presenti alcune limitazioni, i suoi contributi tecnici sono chiari, i risultati sperimentali convincenti e ha un ruolo importante nel promuovere lo sviluppo del settore.