Unified Open-World Segmentation with Multi-Modal Prompts
Liu, Yin, Jing et al.
In this work, we present COSINE, a unified open-world segmentation model that consolidates open-vocabulary segmentation and in-context segmentation with multi-modal prompts (e.g., text and image). COSINE exploits foundation models to extract representations for an input image and corresponding multi-modal prompts, and a SegDecoder to align these representations, model their interaction, and obtain masks specified by input prompts across different granularities. In this way, COSINE overcomes architectural discrepancies, divergent learning objectives, and distinct representation learning strategies of previous pipelines for open-vocabulary segmentation and in-context segmentation. Comprehensive experiments demonstrate that COSINE has significant performance improvements in both open-vocabulary and in-context segmentation tasks. Our exploratory analyses highlight that the synergistic collaboration between using visual and textual prompts leads to significantly improved generalization over single-modality approaches.
academic
Segmentazione Unificata del Mondo Aperto con Prompt Multi-Modali
Questo studio propone COSINE, un modello unificato di segmentazione del mondo aperto che integra la segmentazione con vocabolario aperto e la segmentazione contestuale, supportando prompt multi-modali (come testo e immagini). COSINE sfrutta i modelli fondamentali per estrarre rappresentazioni dell'immagine di input e dei corrispondenti prompt multi-modali, utilizzando SegDecoder per allineare queste rappresentazioni, modellare le loro interazioni e ottenere maschere specificate dai prompt di input a diverse granularità. In questo modo, COSINE supera i problemi dei precedenti pipeline di segmentazione con vocabolario aperto e segmentazione contestuale riguardanti differenze architettoniche, divergenze negli obiettivi di apprendimento e differenze nelle strategie di apprendimento delle rappresentazioni. Gli esperimenti complessivi dimostrano miglioramenti significativi delle prestazioni di COSINE sia nei compiti di segmentazione con vocabolario aperto che contestuale. L'analisi esplorativa evidenzia che la cooperazione sinergica tra prompt visivi e testuali migliora significativamente la capacità di generalizzazione rispetto agli approcci unimodali.
I modelli tradizionali di segmentazione in mondo chiuso sono limitati al riconoscimento di un insieme fisso di categorie incontrate durante l'addestramento, mentre i modelli di segmentazione del mondo aperto devono localizzare oggetti arbitrari rilevanti in ambienti selvatici sulla base di prompt forniti dall'utente. La ricerca attuale sulla segmentazione del mondo aperto si concentra principalmente su due paradigmi distinti:
Segmentazione con Vocabolario Aperto: sostituisce i classificatori apprendibili con incorporamenti testuali derivati da descrittori di categorie, estendendo il framework di segmentazione in insieme chiuso tradizionale al riconoscimento di nuove categorie attraverso l'allineamento del linguaggio naturale
Segmentazione Contestuale: sfrutta i segnali contestuali delle immagini di esempio per realizzare la segmentazione adattiva degli oggetti nelle immagini di query
I metodi esistenti presentano principalmente tre problemi fondamentali:
Differenze Architettoniche: diversi metodi adottano design architettonici completamente diversi (ad esempio, SegGPT utilizza l'architettura dell'encoder ViT, ODISE adotta la struttura encoder-decoder Mask2Former)
Divergenza negli Obiettivi di Apprendimento: la segmentazione con vocabolario aperto si concentra sull'allineamento semantico immagine-testo, mentre la segmentazione contestuale enfatizza la modellazione della relazione riferimento-query
Differenze nelle Strategie di Apprendimento delle Rappresentazioni: la segmentazione con vocabolario aperto si basa su modelli multi-modali per l'abbinamento di categorie, mentre la segmentazione contestuale utilizza principalmente modelli fondamentali visivi per la localizzazione degli oggetti
L'unificazione di questi due paradigmi è di grande importanza: dipendere esclusivamente dal testo può portare a un'astrazione semantica insufficiente a grana fine, mentre gli esempi basati su immagini spesso mancano di confini di categorie chiari e allineamento semantico. L'integrazione di entrambi può sfruttare pienamente i vantaggi complementari delle modalità testuali e visive.
Framework Unificato Innovativo: a conoscenza degli autori, questo è il primo metodo che unifica la segmentazione contestuale e la segmentazione con vocabolario aperto, proponendo il framework semplice ed efficace COSINE
Miglioramenti Significativi delle Prestazioni: realizza miglioramenti significativi delle prestazioni sia nei compiti di segmentazione con vocabolario aperto che contestuale
Intuizioni sulla Cooperazione Multi-Modale: scopre che la cooperazione sinergica tra diversi rami modali migliora la capacità di generalizzazione della segmentazione del mondo aperto, fornendo intuizioni preziose alla comunità di ricerca
Design Leggero: attraverso il congelamento dei modelli fondamentali e l'addestramento solo del decoder leggero, libera efficacemente il potenziale dei modelli fondamentali nella percezione del mondo aperto
Adotta un design a doppio percorso, promuovendo l'interazione tra query di oggetti, prompt di diverse modalità e caratteristiche di immagine attraverso auto-attenzione e attenzione incrociata
Spazio di Rappresentazione Unificato: converte input di diverse modalità in sequenze di token standardizzate, realizzando l'unificazione strutturale
Strategia di Addestramento Cooperativo: mantiene un rapporto 1:1 tra campioni di prompt di immagine e testo durante l'addestramento
Inferenza Multi-Modale Cooperativa: supporta l'inferenza cooperativa di prompt unimodali e multi-modali, integrando informazioni di diverse modalità attraverso un semplice meccanismo di fusione per media
COSINE è il primo metodo che unifica la segmentazione con vocabolario aperto e la segmentazione contestuale, realizzando un'integrazione efficace dei due paradigmi attraverso il congelamento dei modelli fondamentali e l'addestramento di un decoder leggero.
Efficacia del Framework Unificato: COSINE unifica con successo la segmentazione con vocabolario aperto e la segmentazione contestuale, raggiungendo prestazioni SOTA su molteplici compiti
Importanza della Cooperazione Multi-Modale: la cooperazione tra prompt visivi e testuali migliora significativamente la capacità di generalizzazione del modello
Vantaggi del Design Leggero: attraverso il congelamento dei modelli fondamentali, COSINE riduce significativamente i costi di addestramento mantenendo prestazioni robuste
Sacrificio delle Prestazioni in Insieme Chiuso: per migliorare la capacità di generalizzazione del mondo aperto, le prestazioni in scenari di insieme chiuso diminuiscono (ad esempio, PQ 50.6 su COCO vs. OpenSeeD 59.5)
Limitazioni del Pool di Modelli: esplora solo combinazioni limitate di modelli fondamentali, non approfondisce la ricerca su MLLM più avanzati e modelli di diffusione
Costo Computazionale: l'uso di molteplici modelli fondamentali inevitabilmente aumenta il sovraccarico computazionale
Forte Innovatività: propone per la prima volta un framework che unifica la segmentazione con vocabolario aperto e la segmentazione contestuale, risolvendo un importante problema tecnico
Esperimenti Completi: conduce una valutazione completa su molteplici dataset e compiti, inclusi dettagliati esperimenti di ablazione
Contributi Tecnici Chiari: fornisce una soluzione pratica attraverso il congelamento dei modelli fondamentali e il design del decoder leggero
Analisi Approfondita: conduce un'analisi esplorativa approfondita degli effetti della cooperazione multi-modale
Analisi Teorica Insufficiente: manca una spiegazione teorica del perché la cooperazione multi-modale sia efficace
Limitazioni nella Scelta dei Modelli Fondamentali: non esplora sufficientemente altre possibili combinazioni di modelli fondamentali
Analisi dell'Efficienza Computazionale Insufficiente: l'analisi del sovraccarico computazionale causato da molteplici modelli non è sufficientemente dettagliata
L'articolo cita 73 riferimenti correlati, coprendo importanti lavori in molteplici campi come segmentazione, modelli fondamentali e apprendimento multi-modale, fornendo una base teorica solida per la ricerca.
Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della visione artificiale, che propone un framework unificato innovativo per l'importante problema della segmentazione del mondo aperto. Sebbene presenti alcune limitazioni, i suoi contributi tecnici sono chiari, i risultati sperimentali convincenti e ha un ruolo importante nel promuovere lo sviluppo del settore.