Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.
- ID Articolo: 2507.01738
- Titolo: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
- Autori: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
- Istituzioni: Southeast University, Baidu VIS, Stanford University
- Classificazione: cs.CV
- Data di Pubblicazione: 13 ottobre 2025 (arXiv v2)
- Link Articolo: https://arxiv.org/abs/2507.01738v2
La segmentazione di immagini referenziali (RIS) è un compito impegnativo che mira a segmentare oggetti in un'immagine sulla base di espressioni in linguaggio naturale. Sebbene le ricerche precedenti si siano concentrate principalmente sul miglioramento dell'interazione visivo-linguistica e sul raggiungimento di una localizzazione a grana fine, rimane insufficiente un'analisi sistematica dei colli di bottiglia fondamentali nei framework RIS esistenti. Per colmare questa lacuna, il presente articolo propone DeRIS, un nuovo framework che scompone l'RIS in due componenti chiave: percezione e cognizione. Questo disaccoppiamento modulare facilita un'analisi sistematica dei principali colli di bottiglia che ostacolano le prestazioni dell'RIS. La ricerca rivela che il principale limite non risiede nei difetti percettivi, bensì nell'insufficiente capacità cognitiva multimodale dei modelli attuali. Per attenuare questo problema, viene proposto il meccanismo di Sinergia di Retroazione (Loopback Synergy), che potenzia la sinergia tra i moduli di percezione e cognizione, realizzando così una segmentazione precisa e migliorando contemporaneamente la comprensione robusta dell'immagine e del testo.
La segmentazione di immagini referenziali (RIS) richiede al modello di segmentare con precisione gli oggetti target corrispondenti in un'immagine sulla base di descrizioni in linguaggio naturale. A differenza dei compiti di segmentazione tradizionali, l'RIS necessita di una comprensione profonda della corrispondenza tra espressioni linguistiche e contenuto visivo, presentando maggiore flessibilità ma anche maggiore complessità.
Gli autori classificano i metodi RIS esistenti in due categorie:
- Metodi Incentrati sulla Percezione (Perception-centric): si affidano a reti backbone gerarchiche per preservare informazioni spaziali a grana fine, ma presentano capacità cognitiva dei contenuti debole nei moduli di fusione multimodale a causa della diversità limitata dei dataset downstream
- Metodi Incentrati sulla Cognizione (Cognition-centric): sfruttano modelli di preaddestramento visivo-linguistico su larga scala per potenziare la comprensione multimodale, ma perdono informazioni spaziali a grana fine in input ad alta risoluzione a causa della complessità computazionale quadratica dell'architettura Transformer
I metodi esistenti presentano un compromesso tra capacità percettiva e capacità cognitiva. Il presente articolo sostiene che il compito RIS coinvolge intrinsecamente due dimensioni chiave: percezione (localizzazione accurata degli oggetti in primo piano) e cognizione (comprensione completa del testo e del contenuto visivo), pertanto propone di disaccoppiare questi due componenti e integrare efficacemente i loro vantaggi.
- Propone il Framework DeRIS: il primo framework che esplicitamente scompone il compito RIS in componenti di percezione e cognizione, integrando perfettamente i vantaggi di entrambi per realizzare localizzazione percettiva ad alta precisione e comprensione robusta del contesto multimodale
- Analisi Approfondita dei Colli di Bottiglia dell'RIS: attraverso un'analisi sistematica scopre che la capacità cognitiva piuttosto che percettiva è il principale collo di bottiglia dell'RIS, e propone il meccanismo di Sinergia di Retroazione per promuovere l'interazione progressiva tra i moduli di percezione e cognizione
- Strategia di Conversione di Campioni Non-Referenziali: sviluppa una strategia di aumento dei dati semplice ed efficace che attenua l'instabilità dell'addestramento e potenzia la capacità di generalizzazione del modello, affrontando la sfida della distribuzione a coda lunga
- Prestazioni SOTA: raggiunge nuove prestazioni all'avanguardia sui dataset RefCOCO/+/g e gRefCOCO
Dato un'immagine I e un'espressione in linguaggio naturale T, il compito RIS richiede di produrre:
- Maschera di segmentazione Pm: indica la posizione a livello di pixel dell'oggetto target
- Classificazione referenziale Pref: determina se ogni regione candidata è l'oggetto target
- Giudizio non-referenziale Pnr: determina se l'oggetto descritto esiste nell'immagine
DeRIS contiene tre componenti principali:
- Ramo di Percezione: utilizza un encoder gerarchico per elaborare immagini ad alta risoluzione (384×384), preservando rappresentazioni visive a grana fine
- Ramo di Cognizione: utilizza il modello preaddestrato BEiT3 per elaborare immagini a bassa risoluzione (224×224) e testo, concentrandosi sulla comprensione semantica
- Meccanismo di Sinergia di Retroazione: stabilisce forte interazione tra i rami di percezione e cognizione
Ogni round di interazione contiene uno strato cognitivo e uno strato percettivo:
Strato Percettivo:
- La query iniziale Qi interagisce con caratteristiche multi-scala attraverso attenzione incrociata deformabile
- L'auto-attenzione stabilisce relazioni tra istanze, producendo output Qp
- Previsione della maschera: Mp=Qp⋅fm, dove fm=Conv(Concat(fh4,fv))
Strato Cognitivo:
- Relazione istanza-istanza: fs=AvgPool(fm×σ(Mp))
- Relazione istanza-testo: Qc=Attn(Qp′,ft,ft)
- Punteggio di confidenza: Sr=MLP(Qc)
Fusione delle Query:
Qf=C1(Qp,Qr)=MLP(Concat(Qp,Qr))
Per affrontare il problema della distribuzione a coda lunga nel dataset gRefCOCO dove i campioni non-referenziali rappresentano solo il 9%, viene proposta una strategia di filtraggio a tre livelli:
- L'immagine corrispondente alla frase selezionata è incoerente con l'immagine attuale
- La lunghezza della frase è maggiore della soglia Nw
- La similarità della frase è inferiore alla soglia Ts
Calcolo della similarità:
Sim(s1,s2)=2Jac(s1,s2)+Cos(s1,s2)
Funzione di perdita totale:
Li=λmLmaski+λrLri+λntLntiL=λaux∑i=1Nr−1Li+LNr
dove sono incluse la perdita di segmentazione (BCE+Dice), la perdita di classificazione referenziale (BCE) e la perdita di giudizio non-referenziale (BCE).
- RefCOCO/+/g: dataset benchmark standard per RIS
- gRefCOCO: dataset di segmentazione di espressioni referenziali generalizzate, supporta scenari multi-referenziali e non-referenziali
- mIoU/cIoU/oIoU: metriche di intersezione su unione
- gIoU: intersezione su unione generalizzata
- N-acc: accuratezza non-referenziale
- Pr@0.9: precisione a soglia di alta precisione
- Ramo di percezione: pesi preaddestrati Mask2Former, risoluzione di input 384×384
- Ramo di cognizione: pesi preaddestrati BEiT3, risoluzione di input 224×224
- Numero di round di retroazione: 3
- Probabilità di conversione: Rc=15%
- Strategia di addestramento: ottimizzatore AdamW, tasso di apprendimento 1e-4
Sul set di validazione RefCOCO, DeRIS-L mostra un miglioramento di 4.46% mIoU rispetto a OneRef-L:
- RefCOCO val: 85.72% vs 81.26%
- RefCOCO+ val: 81.28% vs 76.60%
- RefCOCOg val: 80.01% vs 75.68%
DeRIS-L supera significativamente i metodi esistenti su tutte le metriche:
- Val set cIoU: 72.00% vs 64.20% (HieA2G)
- Miglioramento particolarmente significativo nella metrica N-acc: 82.22% vs 62.80%
Scoperta chiave: la capacità cognitiva è il principale collo di bottiglia dell'RIS
- Aggiornamento del modello cognitivo da BERT-B a BEiT3-L: miglioramento cIoU di 12.88%
- Aggiornamento del modello percettivo da Swin-S a Swin-B: miglioramento cIoU di soli 1.20%
Confronto di diverse strutture di connessione:
- P-to-C (baseline): gIoU 69.98%
- Sinergia di retroazione: gIoU 71.37% (+1.39%)
- Tempo di addestramento praticamente invariato
- Senza NSC: N-acc 60.19%
- Con NSC: N-acc 79.25% (+19.06%)
- Significativo miglioramento della stabilità dell'addestramento
Rispetto ai metodi puramente incentrati sulla cognizione, DeRIS mantiene alta efficienza ad alta risoluzione:
- Tempo di inferenza a risoluzione 384 aumentato solo del 19%
- Metrica Pr@0.9 migliorata del 14.41%
- Metodi Incentrati sulla Percezione:
- Metodi di fusione tardiva: fusione visivo-linguistica dopo l'estrazione delle caratteristiche
- Metodi di fusione precoce: integrazione di informazioni multimodali durante l'estrazione delle caratteristiche
- Metodi Incentrati sulla Cognizione:
- Sfruttamento di modelli visivo-linguistici preaddestrati per potenziare la capacità cognitiva
- Include metodi a flusso singolo, a doppio flusso, encoder di fusione e MLLM
Rispetto ai lavori esistenti, DeRIS per la prima volta sistematicamente scompone e analizza il ruolo della percezione e della cognizione, fornendo un nuovo paradigma di progettazione architettonica.
- Scoperta del Collo di Bottiglia Cognitivo: l'analisi sistematica dimostra che la capacità cognitiva piuttosto che percettiva è il principale fattore limitante dell'RIS attuale
- Progettazione Architettonica Efficace: il meccanismo di Sinergia di Retroazione integra con successo i vantaggi della percezione e della cognizione
- Valore dell'Aumento dei Dati: la strategia NSC affronta efficacemente il problema della scarsità di campioni non-referenziali
- Costo Computazionale: l'architettura a doppio ramo aumenta un certo costo computazionale
- Sensibilità ai Iperparametri: il numero di round di retroazione, la probabilità di conversione e altri iperparametri richiedono un'attenta regolazione
- Dipendenza dai Dati: l'efficacia della strategia NSC dipende dalla diversità del dataset
- Esplorare meccanismi di interazione percezione-cognizione più efficienti
- Ricercare strategie adattive di generazione di campioni non-referenziali
- Estendere a compiti di comprensione multimodale più complessi
- Architettura Innovativa: il design di disaccoppiamento fornisce una nuova prospettiva di ricerca, analizzando sistematicamente i colli di bottiglia fondamentali dell'RIS
- Verifica Sperimentale Completa: numerosi esperimenti di ablazione dimostrano l'efficacia di ogni componente
- Alto Valore Pratico: raggiunge prestazioni SOTA su più dataset benchmark
- Analisi Approfondita: l'analisi quantitativa e qualitativa combinate forniscono intuizioni preziose
- Analisi Teorica Insufficiente: manca l'analisi della convergenza teorica del meccanismo di Sinergia di Retroazione
- Verifica della Generalizzazione: la validazione avviene principalmente su dataset standard, mancano esperimenti di generalizzazione cross-domain
- Spazio per l'Ottimizzazione dell'Efficienza: il design a doppio ramo presenta ancora spazio per l'ottimizzazione dell'efficienza computazionale
- Contributo Accademico: fornisce un nuovo paradigma di progettazione architettonica per il campo dell'RIS
- Valore Pratico: il metodo è semplice ed efficace, facile da riprodurre e applicare
- Significato Ispiratore: l'idea di disaccoppiamento può essere estesa ad altri compiti multimodali
DeRIS è particolarmente adatto per:
- Scenari applicativi che richiedono segmentazione ad alta precisione
- Compiti di comprensione di descrizioni linguistiche complesse
- Scenari generalizzati di espressioni multi-referenziali e non-referenziali
- Applicazioni pratiche con certi requisiti di efficienza di inferenza
L'articolo cita 75 riferimenti correlati, coprendo importanti lavori nei campi dell'RIS, della comprensione visivo-linguistica, della segmentazione di istanze e altri ambiti correlati, fornendo una solida base teorica per questa ricerca.