2025-11-25T09:16:18.025021

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

Dai, Cheng, Liu et al.

Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.

academic

DeRIS: Entkopplung von Wahrnehmung und Kognition für verbesserte Referenzbild-Segmentierung durch Rückkopplungssynergie

Grundlegende Informationen

Paper-ID: 2507.01738
Titel: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
Autoren: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
Institution: Southeast University, Baidu VIS, Stanford University
Klassifizierung: cs.CV
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2507.01738v2

Zusammenfassung

Die Referenzbild-Segmentierung (RIS) ist eine anspruchsvolle Aufgabe, die darauf abzielt, Zielobjekte in Bildern basierend auf natürlichsprachlichen Ausdrücken zu segmentieren. Obwohl sich frühere Forschungen hauptsächlich auf die Verbesserung der visuell-sprachlichen Interaktion und die Erreichung feingranularer Lokalisierung konzentriert haben, fehlt eine systematische Analyse grundlegender Engpässe in bestehenden RIS-Frameworks. Um diese Lücke zu schließen, wird DeRIS vorgestellt – ein neues Framework, das RIS in zwei Schlüsselkomponenten zerlegt: Wahrnehmung (Perception) und Kognition (Cognition). Diese modulare Zerlegung ermöglicht eine systematische Analyse der Hauptengpässe, die die RIS-Leistung behindern. Die Forschung zeigt, dass die Hauptbeschränkung nicht in Wahrnehmungsmängeln liegt, sondern in unzureichenden multimodalen kognitiven Fähigkeiten aktueller Modelle. Um dieses Problem zu beheben, wird ein Rückkopplungssynergie-Mechanismus (Loopback Synergy) vorgeschlagen, der die Synergie zwischen Wahrnehmungs- und Kognitionsmodulen verbessert und damit präzise Segmentierung sowie gleichzeitig verbesserte robuste Bild-Text-Verständigung ermöglicht.

Forschungshintergrund und Motivation

Problemdefinition

Die Referenzbild-Segmentierung (RIS) erfordert von Modellen, Zielobjekte in Bildern basierend auf natürlichsprachlichen Beschreibungen präzise zu segmentieren. Im Gegensatz zu traditionellen Segmentierungsaufgaben erfordert RIS ein tiefes Verständnis der Entsprechung zwischen sprachlichen Ausdrücken und visuellen Inhalten und bietet größere Flexibilität, ist aber auch anspruchsvoller.

Einschränkungen bestehender Methoden

Die Autoren unterteilen bestehende RIS-Methoden in zwei Kategorien:

Wahrnehmungsorientierte Methoden (Perception-centric): Verlassen sich auf hierarchische Backbone-Netzwerke zur Beibehaltung feingranularer räumlicher Informationen, aber die Inhaltserkennungsfähigkeit der multimodalen Fusionsmodule ist schwach aufgrund begrenzter Vielfalt in nachgelagerten Datensätzen
Kognitionsorientierte Methoden (Cognition-centric): Nutzen großflächig vortrainierte visuell-sprachliche Modelle zur Verbesserung des multimodalen Verständnisses, verlieren aber aufgrund der quadratischen Rechenkomplexität der Transformer-Architektur feingranulare räumliche Informationen bei hochauflösenden Eingaben

Forschungsmotivation

Bestehende Methoden weisen einen Kompromiss zwischen Wahrnehmungs- und Erkenntnisfähigkeiten auf. Der Artikel argumentiert, dass die RIS-Aufgabe von Natur aus zwei Schlüsseldimensionen umfasst: Wahrnehmung (genaue Lokalisierung von Vordergrundobjekten) und Kognition (umfassendes Verständnis von Text- und Visualinhalten), daher wird die Entkopplung dieser beiden Komponenten und ihre effektive Integration vorgeschlagen.

Kernbeiträge

Vorschlag des DeRIS-Frameworks: Das erste Framework, das die RIS-Aufgabe explizit in Wahrnehmungs- und Kognitionskomponenten zerlegt, integriert nahtlos die Vorteile beider zur Erreichung hochpräziser Wahrnehmungslokalisierung und robustem multimodalem Kontextverständnis
Tiefgehende Analyse von RIS-Engpässen: Durch systematische Analyse wird festgestellt, dass Erkenntnisfähigkeit statt Wahrnehmungsfähigkeit der Hauptengpass von RIS ist, und ein Rückkopplungssynergie-Mechanismus wird vorgeschlagen, um progressive Interaktion zwischen Wahrnehmungs- und Kognitionsmodulen zu fördern
Konvertierungsstrategie für nicht-referenzielle Stichproben: Entwicklung einer einfachen und effektiven Datenerweiterungsstrategie, die Trainingsinstabilität lindert und die Modellverallgemeinerung verbessert, um Herausforderungen der Long-Tail-Verteilung zu bewältigen
SOTA-Leistung: Erreicht neue hochmoderne Leistung auf den Datensätzen RefCOCO/+/g und gRefCOCO

Methodische Details

Aufgabendefinition

Gegeben ein Bild I und ein natürlichsprachlicher Ausdruck T erfordert die RIS-Aufgabe die Ausgabe von:

Segmentierungsmaske $P_m$ : Zeigt die Pixelebene-Position des Zielobjekts an
Referenzielle Klassifizierung $P_{ref}$ : Bestimmt, ob jede Kandidatenregion das Ziel ist
Nicht-referenzielle Beurteilung $P_{nr}$ : Bestimmt, ob das beschriebene Objekt im Bild vorhanden ist

Modellarchitektur

Gesamtarchitektur

DeRIS enthält drei Hauptkomponenten:

Wahrnehmungszweig: Verwendet hierarchischen Encoder zur Verarbeitung hochauflösender Bilder (384×384), behält feingranulare visuelle Darstellungen bei
Kognitionszweig: Verwendet BEiT3-vortrainiertes Modell zur Verarbeitung niederauflösender Bilder (224×224) und Text, konzentriert sich auf semantisches Verständnis
Rückkopplungssynergie-Mechanismus: Etabliert starke Interaktion zwischen Wahrnehmungs- und Kognitionszweigen

Rückkopplungssynergie-Mechanismus

Jede Interaktionsrunde enthält Kognitions- und Wahrnehmungsebene:

Wahrnehmungsebene:

Anfängliche Abfrage $Q_i$ interagiert mit Multi-Skalen-Merkmalen durch verformbare Kreuzaufmerksamkeit
Selbstaufmerksamkeit etabliert Instanz-zu-Instanz-Beziehungen, erzeugt Ausgabe $Q_p$
Maskenvorhersage: $M_p = Q_p \cdot f_m$ , wobei $f_m = \text{Conv}(\text{Concat}(f_{h4}, f_v))$

Kognitionsebene:

Instanz-zu-Instanz-Beziehung: $f_s = \text{AvgPool}(f_m \times \sigma(M_p))$
Instanz-zu-Text-Beziehung: $Q_c = \text{Attn}(Q'_p, f_t, f_t)$
Konfidenzwerte: $S_r = \text{MLP}(Q_c)$

Abfragefusion: $Q_f = \text{C1}(Q_p, Q_r) = \text{MLP}(\text{Concat}(Q_p, Q_r))$

Konvertierung nicht-referenzieller Stichproben (NSC)

Um das Long-Tail-Verteilungsproblem im gRefCOCO-Datensatz zu lösen, bei dem nicht-referenzielle Stichproben nur 9% ausmachen, wird eine dreistufige Filterstrategie vorgeschlagen:

Das ausgewählte Satzpaar entspricht einem Bild, das sich vom aktuellen Bild unterscheidet
Die ausgewählte Satzlänge überschreitet den Schwellenwert $N_w$
Die Satzähnlichkeit liegt unter dem Schwellenwert $T_s$

Ähnlichkeitsberechnung: $\text{Sim}(s_1, s_2) = \frac{\text{Jac}(s_1, s_2) + \text{Cos}(s_1, s_2)}{2}$

Trainingsziele

Gesamtverlustfunktion: $L^i = \lambda_m L^i_{mask} + \lambda_r L^i_r + \lambda_{nt} L^i_{nt}$ $L = \lambda_{aux} \sum_{i=1}^{N_r-1} L^i + L^{N_r}$

Dies umfasst Segmentierungsverlust (BCE+Dice), referenzielle Klassifizierungsverlust (BCE) und nicht-referenziellen Beurteilungsverlust (BCE).

Experimentelle Einrichtung

Datensätze

RefCOCO/+/g: Standard-RIS-Benchmark-Datensätze
gRefCOCO: Verallgemeinerter Referenzbild-Segmentierungsdatensatz, unterstützt mehrfach-referenzielle und nicht-referenzielle Szenarien

Bewertungsmetriken

mIoU/cIoU/oIoU: Schnittpunkt-über-Union-Metriken
gIoU: Verallgemeinerte Schnittpunkt-über-Union
N-acc: Genauigkeit nicht-referenzieller Aussagen
Pr@0.9: Präzision bei hohem Genauigkeitsschwellenwert

Implementierungsdetails

Wahrnehmungszweig: Mask2Former-vortrainierte Gewichte, Eingabeauflösung 384×384
Kognitionszweig: BEiT3-vortrainierte Gewichte, Eingabeauflösung 224×224
Rückkopplungsrunden: 3 Runden
Konvertierungswahrscheinlichkeit: $R_c = 15\%$
Trainingsstrategie: AdamW-Optimierer, Lernrate 1e-4

Experimentelle Ergebnisse

Hauptergebnisse

RIS-Aufgabenleistung (RefCOCO/+/g)

Auf dem RefCOCO-Validierungssatz verbessert DeRIS-L OneRef-L um 4,46% mIoU:

RefCOCO val: 85,72% vs 81,26%
RefCOCO+ val: 81,28% vs 76,60%
RefCOCOg val: 80,01% vs 75,68%

GRES-Aufgabenleistung (gRefCOCO)

DeRIS-L übertrifft bestehende Methoden bei allen Metriken deutlich:

Val-Satz cIoU: 72,00% vs 64,20% (HieA2G)
N-acc-Metrik zeigt besonders signifikante Verbesserung: 82,22% vs 62,80%

Ablationsstudien

Analyse von Wahrnehmungs- vs. Erkenntnisfähigkeit

Schlüsselfeststellung: Erkenntnisfähigkeit ist der Hauptengpass von RIS

Kognitionsmodell-Upgrade von BERT-B zu BEiT3-L: cIoU-Verbesserung um 12,88%
Wahrnehmungsmodell-Upgrade von Swin-S zu Swin-B: cIoU-Verbesserung nur um 1,20%

Effektivität des Rückkopplungssynergie-Mechanismus

Vergleich verschiedener Verbindungsstrukturen:

P-to-C (Baseline): gIoU 69,98%
Rückkopplungssynergie: gIoU 71,37% (+1,39%)
Trainingszeit grundsätzlich unverändert

NSC-Strategieeffekt

Ohne NSC: N-acc 60,19%
Mit NSC: N-acc 79,25% (+19,06%)
Signifikante Verbesserung der Trainingsstabilität

Effizienzanalyse

Im Vergleich zu reinen kognitionsorientierten Methoden behält DeRIS bei hochauflösenden Eingaben hohe Effizienz:

Inferenzzeit bei 384er-Auflösung nur um 19% erhöht
Pr@0.9-Metrik-Verbesserung um 14,41%

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Entdeckung des Kognitionsengpasses: Systematische Analyse beweist, dass Erkenntnisfähigkeit statt Wahrnehmungsfähigkeit der Hauptlimitierungsfaktor des aktuellen RIS ist
Effektives Architektur-Design: Der Rückkopplungssynergie-Mechanismus integriert erfolgreich Wahrnehmungs- und Erkenntnisvorteile
Wert der Datenerweiterung: NSC-Strategie löst effektiv das Problem der Knappheit nicht-referenzieller Stichproben

Einschränkungen

Rechenlast: Die Dual-Branch-Architektur erhöht die Rechenlast
Hyperparameter-Empfindlichkeit: Hyperparameter wie Rückkopplungsrunden und Konvertierungswahrscheinlichkeit erfordern sorgfältige Abstimmung
Datenabhängigkeit: Die Effektivität der NSC-Strategie hängt von der Vielfalt des Datensatzes ab

Zukünftige Richtungen

Erforschung effizienterer Wahrnehmungs-Kognitions-Interaktionsmechanismen
Untersuchung adaptiver Generierungsstrategien für nicht-referenzielle Stichproben
Erweiterung auf komplexere multimodale Verständnisaufgaben

Tiefgehende Bewertung

Stärken

Innovative Architektur: Das Zerlegungsdesign bietet eine neue Forschungsperspektive und analysiert systematisch die Kernengpässe von RIS
Umfassende experimentelle Validierung: Zahlreiche Ablationsstudien beweisen die Effektivität jeder Komponente
Hoher praktischer Wert: Erreicht SOTA-Leistung auf mehreren Benchmark-Datensätzen
Tiefgehende Analyse: Kombination quantitativer und qualitativer Analysen bietet wertvolle Erkenntnisse

Mängel

Unzureichende theoretische Analyse: Fehlende theoretische Konvergenzanalyse des Rückkopplungssynergie-Mechanismus
Validierung der Verallgemeinerung: Hauptsächlich auf Standard-Datensätzen validiert, fehlende Cross-Domain-Generalisierungsexperimente
Raum für Effizienzoptimierung: Die Recheneffizienz des Dual-Branch-Designs hat noch Optimierungspotenzial

Auswirkungen

Akademischer Beitrag: Bietet ein neues Architektur-Designparadigma für das RIS-Feld
Praktischer Wert: Methode ist einfach, effektiv, leicht zu reproduzieren und anzuwenden
Inspirationswert: Zerlegungsidee kann auf andere multimodale Aufgaben übertragen werden

Anwendungsszenarien

DeRIS ist besonders geeignet für:

Anwendungsszenarien, die hochpräzise Segmentierung erfordern
Verständnisaufgaben mit komplexen sprachlichen Beschreibungen
Verallgemeinerte Szenarien mit nicht-referenziellen und mehrfach-referenziellen Ausdrücken
Praktische Anwendungen mit bestimmten Anforderungen an Inferenzeffizienz

Literaturverzeichnis

Das Papier zitiert 75 relevante Arbeiten, die Arbeiten aus den Bereichen RIS, visuell-sprachliches Verständnis und Instanzsegmentierung abdecken und eine solide theoretische Grundlage für diese Forschung bieten.