2025-11-25T09:16:18.025021

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

Dai, Cheng, Liu et al.
Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.
academic

DeRIS: Entkopplung von Wahrnehmung und Kognition für verbesserte Referenzbild-Segmentierung durch Rückkopplungssynergie

Grundlegende Informationen

  • Paper-ID: 2507.01738
  • Titel: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
  • Autoren: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
  • Institution: Southeast University, Baidu VIS, Stanford University
  • Klassifizierung: cs.CV
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2507.01738v2

Zusammenfassung

Die Referenzbild-Segmentierung (RIS) ist eine anspruchsvolle Aufgabe, die darauf abzielt, Zielobjekte in Bildern basierend auf natürlichsprachlichen Ausdrücken zu segmentieren. Obwohl sich frühere Forschungen hauptsächlich auf die Verbesserung der visuell-sprachlichen Interaktion und die Erreichung feingranularer Lokalisierung konzentriert haben, fehlt eine systematische Analyse grundlegender Engpässe in bestehenden RIS-Frameworks. Um diese Lücke zu schließen, wird DeRIS vorgestellt – ein neues Framework, das RIS in zwei Schlüsselkomponenten zerlegt: Wahrnehmung (Perception) und Kognition (Cognition). Diese modulare Zerlegung ermöglicht eine systematische Analyse der Hauptengpässe, die die RIS-Leistung behindern. Die Forschung zeigt, dass die Hauptbeschränkung nicht in Wahrnehmungsmängeln liegt, sondern in unzureichenden multimodalen kognitiven Fähigkeiten aktueller Modelle. Um dieses Problem zu beheben, wird ein Rückkopplungssynergie-Mechanismus (Loopback Synergy) vorgeschlagen, der die Synergie zwischen Wahrnehmungs- und Kognitionsmodulen verbessert und damit präzise Segmentierung sowie gleichzeitig verbesserte robuste Bild-Text-Verständigung ermöglicht.

Forschungshintergrund und Motivation

Problemdefinition

Die Referenzbild-Segmentierung (RIS) erfordert von Modellen, Zielobjekte in Bildern basierend auf natürlichsprachlichen Beschreibungen präzise zu segmentieren. Im Gegensatz zu traditionellen Segmentierungsaufgaben erfordert RIS ein tiefes Verständnis der Entsprechung zwischen sprachlichen Ausdrücken und visuellen Inhalten und bietet größere Flexibilität, ist aber auch anspruchsvoller.

Einschränkungen bestehender Methoden

Die Autoren unterteilen bestehende RIS-Methoden in zwei Kategorien:

  1. Wahrnehmungsorientierte Methoden (Perception-centric): Verlassen sich auf hierarchische Backbone-Netzwerke zur Beibehaltung feingranularer räumlicher Informationen, aber die Inhaltserkennungsfähigkeit der multimodalen Fusionsmodule ist schwach aufgrund begrenzter Vielfalt in nachgelagerten Datensätzen
  2. Kognitionsorientierte Methoden (Cognition-centric): Nutzen großflächig vortrainierte visuell-sprachliche Modelle zur Verbesserung des multimodalen Verständnisses, verlieren aber aufgrund der quadratischen Rechenkomplexität der Transformer-Architektur feingranulare räumliche Informationen bei hochauflösenden Eingaben

Forschungsmotivation

Bestehende Methoden weisen einen Kompromiss zwischen Wahrnehmungs- und Erkenntnisfähigkeiten auf. Der Artikel argumentiert, dass die RIS-Aufgabe von Natur aus zwei Schlüsseldimensionen umfasst: Wahrnehmung (genaue Lokalisierung von Vordergrundobjekten) und Kognition (umfassendes Verständnis von Text- und Visualinhalten), daher wird die Entkopplung dieser beiden Komponenten und ihre effektive Integration vorgeschlagen.

Kernbeiträge

  1. Vorschlag des DeRIS-Frameworks: Das erste Framework, das die RIS-Aufgabe explizit in Wahrnehmungs- und Kognitionskomponenten zerlegt, integriert nahtlos die Vorteile beider zur Erreichung hochpräziser Wahrnehmungslokalisierung und robustem multimodalem Kontextverständnis
  2. Tiefgehende Analyse von RIS-Engpässen: Durch systematische Analyse wird festgestellt, dass Erkenntnisfähigkeit statt Wahrnehmungsfähigkeit der Hauptengpass von RIS ist, und ein Rückkopplungssynergie-Mechanismus wird vorgeschlagen, um progressive Interaktion zwischen Wahrnehmungs- und Kognitionsmodulen zu fördern
  3. Konvertierungsstrategie für nicht-referenzielle Stichproben: Entwicklung einer einfachen und effektiven Datenerweiterungsstrategie, die Trainingsinstabilität lindert und die Modellverallgemeinerung verbessert, um Herausforderungen der Long-Tail-Verteilung zu bewältigen
  4. SOTA-Leistung: Erreicht neue hochmoderne Leistung auf den Datensätzen RefCOCO/+/g und gRefCOCO

Methodische Details

Aufgabendefinition

Gegeben ein Bild I und ein natürlichsprachlicher Ausdruck T erfordert die RIS-Aufgabe die Ausgabe von:

  • Segmentierungsmaske PmP_m: Zeigt die Pixelebene-Position des Zielobjekts an
  • Referenzielle Klassifizierung PrefP_{ref}: Bestimmt, ob jede Kandidatenregion das Ziel ist
  • Nicht-referenzielle Beurteilung PnrP_{nr}: Bestimmt, ob das beschriebene Objekt im Bild vorhanden ist

Modellarchitektur

Gesamtarchitektur

DeRIS enthält drei Hauptkomponenten:

  1. Wahrnehmungszweig: Verwendet hierarchischen Encoder zur Verarbeitung hochauflösender Bilder (384×384), behält feingranulare visuelle Darstellungen bei
  2. Kognitionszweig: Verwendet BEiT3-vortrainiertes Modell zur Verarbeitung niederauflösender Bilder (224×224) und Text, konzentriert sich auf semantisches Verständnis
  3. Rückkopplungssynergie-Mechanismus: Etabliert starke Interaktion zwischen Wahrnehmungs- und Kognitionszweigen

Rückkopplungssynergie-Mechanismus

Jede Interaktionsrunde enthält Kognitions- und Wahrnehmungsebene:

Wahrnehmungsebene:

  • Anfängliche Abfrage QiQ_i interagiert mit Multi-Skalen-Merkmalen durch verformbare Kreuzaufmerksamkeit
  • Selbstaufmerksamkeit etabliert Instanz-zu-Instanz-Beziehungen, erzeugt Ausgabe QpQ_p
  • Maskenvorhersage: Mp=QpfmM_p = Q_p \cdot f_m, wobei fm=Conv(Concat(fh4,fv))f_m = \text{Conv}(\text{Concat}(f_{h4}, f_v))

Kognitionsebene:

  • Instanz-zu-Instanz-Beziehung: fs=AvgPool(fm×σ(Mp))f_s = \text{AvgPool}(f_m \times \sigma(M_p))
  • Instanz-zu-Text-Beziehung: Qc=Attn(Qp,ft,ft)Q_c = \text{Attn}(Q'_p, f_t, f_t)
  • Konfidenzwerte: Sr=MLP(Qc)S_r = \text{MLP}(Q_c)

Abfragefusion: Qf=C1(Qp,Qr)=MLP(Concat(Qp,Qr))Q_f = \text{C1}(Q_p, Q_r) = \text{MLP}(\text{Concat}(Q_p, Q_r))

Konvertierung nicht-referenzieller Stichproben (NSC)

Um das Long-Tail-Verteilungsproblem im gRefCOCO-Datensatz zu lösen, bei dem nicht-referenzielle Stichproben nur 9% ausmachen, wird eine dreistufige Filterstrategie vorgeschlagen:

  1. Das ausgewählte Satzpaar entspricht einem Bild, das sich vom aktuellen Bild unterscheidet
  2. Die ausgewählte Satzlänge überschreitet den Schwellenwert NwN_w
  3. Die Satzähnlichkeit liegt unter dem Schwellenwert TsT_s

Ähnlichkeitsberechnung: Sim(s1,s2)=Jac(s1,s2)+Cos(s1,s2)2\text{Sim}(s_1, s_2) = \frac{\text{Jac}(s_1, s_2) + \text{Cos}(s_1, s_2)}{2}

Trainingsziele

Gesamtverlustfunktion: Li=λmLmaski+λrLri+λntLntiL^i = \lambda_m L^i_{mask} + \lambda_r L^i_r + \lambda_{nt} L^i_{nt}L=λauxi=1Nr1Li+LNrL = \lambda_{aux} \sum_{i=1}^{N_r-1} L^i + L^{N_r}

Dies umfasst Segmentierungsverlust (BCE+Dice), referenzielle Klassifizierungsverlust (BCE) und nicht-referenziellen Beurteilungsverlust (BCE).

Experimentelle Einrichtung

Datensätze

  • RefCOCO/+/g: Standard-RIS-Benchmark-Datensätze
  • gRefCOCO: Verallgemeinerter Referenzbild-Segmentierungsdatensatz, unterstützt mehrfach-referenzielle und nicht-referenzielle Szenarien

Bewertungsmetriken

  • mIoU/cIoU/oIoU: Schnittpunkt-über-Union-Metriken
  • gIoU: Verallgemeinerte Schnittpunkt-über-Union
  • N-acc: Genauigkeit nicht-referenzieller Aussagen
  • Pr@0.9: Präzision bei hohem Genauigkeitsschwellenwert

Implementierungsdetails

  • Wahrnehmungszweig: Mask2Former-vortrainierte Gewichte, Eingabeauflösung 384×384
  • Kognitionszweig: BEiT3-vortrainierte Gewichte, Eingabeauflösung 224×224
  • Rückkopplungsrunden: 3 Runden
  • Konvertierungswahrscheinlichkeit: Rc=15%R_c = 15\%
  • Trainingsstrategie: AdamW-Optimierer, Lernrate 1e-4

Experimentelle Ergebnisse

Hauptergebnisse

RIS-Aufgabenleistung (RefCOCO/+/g)

Auf dem RefCOCO-Validierungssatz verbessert DeRIS-L OneRef-L um 4,46% mIoU:

  • RefCOCO val: 85,72% vs 81,26%
  • RefCOCO+ val: 81,28% vs 76,60%
  • RefCOCOg val: 80,01% vs 75,68%

GRES-Aufgabenleistung (gRefCOCO)

DeRIS-L übertrifft bestehende Methoden bei allen Metriken deutlich:

  • Val-Satz cIoU: 72,00% vs 64,20% (HieA2G)
  • N-acc-Metrik zeigt besonders signifikante Verbesserung: 82,22% vs 62,80%

Ablationsstudien

Analyse von Wahrnehmungs- vs. Erkenntnisfähigkeit

Schlüsselfeststellung: Erkenntnisfähigkeit ist der Hauptengpass von RIS

  • Kognitionsmodell-Upgrade von BERT-B zu BEiT3-L: cIoU-Verbesserung um 12,88%
  • Wahrnehmungsmodell-Upgrade von Swin-S zu Swin-B: cIoU-Verbesserung nur um 1,20%

Effektivität des Rückkopplungssynergie-Mechanismus

Vergleich verschiedener Verbindungsstrukturen:

  • P-to-C (Baseline): gIoU 69,98%
  • Rückkopplungssynergie: gIoU 71,37% (+1,39%)
  • Trainingszeit grundsätzlich unverändert

NSC-Strategieeffekt

  • Ohne NSC: N-acc 60,19%
  • Mit NSC: N-acc 79,25% (+19,06%)
  • Signifikante Verbesserung der Trainingsstabilität

Effizienzanalyse

Im Vergleich zu reinen kognitionsorientierten Methoden behält DeRIS bei hochauflösenden Eingaben hohe Effizienz:

Verwandte Arbeiten

Klassifizierung von RIS-Methoden

  1. Wahrnehmungsorientierte Methoden:
    • Spätfusions-Methoden: Visuell-sprachliche Fusion nach Merkmalsextraktion
    • Frühfusions-Methoden: Integration multimodaler Informationen während der Merkmalsextraktion
  2. Kognitionsorientierte Methoden:
    • Nutzung vortrainierter visuell-sprachlicher Modelle zur Verbesserung der Erkenntnisfähigkeit
    • Umfasst Single-Stream-, Dual-Stream-, Fusion-Encoder- und MLLM-Methoden

Vorteile dieses Werks

Im Vergleich zu bestehenden Arbeiten zerlegt und analysiert DeRIS erstmals systematisch die Rollen von Wahrnehmung und Kognition und bietet ein neues Architektur-Designparadigma.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Entdeckung des Kognitionsengpasses: Systematische Analyse beweist, dass Erkenntnisfähigkeit statt Wahrnehmungsfähigkeit der Hauptlimitierungsfaktor des aktuellen RIS ist
  2. Effektives Architektur-Design: Der Rückkopplungssynergie-Mechanismus integriert erfolgreich Wahrnehmungs- und Erkenntnisvorteile
  3. Wert der Datenerweiterung: NSC-Strategie löst effektiv das Problem der Knappheit nicht-referenzieller Stichproben

Einschränkungen

  1. Rechenlast: Die Dual-Branch-Architektur erhöht die Rechenlast
  2. Hyperparameter-Empfindlichkeit: Hyperparameter wie Rückkopplungsrunden und Konvertierungswahrscheinlichkeit erfordern sorgfältige Abstimmung
  3. Datenabhängigkeit: Die Effektivität der NSC-Strategie hängt von der Vielfalt des Datensatzes ab

Zukünftige Richtungen

  1. Erforschung effizienterer Wahrnehmungs-Kognitions-Interaktionsmechanismen
  2. Untersuchung adaptiver Generierungsstrategien für nicht-referenzielle Stichproben
  3. Erweiterung auf komplexere multimodale Verständnisaufgaben

Tiefgehende Bewertung

Stärken

  1. Innovative Architektur: Das Zerlegungsdesign bietet eine neue Forschungsperspektive und analysiert systematisch die Kernengpässe von RIS
  2. Umfassende experimentelle Validierung: Zahlreiche Ablationsstudien beweisen die Effektivität jeder Komponente
  3. Hoher praktischer Wert: Erreicht SOTA-Leistung auf mehreren Benchmark-Datensätzen
  4. Tiefgehende Analyse: Kombination quantitativer und qualitativer Analysen bietet wertvolle Erkenntnisse

Mängel

  1. Unzureichende theoretische Analyse: Fehlende theoretische Konvergenzanalyse des Rückkopplungssynergie-Mechanismus
  2. Validierung der Verallgemeinerung: Hauptsächlich auf Standard-Datensätzen validiert, fehlende Cross-Domain-Generalisierungsexperimente
  3. Raum für Effizienzoptimierung: Die Recheneffizienz des Dual-Branch-Designs hat noch Optimierungspotenzial

Auswirkungen

  1. Akademischer Beitrag: Bietet ein neues Architektur-Designparadigma für das RIS-Feld
  2. Praktischer Wert: Methode ist einfach, effektiv, leicht zu reproduzieren und anzuwenden
  3. Inspirationswert: Zerlegungsidee kann auf andere multimodale Aufgaben übertragen werden

Anwendungsszenarien

DeRIS ist besonders geeignet für:

  • Anwendungsszenarien, die hochpräzise Segmentierung erfordern
  • Verständnisaufgaben mit komplexen sprachlichen Beschreibungen
  • Verallgemeinerte Szenarien mit nicht-referenziellen und mehrfach-referenziellen Ausdrücken
  • Praktische Anwendungen mit bestimmten Anforderungen an Inferenzeffizienz

Literaturverzeichnis

Das Papier zitiert 75 relevante Arbeiten, die Arbeiten aus den Bereichen RIS, visuell-sprachliches Verständnis und Instanzsegmentierung abdecken und eine solide theoretische Grundlage für diese Forschung bieten.