Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.
- Paper-ID: 2507.01738
- Titel: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
- Autoren: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
- Institution: Southeast University, Baidu VIS, Stanford University
- Klassifizierung: cs.CV
- Veröffentlichungsdatum: 13. Oktober 2025 (arXiv v2)
- Paper-Link: https://arxiv.org/abs/2507.01738v2
Die Referenzbild-Segmentierung (RIS) ist eine anspruchsvolle Aufgabe, die darauf abzielt, Zielobjekte in Bildern basierend auf natürlichsprachlichen Ausdrücken zu segmentieren. Obwohl sich frühere Forschungen hauptsächlich auf die Verbesserung der visuell-sprachlichen Interaktion und die Erreichung feingranularer Lokalisierung konzentriert haben, fehlt eine systematische Analyse grundlegender Engpässe in bestehenden RIS-Frameworks. Um diese Lücke zu schließen, wird DeRIS vorgestellt – ein neues Framework, das RIS in zwei Schlüsselkomponenten zerlegt: Wahrnehmung (Perception) und Kognition (Cognition). Diese modulare Zerlegung ermöglicht eine systematische Analyse der Hauptengpässe, die die RIS-Leistung behindern. Die Forschung zeigt, dass die Hauptbeschränkung nicht in Wahrnehmungsmängeln liegt, sondern in unzureichenden multimodalen kognitiven Fähigkeiten aktueller Modelle. Um dieses Problem zu beheben, wird ein Rückkopplungssynergie-Mechanismus (Loopback Synergy) vorgeschlagen, der die Synergie zwischen Wahrnehmungs- und Kognitionsmodulen verbessert und damit präzise Segmentierung sowie gleichzeitig verbesserte robuste Bild-Text-Verständigung ermöglicht.
Die Referenzbild-Segmentierung (RIS) erfordert von Modellen, Zielobjekte in Bildern basierend auf natürlichsprachlichen Beschreibungen präzise zu segmentieren. Im Gegensatz zu traditionellen Segmentierungsaufgaben erfordert RIS ein tiefes Verständnis der Entsprechung zwischen sprachlichen Ausdrücken und visuellen Inhalten und bietet größere Flexibilität, ist aber auch anspruchsvoller.
Die Autoren unterteilen bestehende RIS-Methoden in zwei Kategorien:
- Wahrnehmungsorientierte Methoden (Perception-centric): Verlassen sich auf hierarchische Backbone-Netzwerke zur Beibehaltung feingranularer räumlicher Informationen, aber die Inhaltserkennungsfähigkeit der multimodalen Fusionsmodule ist schwach aufgrund begrenzter Vielfalt in nachgelagerten Datensätzen
- Kognitionsorientierte Methoden (Cognition-centric): Nutzen großflächig vortrainierte visuell-sprachliche Modelle zur Verbesserung des multimodalen Verständnisses, verlieren aber aufgrund der quadratischen Rechenkomplexität der Transformer-Architektur feingranulare räumliche Informationen bei hochauflösenden Eingaben
Bestehende Methoden weisen einen Kompromiss zwischen Wahrnehmungs- und Erkenntnisfähigkeiten auf. Der Artikel argumentiert, dass die RIS-Aufgabe von Natur aus zwei Schlüsseldimensionen umfasst: Wahrnehmung (genaue Lokalisierung von Vordergrundobjekten) und Kognition (umfassendes Verständnis von Text- und Visualinhalten), daher wird die Entkopplung dieser beiden Komponenten und ihre effektive Integration vorgeschlagen.
- Vorschlag des DeRIS-Frameworks: Das erste Framework, das die RIS-Aufgabe explizit in Wahrnehmungs- und Kognitionskomponenten zerlegt, integriert nahtlos die Vorteile beider zur Erreichung hochpräziser Wahrnehmungslokalisierung und robustem multimodalem Kontextverständnis
- Tiefgehende Analyse von RIS-Engpässen: Durch systematische Analyse wird festgestellt, dass Erkenntnisfähigkeit statt Wahrnehmungsfähigkeit der Hauptengpass von RIS ist, und ein Rückkopplungssynergie-Mechanismus wird vorgeschlagen, um progressive Interaktion zwischen Wahrnehmungs- und Kognitionsmodulen zu fördern
- Konvertierungsstrategie für nicht-referenzielle Stichproben: Entwicklung einer einfachen und effektiven Datenerweiterungsstrategie, die Trainingsinstabilität lindert und die Modellverallgemeinerung verbessert, um Herausforderungen der Long-Tail-Verteilung zu bewältigen
- SOTA-Leistung: Erreicht neue hochmoderne Leistung auf den Datensätzen RefCOCO/+/g und gRefCOCO
Gegeben ein Bild I und ein natürlichsprachlicher Ausdruck T erfordert die RIS-Aufgabe die Ausgabe von:
- Segmentierungsmaske Pm: Zeigt die Pixelebene-Position des Zielobjekts an
- Referenzielle Klassifizierung Pref: Bestimmt, ob jede Kandidatenregion das Ziel ist
- Nicht-referenzielle Beurteilung Pnr: Bestimmt, ob das beschriebene Objekt im Bild vorhanden ist
DeRIS enthält drei Hauptkomponenten:
- Wahrnehmungszweig: Verwendet hierarchischen Encoder zur Verarbeitung hochauflösender Bilder (384×384), behält feingranulare visuelle Darstellungen bei
- Kognitionszweig: Verwendet BEiT3-vortrainiertes Modell zur Verarbeitung niederauflösender Bilder (224×224) und Text, konzentriert sich auf semantisches Verständnis
- Rückkopplungssynergie-Mechanismus: Etabliert starke Interaktion zwischen Wahrnehmungs- und Kognitionszweigen
Jede Interaktionsrunde enthält Kognitions- und Wahrnehmungsebene:
Wahrnehmungsebene:
- Anfängliche Abfrage Qi interagiert mit Multi-Skalen-Merkmalen durch verformbare Kreuzaufmerksamkeit
- Selbstaufmerksamkeit etabliert Instanz-zu-Instanz-Beziehungen, erzeugt Ausgabe Qp
- Maskenvorhersage: Mp=Qp⋅fm, wobei fm=Conv(Concat(fh4,fv))
Kognitionsebene:
- Instanz-zu-Instanz-Beziehung: fs=AvgPool(fm×σ(Mp))
- Instanz-zu-Text-Beziehung: Qc=Attn(Qp′,ft,ft)
- Konfidenzwerte: Sr=MLP(Qc)
Abfragefusion:
Qf=C1(Qp,Qr)=MLP(Concat(Qp,Qr))
Um das Long-Tail-Verteilungsproblem im gRefCOCO-Datensatz zu lösen, bei dem nicht-referenzielle Stichproben nur 9% ausmachen, wird eine dreistufige Filterstrategie vorgeschlagen:
- Das ausgewählte Satzpaar entspricht einem Bild, das sich vom aktuellen Bild unterscheidet
- Die ausgewählte Satzlänge überschreitet den Schwellenwert Nw
- Die Satzähnlichkeit liegt unter dem Schwellenwert Ts
Ähnlichkeitsberechnung:
Sim(s1,s2)=2Jac(s1,s2)+Cos(s1,s2)
Gesamtverlustfunktion:
Li=λmLmaski+λrLri+λntLntiL=λaux∑i=1Nr−1Li+LNr
Dies umfasst Segmentierungsverlust (BCE+Dice), referenzielle Klassifizierungsverlust (BCE) und nicht-referenziellen Beurteilungsverlust (BCE).
- RefCOCO/+/g: Standard-RIS-Benchmark-Datensätze
- gRefCOCO: Verallgemeinerter Referenzbild-Segmentierungsdatensatz, unterstützt mehrfach-referenzielle und nicht-referenzielle Szenarien
- mIoU/cIoU/oIoU: Schnittpunkt-über-Union-Metriken
- gIoU: Verallgemeinerte Schnittpunkt-über-Union
- N-acc: Genauigkeit nicht-referenzieller Aussagen
- Pr@0.9: Präzision bei hohem Genauigkeitsschwellenwert
- Wahrnehmungszweig: Mask2Former-vortrainierte Gewichte, Eingabeauflösung 384×384
- Kognitionszweig: BEiT3-vortrainierte Gewichte, Eingabeauflösung 224×224
- Rückkopplungsrunden: 3 Runden
- Konvertierungswahrscheinlichkeit: Rc=15%
- Trainingsstrategie: AdamW-Optimierer, Lernrate 1e-4
Auf dem RefCOCO-Validierungssatz verbessert DeRIS-L OneRef-L um 4,46% mIoU:
- RefCOCO val: 85,72% vs 81,26%
- RefCOCO+ val: 81,28% vs 76,60%
- RefCOCOg val: 80,01% vs 75,68%
DeRIS-L übertrifft bestehende Methoden bei allen Metriken deutlich:
- Val-Satz cIoU: 72,00% vs 64,20% (HieA2G)
- N-acc-Metrik zeigt besonders signifikante Verbesserung: 82,22% vs 62,80%
Schlüsselfeststellung: Erkenntnisfähigkeit ist der Hauptengpass von RIS
- Kognitionsmodell-Upgrade von BERT-B zu BEiT3-L: cIoU-Verbesserung um 12,88%
- Wahrnehmungsmodell-Upgrade von Swin-S zu Swin-B: cIoU-Verbesserung nur um 1,20%
Vergleich verschiedener Verbindungsstrukturen:
- P-to-C (Baseline): gIoU 69,98%
- Rückkopplungssynergie: gIoU 71,37% (+1,39%)
- Trainingszeit grundsätzlich unverändert
- Ohne NSC: N-acc 60,19%
- Mit NSC: N-acc 79,25% (+19,06%)
- Signifikante Verbesserung der Trainingsstabilität
Im Vergleich zu reinen kognitionsorientierten Methoden behält DeRIS bei hochauflösenden Eingaben hohe Effizienz:
- Inferenzzeit bei 384er-Auflösung nur um 19% erhöht
- Pr@0.9-Metrik-Verbesserung um 14,41%
- Wahrnehmungsorientierte Methoden:
- Spätfusions-Methoden: Visuell-sprachliche Fusion nach Merkmalsextraktion
- Frühfusions-Methoden: Integration multimodaler Informationen während der Merkmalsextraktion
- Kognitionsorientierte Methoden:
- Nutzung vortrainierter visuell-sprachlicher Modelle zur Verbesserung der Erkenntnisfähigkeit
- Umfasst Single-Stream-, Dual-Stream-, Fusion-Encoder- und MLLM-Methoden
Im Vergleich zu bestehenden Arbeiten zerlegt und analysiert DeRIS erstmals systematisch die Rollen von Wahrnehmung und Kognition und bietet ein neues Architektur-Designparadigma.
- Entdeckung des Kognitionsengpasses: Systematische Analyse beweist, dass Erkenntnisfähigkeit statt Wahrnehmungsfähigkeit der Hauptlimitierungsfaktor des aktuellen RIS ist
- Effektives Architektur-Design: Der Rückkopplungssynergie-Mechanismus integriert erfolgreich Wahrnehmungs- und Erkenntnisvorteile
- Wert der Datenerweiterung: NSC-Strategie löst effektiv das Problem der Knappheit nicht-referenzieller Stichproben
- Rechenlast: Die Dual-Branch-Architektur erhöht die Rechenlast
- Hyperparameter-Empfindlichkeit: Hyperparameter wie Rückkopplungsrunden und Konvertierungswahrscheinlichkeit erfordern sorgfältige Abstimmung
- Datenabhängigkeit: Die Effektivität der NSC-Strategie hängt von der Vielfalt des Datensatzes ab
- Erforschung effizienterer Wahrnehmungs-Kognitions-Interaktionsmechanismen
- Untersuchung adaptiver Generierungsstrategien für nicht-referenzielle Stichproben
- Erweiterung auf komplexere multimodale Verständnisaufgaben
- Innovative Architektur: Das Zerlegungsdesign bietet eine neue Forschungsperspektive und analysiert systematisch die Kernengpässe von RIS
- Umfassende experimentelle Validierung: Zahlreiche Ablationsstudien beweisen die Effektivität jeder Komponente
- Hoher praktischer Wert: Erreicht SOTA-Leistung auf mehreren Benchmark-Datensätzen
- Tiefgehende Analyse: Kombination quantitativer und qualitativer Analysen bietet wertvolle Erkenntnisse
- Unzureichende theoretische Analyse: Fehlende theoretische Konvergenzanalyse des Rückkopplungssynergie-Mechanismus
- Validierung der Verallgemeinerung: Hauptsächlich auf Standard-Datensätzen validiert, fehlende Cross-Domain-Generalisierungsexperimente
- Raum für Effizienzoptimierung: Die Recheneffizienz des Dual-Branch-Designs hat noch Optimierungspotenzial
- Akademischer Beitrag: Bietet ein neues Architektur-Designparadigma für das RIS-Feld
- Praktischer Wert: Methode ist einfach, effektiv, leicht zu reproduzieren und anzuwenden
- Inspirationswert: Zerlegungsidee kann auf andere multimodale Aufgaben übertragen werden
DeRIS ist besonders geeignet für:
- Anwendungsszenarien, die hochpräzise Segmentierung erfordern
- Verständnisaufgaben mit komplexen sprachlichen Beschreibungen
- Verallgemeinerte Szenarien mit nicht-referenziellen und mehrfach-referenziellen Ausdrücken
- Praktische Anwendungen mit bestimmten Anforderungen an Inferenzeffizienz
Das Papier zitiert 75 relevante Arbeiten, die Arbeiten aus den Bereichen RIS, visuell-sprachliches Verständnis und Instanzsegmentierung abdecken und eine solide theoretische Grundlage für diese Forschung bieten.