2025-11-25T09:16:18.025021

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

Dai, Cheng, Liu et al.

Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.

academic

DeRIS : Découplage de la Perception et de la Cognition pour une Segmentation d'Image Référencée Améliorée par Synergie de Rétroaction

Informations Fondamentales

ID de l'article : 2507.01738
Titre : DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
Auteurs : Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
Institutions : Southeast University, Baidu VIS, Stanford University
Classification : cs.CV
Date de publication : 13 octobre 2025 (arXiv v2)
Lien de l'article : https://arxiv.org/abs/2507.01738v2

Résumé

La segmentation d'image référencée (RIS) est une tâche complexe visant à segmenter des objets cibles dans une image en fonction d'expressions en langage naturel. Bien que les recherches antérieures se soient principalement concentrées sur l'amélioration de l'interaction vision-langage et la localisation à grain fin, une analyse systématique des goulots d'étranglement fondamentaux dans les cadres RIS existants reste insuffisante. Pour combler cette lacune, cet article propose DeRIS, un nouveau cadre qui décompose la RIS en deux composants clés : la perception et la cognition. Cette décomposition modulaire facilite une analyse systématique des goulots d'étranglement qui entravent les performances de la RIS. L'étude révèle que la principale limitation ne réside pas dans les défauts de perception, mais dans l'insuffisance des capacités cognitives multimodales des modèles actuels. Pour atténuer ce problème, un mécanisme de synergie de rétroaction (Loopback Synergy) est proposé, renforçant la synergie entre les modules de perception et de cognition, permettant ainsi une segmentation précise tout en améliorant la compréhension robuste de l'image et du texte.

Contexte de la Recherche et Motivation

Définition du Problème

La segmentation d'image référencée (RIS) exige que le modèle segmente avec précision les objets cibles correspondants dans une image en fonction de descriptions en langage naturel. Contrairement aux tâches de segmentation traditionnelles, la RIS nécessite une compréhension approfondie de la correspondance entre les expressions linguistiques et le contenu visuel, offrant une plus grande flexibilité mais présentant également des défis plus importants.

Limitations des Méthodes Existantes

Les auteurs classent les méthodes RIS existantes en deux catégories :

Méthodes centrées sur la perception : s'appuient sur des réseaux de base hiérarchiques pour préserver les informations spatiales à grain fin, mais présentent une capacité de cognition de contenu plus faible dans les modules de fusion multimodale en raison de la diversité limitée des ensembles de données en aval
Méthodes centrées sur la cognition : exploitent des modèles de préentraînement vision-langage à grande échelle pour améliorer la compréhension multimodale, mais perdent les informations spatiales à grain fin en entrée haute résolution en raison de la complexité de calcul quadratique de l'architecture Transformer

Motivation de la Recherche

Les méthodes existantes présentent un compromis entre les capacités de perception et de cognition. Cet article soutient que la tâche RIS implique essentiellement deux dimensions clés : la perception (localisation précise des objets au premier plan) et la cognition (compréhension complète du texte et du contenu visuel), proposant donc de découpler ces deux composants et d'intégrer efficacement leurs avantages.

Contributions Principales

Proposition du cadre DeRIS : premier cadre découplant explicitement la tâche RIS en composants de perception et de cognition, intégrant de manière transparente les avantages des deux pour réaliser une localisation de perception haute précision et une compréhension contextuelle multimodale robuste
Analyse approfondie des goulots d'étranglement RIS : grâce à une analyse systématique, découvrir que la capacité cognitive plutôt que la capacité de perception est le goulot d'étranglement principal de la RIS, et proposer un mécanisme de synergie de rétroaction favorisant l'interaction progressive entre les modules de perception et de cognition
Stratégie de conversion d'échantillons non-référencés : développer une stratégie d'augmentation de données simple mais efficace, atténuant l'instabilité de l'entraînement et renforçant la capacité de généralisation du modèle, résolvant les défis de distribution à queue longue
Performance SOTA : atteindre les performances de pointe les plus récentes sur les ensembles de données RefCOCO/+/g et gRefCOCO

Détails de la Méthode

Définition de la Tâche

Étant donné une image I et une expression en langage naturel T, la tâche RIS exige de produire :

Masque de segmentation $P_m$ : indiquant la localisation au niveau des pixels de l'objet cible
Classification référencée $P_{ref}$ : déterminant si chaque région candidate est la cible
Jugement non-référencé $P_{nr}$ : déterminant si l'objet décrit existe dans l'image

Architecture du Modèle

Architecture Globale

DeRIS comprend trois composants principaux :

Branche de perception : utilise un encodeur hiérarchique traitant des images haute résolution (384×384), préservant les représentations visuelles à grain fin
Branche de cognition : utilise le modèle préentraîné BEiT3 traitant des images basse résolution (224×224) et du texte, se concentrant sur la compréhension sémantique
Mécanisme de synergie de rétroaction : établissant une interaction forte entre les branches de perception et de cognition

Mécanisme de Synergie de Rétroaction

Chaque itération d'interaction comprend une couche cognitive et une couche de perception :

Couche de Perception :

La requête initiale $Q_i$ interagit avec les caractéristiques multi-échelles via l'attention croisée déformable
L'auto-attention établit les relations entre instances, produisant la sortie $Q_p$
Prédiction du masque : $M_p = Q_p \cdot f_m$ , où $f_m = \text{Conv}(\text{Concat}(f_{h4}, f_v))$

Couche de Cognition :

Relation instance-instance : $f_s = \text{AvgPool}(f_m \times \sigma(M_p))$
Relation instance-texte : $Q_c = \text{Attn}(Q'_p, f_t, f_t)$
Score de confiance : $S_r = \text{MLP}(Q_c)$

Fusion de Requête : $Q_f = \text{C1}(Q_p, Q_r) = \text{MLP}(\text{Concat}(Q_p, Q_r))$

Conversion d'Échantillons Non-Référencés (NSC)

Pour résoudre la distribution à queue longue où les échantillons non-référencés ne représentent que 9% de l'ensemble de données gRefCOCO, une stratégie de filtrage à trois niveaux est proposée :

Sélectionner les phrases dont l'image correspondante est incohérente avec l'image actuelle
Sélectionner les phrases dont la longueur dépasse le seuil $N_w$
Les phrases dont la similarité est inférieure au seuil $T_s$

Calcul de similarité : $\text{Sim}(s_1, s_2) = \frac{\text{Jac}(s_1, s_2) + \text{Cos}(s_1, s_2)}{2}$

Objectifs d'Entraînement

Fonction de perte totale : $L^i = \lambda_m L^i_{mask} + \lambda_r L^i_r + \lambda_{nt} L^i_{nt}$ $L = \lambda_{aux} \sum_{i=1}^{N_r-1} L^i + L^{N_r}$

Où sont incluses la perte de segmentation (BCE+Dice), la perte de classification référencée (BCE) et la perte de jugement non-référencé (BCE).

Configuration Expérimentale

Ensembles de Données

RefCOCO/+/g : ensembles de données de référence RIS standard
gRefCOCO : ensemble de données de segmentation d'expression référencée généralisée, supportant les scénarios multi-référencés et non-référencés

Métriques d'Évaluation

mIoU/cIoU/oIoU : métriques d'intersection sur union
gIoU : intersection sur union généralisée
N-acc : taux de précision non-référencé
Pr@0.9 : précision au seuil haute précision

Détails d'Implémentation

Branche de perception : poids préentraînés Mask2Former, résolution d'entrée 384×384
Branche de cognition : poids préentraînés BEiT3, résolution d'entrée 224×224
Nombre d'itérations de rétroaction : 3
Probabilité de conversion : $R_c = 15\%$
Stratégie d'entraînement : optimiseur AdamW, taux d'apprentissage 1e-4

Résultats Expérimentaux

Résultats Principaux

Performance de la Tâche RIS (RefCOCO/+/g)

Sur l'ensemble de validation RefCOCO, DeRIS-L améliore de 4,46% mIoU par rapport à OneRef-L :

RefCOCO val : 85,72% vs 81,26%
RefCOCO+ val : 81,28% vs 76,60%
RefCOCOg val : 80,01% vs 75,68%

Performance de la Tâche GRES (gRefCOCO)

DeRIS-L surpasse significativement les méthodes existantes sur tous les indicateurs :

Val cIoU : 72,00% vs 64,20% (HieA2G)
L'indicateur N-acc montre une amélioration particulièrement remarquable : 82,22% vs 62,80%

Expériences d'Ablation

Analyse des Capacités de Perception vs Cognition

Découverte clé : la capacité cognitive est le goulot d'étranglement principal de la RIS

Mise à niveau du modèle cognitif de BERT-B à BEiT3-L : amélioration cIoU de 12,88%
Mise à niveau du modèle de perception de Swin-S à Swin-B : amélioration cIoU de seulement 1,20%

Efficacité du Mécanisme de Synergie de Rétroaction

Comparaison de différentes structures de connexion :

P-to-C (ligne de base) : gIoU 69,98%
Synergie de rétroaction : gIoU 71,37% (+1,39%)
Temps d'entraînement essentiellement inchangé

Effet de la Stratégie NSC

Sans NSC : N-acc 60,19%
Avec NSC : N-acc 79,25% (+19,06%)
Amélioration significative de la stabilité d'entraînement

Analyse d'Efficacité

Par rapport aux méthodes purement centrées sur la cognition, DeRIS maintient une haute efficacité à haute résolution :

Temps d'inférence augmenté de seulement 19% à résolution 384
Amélioration de l'indicateur Pr@0.9 de 14,41%

Travaux Connexes

Classification des Méthodes RIS

Méthodes centrées sur la perception :
- Méthodes de fusion tardive : fusion vision-langage après extraction de caractéristiques
- Méthodes de fusion précoce : intégration d'informations multimodales pendant l'extraction de caractéristiques
Méthodes centrées sur la cognition :
- Exploitation de modèles de vision-langage préentraînés pour améliorer les capacités cognitives
- Incluant les approches à un flux, à deux flux, encodeurs fusionnés et MLLM

Avantages de Cet Article

Par rapport aux travaux existants, DeRIS découple et analyse systématiquement pour la première fois le rôle de la perception et de la cognition, fournissant un nouveau paradigme de conception architecturale.

Conclusion et Discussion

Conclusions Principales

Découverte du goulot d'étranglement cognitif : l'analyse systématique prouve que la capacité cognitive plutôt que la capacité de perception est le facteur limitant principal de la RIS actuelle
Conception architecturale efficace : le mécanisme de synergie de rétroaction intègre avec succès les avantages de la perception et de la cognition
Valeur de l'augmentation de données : la stratégie NSC résout efficacement le problème de rareté des échantillons non-référencés

Limitations

Surcharge de calcul : l'architecture à deux branches augmente certains coûts de calcul
Sensibilité aux hyperparamètres : le nombre d'itérations de rétroaction, la probabilité de conversion et autres hyperparamètres nécessitent un ajustement minutieux
Dépendance aux données : l'efficacité de la stratégie NSC dépend de la diversité de l'ensemble de données

Directions Futures

Explorer des mécanismes d'interaction perception-cognition plus efficaces
Étudier des stratégies de génération d'échantillons non-référencés adaptatives
Étendre à des tâches de compréhension multimodale plus complexes

Évaluation Approfondie

Points Forts

Architecture innovante : la conception découplée offre une nouvelle perspective de recherche, analysant systématiquement les goulots d'étranglement fondamentaux de la RIS
Vérification expérimentale suffisante : de nombreuses expériences d'ablation prouvent l'efficacité de chaque composant
Valeur pratique élevée : atteint les performances SOTA sur plusieurs ensembles de données de référence
Analyse approfondie : combinaison d'analyses quantitatives et qualitatives, fournissant des perspectives précieuses

Insuffisances

Analyse théorique insuffisante : manque d'analyse de convergence théorique pour le mécanisme de synergie de rétroaction
Vérification de généralisation : validation principalement sur des ensembles de données standard, manque d'expériences de généralisation inter-domaines
Espace d'optimisation d'efficacité : l'efficacité de calcul de la conception à deux branches peut encore être optimisée

Impact

Contribution académique : fournit un nouveau paradigme de conception architecturale pour le domaine de la RIS
Valeur pratique : la méthode est simple, efficace, facile à reproduire et à appliquer
Signification inspirante : l'idée de découplage peut être généralisée à d'autres tâches multimodales

Scénarios d'Application

DeRIS est particulièrement adapté à :

Les scénarios d'application nécessitant une segmentation haute précision
Les tâches de compréhension de descriptions linguistiques complexes
Les scénarios généralisés non-référencés et multi-référencés
Les applications pratiques ayant certaines exigences d'efficacité d'inférence

Références

L'article cite 75 références connexes, couvrant les travaux importants dans les domaines connexes de la RIS, de la compréhension vision-langage, de la segmentation d'instance, etc., fournissant une base théorique solide pour cette recherche.