Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.
- ID de l'article : 2507.01738
- Titre : DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
- Auteurs : Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
- Institutions : Southeast University, Baidu VIS, Stanford University
- Classification : cs.CV
- Date de publication : 13 octobre 2025 (arXiv v2)
- Lien de l'article : https://arxiv.org/abs/2507.01738v2
La segmentation d'image référencée (RIS) est une tâche complexe visant à segmenter des objets cibles dans une image en fonction d'expressions en langage naturel. Bien que les recherches antérieures se soient principalement concentrées sur l'amélioration de l'interaction vision-langage et la localisation à grain fin, une analyse systématique des goulots d'étranglement fondamentaux dans les cadres RIS existants reste insuffisante. Pour combler cette lacune, cet article propose DeRIS, un nouveau cadre qui décompose la RIS en deux composants clés : la perception et la cognition. Cette décomposition modulaire facilite une analyse systématique des goulots d'étranglement qui entravent les performances de la RIS. L'étude révèle que la principale limitation ne réside pas dans les défauts de perception, mais dans l'insuffisance des capacités cognitives multimodales des modèles actuels. Pour atténuer ce problème, un mécanisme de synergie de rétroaction (Loopback Synergy) est proposé, renforçant la synergie entre les modules de perception et de cognition, permettant ainsi une segmentation précise tout en améliorant la compréhension robuste de l'image et du texte.
La segmentation d'image référencée (RIS) exige que le modèle segmente avec précision les objets cibles correspondants dans une image en fonction de descriptions en langage naturel. Contrairement aux tâches de segmentation traditionnelles, la RIS nécessite une compréhension approfondie de la correspondance entre les expressions linguistiques et le contenu visuel, offrant une plus grande flexibilité mais présentant également des défis plus importants.
Les auteurs classent les méthodes RIS existantes en deux catégories :
- Méthodes centrées sur la perception : s'appuient sur des réseaux de base hiérarchiques pour préserver les informations spatiales à grain fin, mais présentent une capacité de cognition de contenu plus faible dans les modules de fusion multimodale en raison de la diversité limitée des ensembles de données en aval
- Méthodes centrées sur la cognition : exploitent des modèles de préentraînement vision-langage à grande échelle pour améliorer la compréhension multimodale, mais perdent les informations spatiales à grain fin en entrée haute résolution en raison de la complexité de calcul quadratique de l'architecture Transformer
Les méthodes existantes présentent un compromis entre les capacités de perception et de cognition. Cet article soutient que la tâche RIS implique essentiellement deux dimensions clés : la perception (localisation précise des objets au premier plan) et la cognition (compréhension complète du texte et du contenu visuel), proposant donc de découpler ces deux composants et d'intégrer efficacement leurs avantages.
- Proposition du cadre DeRIS : premier cadre découplant explicitement la tâche RIS en composants de perception et de cognition, intégrant de manière transparente les avantages des deux pour réaliser une localisation de perception haute précision et une compréhension contextuelle multimodale robuste
- Analyse approfondie des goulots d'étranglement RIS : grâce à une analyse systématique, découvrir que la capacité cognitive plutôt que la capacité de perception est le goulot d'étranglement principal de la RIS, et proposer un mécanisme de synergie de rétroaction favorisant l'interaction progressive entre les modules de perception et de cognition
- Stratégie de conversion d'échantillons non-référencés : développer une stratégie d'augmentation de données simple mais efficace, atténuant l'instabilité de l'entraînement et renforçant la capacité de généralisation du modèle, résolvant les défis de distribution à queue longue
- Performance SOTA : atteindre les performances de pointe les plus récentes sur les ensembles de données RefCOCO/+/g et gRefCOCO
Étant donné une image I et une expression en langage naturel T, la tâche RIS exige de produire :
- Masque de segmentation Pm : indiquant la localisation au niveau des pixels de l'objet cible
- Classification référencée Pref : déterminant si chaque région candidate est la cible
- Jugement non-référencé Pnr : déterminant si l'objet décrit existe dans l'image
DeRIS comprend trois composants principaux :
- Branche de perception : utilise un encodeur hiérarchique traitant des images haute résolution (384×384), préservant les représentations visuelles à grain fin
- Branche de cognition : utilise le modèle préentraîné BEiT3 traitant des images basse résolution (224×224) et du texte, se concentrant sur la compréhension sémantique
- Mécanisme de synergie de rétroaction : établissant une interaction forte entre les branches de perception et de cognition
Chaque itération d'interaction comprend une couche cognitive et une couche de perception :
Couche de Perception :
- La requête initiale Qi interagit avec les caractéristiques multi-échelles via l'attention croisée déformable
- L'auto-attention établit les relations entre instances, produisant la sortie Qp
- Prédiction du masque : Mp=Qp⋅fm, où fm=Conv(Concat(fh4,fv))
Couche de Cognition :
- Relation instance-instance : fs=AvgPool(fm×σ(Mp))
- Relation instance-texte : Qc=Attn(Qp′,ft,ft)
- Score de confiance : Sr=MLP(Qc)
Fusion de Requête :
Qf=C1(Qp,Qr)=MLP(Concat(Qp,Qr))
Pour résoudre la distribution à queue longue où les échantillons non-référencés ne représentent que 9% de l'ensemble de données gRefCOCO, une stratégie de filtrage à trois niveaux est proposée :
- Sélectionner les phrases dont l'image correspondante est incohérente avec l'image actuelle
- Sélectionner les phrases dont la longueur dépasse le seuil Nw
- Les phrases dont la similarité est inférieure au seuil Ts
Calcul de similarité :
Sim(s1,s2)=2Jac(s1,s2)+Cos(s1,s2)
Fonction de perte totale :
Li=λmLmaski+λrLri+λntLntiL=λaux∑i=1Nr−1Li+LNr
Où sont incluses la perte de segmentation (BCE+Dice), la perte de classification référencée (BCE) et la perte de jugement non-référencé (BCE).
- RefCOCO/+/g : ensembles de données de référence RIS standard
- gRefCOCO : ensemble de données de segmentation d'expression référencée généralisée, supportant les scénarios multi-référencés et non-référencés
- mIoU/cIoU/oIoU : métriques d'intersection sur union
- gIoU : intersection sur union généralisée
- N-acc : taux de précision non-référencé
- Pr@0.9 : précision au seuil haute précision
- Branche de perception : poids préentraînés Mask2Former, résolution d'entrée 384×384
- Branche de cognition : poids préentraînés BEiT3, résolution d'entrée 224×224
- Nombre d'itérations de rétroaction : 3
- Probabilité de conversion : Rc=15%
- Stratégie d'entraînement : optimiseur AdamW, taux d'apprentissage 1e-4
Sur l'ensemble de validation RefCOCO, DeRIS-L améliore de 4,46% mIoU par rapport à OneRef-L :
- RefCOCO val : 85,72% vs 81,26%
- RefCOCO+ val : 81,28% vs 76,60%
- RefCOCOg val : 80,01% vs 75,68%
DeRIS-L surpasse significativement les méthodes existantes sur tous les indicateurs :
- Val cIoU : 72,00% vs 64,20% (HieA2G)
- L'indicateur N-acc montre une amélioration particulièrement remarquable : 82,22% vs 62,80%
Découverte clé : la capacité cognitive est le goulot d'étranglement principal de la RIS
- Mise à niveau du modèle cognitif de BERT-B à BEiT3-L : amélioration cIoU de 12,88%
- Mise à niveau du modèle de perception de Swin-S à Swin-B : amélioration cIoU de seulement 1,20%
Comparaison de différentes structures de connexion :
- P-to-C (ligne de base) : gIoU 69,98%
- Synergie de rétroaction : gIoU 71,37% (+1,39%)
- Temps d'entraînement essentiellement inchangé
- Sans NSC : N-acc 60,19%
- Avec NSC : N-acc 79,25% (+19,06%)
- Amélioration significative de la stabilité d'entraînement
Par rapport aux méthodes purement centrées sur la cognition, DeRIS maintient une haute efficacité à haute résolution :
- Temps d'inférence augmenté de seulement 19% à résolution 384
- Amélioration de l'indicateur Pr@0.9 de 14,41%
- Méthodes centrées sur la perception :
- Méthodes de fusion tardive : fusion vision-langage après extraction de caractéristiques
- Méthodes de fusion précoce : intégration d'informations multimodales pendant l'extraction de caractéristiques
- Méthodes centrées sur la cognition :
- Exploitation de modèles de vision-langage préentraînés pour améliorer les capacités cognitives
- Incluant les approches à un flux, à deux flux, encodeurs fusionnés et MLLM
Par rapport aux travaux existants, DeRIS découple et analyse systématiquement pour la première fois le rôle de la perception et de la cognition, fournissant un nouveau paradigme de conception architecturale.
- Découverte du goulot d'étranglement cognitif : l'analyse systématique prouve que la capacité cognitive plutôt que la capacité de perception est le facteur limitant principal de la RIS actuelle
- Conception architecturale efficace : le mécanisme de synergie de rétroaction intègre avec succès les avantages de la perception et de la cognition
- Valeur de l'augmentation de données : la stratégie NSC résout efficacement le problème de rareté des échantillons non-référencés
- Surcharge de calcul : l'architecture à deux branches augmente certains coûts de calcul
- Sensibilité aux hyperparamètres : le nombre d'itérations de rétroaction, la probabilité de conversion et autres hyperparamètres nécessitent un ajustement minutieux
- Dépendance aux données : l'efficacité de la stratégie NSC dépend de la diversité de l'ensemble de données
- Explorer des mécanismes d'interaction perception-cognition plus efficaces
- Étudier des stratégies de génération d'échantillons non-référencés adaptatives
- Étendre à des tâches de compréhension multimodale plus complexes
- Architecture innovante : la conception découplée offre une nouvelle perspective de recherche, analysant systématiquement les goulots d'étranglement fondamentaux de la RIS
- Vérification expérimentale suffisante : de nombreuses expériences d'ablation prouvent l'efficacité de chaque composant
- Valeur pratique élevée : atteint les performances SOTA sur plusieurs ensembles de données de référence
- Analyse approfondie : combinaison d'analyses quantitatives et qualitatives, fournissant des perspectives précieuses
- Analyse théorique insuffisante : manque d'analyse de convergence théorique pour le mécanisme de synergie de rétroaction
- Vérification de généralisation : validation principalement sur des ensembles de données standard, manque d'expériences de généralisation inter-domaines
- Espace d'optimisation d'efficacité : l'efficacité de calcul de la conception à deux branches peut encore être optimisée
- Contribution académique : fournit un nouveau paradigme de conception architecturale pour le domaine de la RIS
- Valeur pratique : la méthode est simple, efficace, facile à reproduire et à appliquer
- Signification inspirante : l'idée de découplage peut être généralisée à d'autres tâches multimodales
DeRIS est particulièrement adapté à :
- Les scénarios d'application nécessitant une segmentation haute précision
- Les tâches de compréhension de descriptions linguistiques complexes
- Les scénarios généralisés non-référencés et multi-référencés
- Les applications pratiques ayant certaines exigences d'efficacité d'inférence
L'article cite 75 références connexes, couvrant les travaux importants dans les domaines connexes de la RIS, de la compréhension vision-langage, de la segmentation d'instance, etc., fournissant une base théorique solide pour cette recherche.