Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.
- ID del Artículo: 2507.01738
- Título: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
- Autores: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
- Instituciones: Southeast University, Baidu VIS, Stanford University
- Clasificación: cs.CV
- Fecha de Publicación: 13 de octubre de 2025 (arXiv v2)
- Enlace del Artículo: https://arxiv.org/abs/2507.01738v2
La segmentación de imágenes referidas (RIS) es una tarea desafiante que tiene como objetivo segmentar objetos en imágenes basándose en expresiones en lenguaje natural. Aunque investigaciones previas se han enfocado principalmente en mejorar la interacción visual-lingüística y lograr localización de grano fino, aún falta un análisis sistemático de los cuellos de botella fundamentales en los marcos RIS existentes. Para llenar esta brecha, este artículo propone DeRIS, un nuevo marco que descompone RIS en dos componentes clave: percepción (perception) y cognición (cognition). Esta descomposición modular facilita un análisis sistemático de los principales cuellos de botella que obstaculizan el desempeño de RIS. Se descubre que la limitación principal no radica en deficiencias perceptivas, sino en capacidades cognitivas multimodales insuficientes de los modelos actuales. Para aliviar este problema, se propone un mecanismo de sinergia de retroalimentación (Loopback Synergy), que mejora la sinergia entre los módulos de percepción y cognición, logrando así una segmentación precisa mientras se mejora simultáneamente la comprensión robusta de imagen-texto.
La segmentación de imágenes referidas (RIS) requiere que el modelo segmente con precisión objetos correspondientes en imágenes basándose en descripciones en lenguaje natural. A diferencia de las tareas de segmentación tradicionales, RIS requiere una comprensión profunda de la correspondencia entre expresiones lingüísticas y contenido visual, ofreciendo mayor flexibilidad pero también mayor desafío.
Los autores clasifican los métodos RIS existentes en dos categorías:
- Métodos Centrados en Percepción (Perception-centric): Dependen de redes troncales jerárquicas para preservar información espacial de grano fino, pero debido a la diversidad limitada de conjuntos de datos posteriores, los módulos de fusión multimodal tienen capacidades cognitivas de contenido débiles
- Métodos Centrados en Cognición (Cognition-centric): Aprovechan modelos preentrenados de visión-lenguaje a gran escala para mejorar la comprensión multimodal, pero debido a la complejidad computacional cuadrática de la arquitectura Transformer, pierden información espacial de grano fino en entradas de alta resolución
Los métodos existentes presentan un compromiso entre capacidades perceptivas y cognitivas. Este artículo sostiene que la tarea RIS implica fundamentalmente dos dimensiones clave: percepción (localización precisa de objetos en primer plano) y cognición (comprensión integral de contenido textual y visual), por lo que propone desacoplar estos dos componentes e integrar efectivamente sus ventajas.
- Propone el Marco DeRIS: El primer marco que desacopla explícitamente la tarea RIS en componentes de percepción y cognición, integrando sin problemas las ventajas de ambos para lograr localización perceptiva de alta precisión y comprensión robusta del contexto multimodal
- Análisis Profundo de Cuellos de Botella RIS: Mediante análisis sistemático, descubre que la capacidad cognitiva en lugar de la capacidad perceptiva es el principal cuello de botella de RIS, y propone un mecanismo de sinergia de retroalimentación que promueve interacción progresiva entre módulos de percepción y cognición
- Estrategia de Conversión de Muestras No Referidas: Desarrolla una estrategia simple y efectiva de aumento de datos que alivia la inestabilidad del entrenamiento y mejora la capacidad de generalización del modelo, abordando desafíos de distribución de cola larga
- Desempeño SOTA: Logra nuevo desempeño de última generación en conjuntos de datos RefCOCO/+/g y gRefCOCO
Dado una imagen I y una expresión en lenguaje natural T, la tarea RIS requiere producir:
- Máscara de segmentación Pm: Indica la ubicación a nivel de píxel del objeto objetivo
- Clasificación referida Pref: Determina si cada región candidata es el objetivo
- Juicio no referido Pnr: Determina si el objeto descrito existe en la imagen
DeRIS contiene tres componentes principales:
- Rama de Percepción: Utiliza un codificador jerárquico para procesar imágenes de alta resolución (384×384), preservando representaciones visuales de grano fino
- Rama de Cognición: Utiliza modelo preentrenado BEiT3 para procesar imágenes de baja resolución (224×224) y texto, enfocándose en comprensión semántica
- Mecanismo de Sinergia de Retroalimentación: Establece interacción fuerte entre ramas de percepción y cognición
Cada ronda de interacción contiene una capa cognitiva y una capa perceptiva:
Capa Perceptiva:
- Consulta inicial Qi interactúa con características multiescala mediante atención cruzada deformable
- Autoatención establece relaciones entre instancias, produciendo salida Qp
- Predicción de máscara: Mp=Qp⋅fm, donde fm=Conv(Concat(fh4,fv))
Capa Cognitiva:
- Relación instancia-instancia: fs=AvgPool(fm×σ(Mp))
- Relación instancia-texto: Qc=Attn(Qp′,ft,ft)
- Puntuación de confianza: Sr=MLP(Qc)
Fusión de Consultas:
Qf=C1(Qp,Qr)=MLP(Concat(Qp,Qr))
Para abordar la distribución de cola larga donde las muestras no referidas representan solo el 9% en el conjunto de datos gRefCOCO, se propone una estrategia de filtrado de tres niveles:
- La imagen correspondiente a la oración seleccionada es inconsistente con la imagen actual
- La longitud de la oración seleccionada es mayor que el umbral Nw
- La similitud de la oración es menor que el umbral Ts
Cálculo de similitud:
Sim(s1,s2)=2Jac(s1,s2)+Cos(s1,s2)
Función de pérdida total:
Li=λmLmaski+λrLri+λntLntiL=λaux∑i=1Nr−1Li+LNr
Donde se incluyen pérdida de segmentación (BCE+Dice), pérdida de clasificación referida (BCE) y pérdida de juicio no referido (BCE).
- RefCOCO/+/g: Conjuntos de datos de referencia RIS estándar
- gRefCOCO: Conjunto de datos de segmentación de expresiones referidas generalizadas, que admite escenarios multireferidos y no referidos
- mIoU/cIoU/oIoU: Métricas de intersección sobre unión
- gIoU: Intersección sobre unión generalizada
- N-acc: Tasa de precisión no referida
- Pr@0.9: Precisión bajo umbral de alta precisión
- Rama de percepción: Pesos preentrenados de Mask2Former, resolución de entrada 384×384
- Rama de cognición: Pesos preentrenados de BEiT3, resolución de entrada 224×224
- Número de rondas de retroalimentación: 3
- Probabilidad de conversión: Rc=15%
- Estrategia de entrenamiento: Optimizador AdamW, tasa de aprendizaje 1e-4
En el conjunto de validación RefCOCO, DeRIS-L mejora 4.46% mIoU en comparación con OneRef-L:
- RefCOCO val: 85.72% vs 81.26%
- RefCOCO+ val: 81.28% vs 76.60%
- RefCOCOg val: 80.01% vs 75.68%
DeRIS-L supera significativamente los métodos existentes en todas las métricas:
- Val conjunto cIoU: 72.00% vs 64.20% (HieA2G)
- Mejora especialmente notable en métrica N-acc: 82.22% vs 62.80%
Hallazgo clave: La capacidad cognitiva es el principal cuello de botella de RIS
- Actualización del modelo cognitivo de BERT-B a BEiT3-L: mejora cIoU 12.88%
- Actualización del modelo perceptivo de Swin-S a Swin-B: mejora cIoU solo 1.20%
Comparación de diferentes estructuras de conexión:
- P-to-C (línea base): gIoU 69.98%
- Sinergia de retroalimentación: gIoU 71.37% (+1.39%)
- Tiempo de entrenamiento prácticamente sin aumento
- Sin NSC: N-acc 60.19%
- Con NSC: N-acc 79.25% (+19.06%)
- Mejora significativa de la estabilidad del entrenamiento
En comparación con métodos puramente centrados en cognición, DeRIS mantiene alta eficiencia en resoluciones altas:
- Tiempo de inferencia en resolución 384 aumenta solo 19%
- Métrica Pr@0.9 mejora 14.41%
- Métodos Centrados en Percepción:
- Métodos de fusión tardía: Fusión visual-lingüística después de extracción de características
- Métodos de fusión temprana: Integración de información multimodal durante el proceso de extracción de características
- Métodos Centrados en Cognición:
- Aprovechamiento de modelos preentrenados de visión-lenguaje para mejorar capacidad cognitiva
- Incluye métodos de un flujo, dos flujos, codificadores fusionados y MLLM
En comparación con trabajos existentes, DeRIS es el primero en desacoplar e analizar sistemáticamente el papel de la percepción y cognición, proporcionando un nuevo paradigma de diseño arquitectónico.
- Descubrimiento del Cuello de Botella Cognitivo: El análisis sistemático demuestra que la capacidad cognitiva en lugar de la capacidad perceptiva es el factor limitante principal del RIS actual
- Diseño Arquitectónico Efectivo: El mecanismo de sinergia de retroalimentación integra exitosamente las ventajas de percepción y cognición
- Valor del Aumento de Datos: La estrategia NSC resuelve efectivamente el problema de escasez de muestras no referidas
- Costo Computacional: La arquitectura de dos ramas añade cierto costo computacional
- Sensibilidad de Hiperparámetros: Hiperparámetros como número de rondas de retroalimentación y probabilidad de conversión requieren ajuste cuidadoso
- Dependencia de Datos: La efectividad de la estrategia NSC depende de la diversidad del conjunto de datos
- Explorar mecanismos de interacción percepción-cognición más eficientes
- Investigar estrategias adaptativas de generación de muestras no referidas
- Extender a tareas de comprensión multimodal más complejas
- Arquitectura Innovadora: El diseño desacoplado proporciona una nueva perspectiva de investigación, analizando sistemáticamente los cuellos de botella centrales de RIS
- Verificación Experimental Completa: Numerosos experimentos de ablación demuestran la efectividad de cada componente
- Alto Valor Práctico: Logra desempeño SOTA en múltiples conjuntos de datos de referencia
- Análisis Profundo: Análisis cuantitativos y cualitativos combinados proporcionan perspectivas valiosas
- Análisis Teórico Limitado: Falta análisis de convergencia teórica del mecanismo de sinergia de retroalimentación
- Verificación de Generalización: Principalmente verificado en conjuntos de datos estándar, carece de experimentos de generalización entre dominios
- Espacio de Optimización de Eficiencia: El diseño de dos ramas aún tiene espacio para optimización de eficiencia computacional
- Contribución Académica: Proporciona un nuevo paradigma de diseño arquitectónico para el campo RIS
- Valor Práctico: El método es simple y efectivo, fácil de reproducir y aplicar
- Significado Inspirador: La idea de desacoplamiento puede generalizarse a otras tareas multimodales
DeRIS es particularmente adecuado para:
- Escenarios de aplicación que requieren segmentación de alta precisión
- Tareas de comprensión de descripciones lingüísticas complejas
- Escenarios generalizados de multireferencia y no referencia
- Aplicaciones prácticas con ciertos requisitos de eficiencia de inferencia
El artículo cita 75 referencias relacionadas, cubriendo trabajos importantes en los campos de RIS, comprensión visual-lingüística, segmentación de instancias y otros campos relacionados, proporcionando una base teórica sólida para esta investigación.