2025-11-25T09:16:18.025021

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

Dai, Cheng, Liu et al.

Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.

academic

DeRIS: Desacoplamiento de Percepción y Cognición para Segmentación de Imágenes Referidas Mejorada mediante Sinergia de Retroalimentación

Información Básica

ID del Artículo: 2507.01738
Título: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
Autores: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
Instituciones: Southeast University, Baidu VIS, Stanford University
Clasificación: cs.CV
Fecha de Publicación: 13 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2507.01738v2

Resumen

La segmentación de imágenes referidas (RIS) es una tarea desafiante que tiene como objetivo segmentar objetos en imágenes basándose en expresiones en lenguaje natural. Aunque investigaciones previas se han enfocado principalmente en mejorar la interacción visual-lingüística y lograr localización de grano fino, aún falta un análisis sistemático de los cuellos de botella fundamentales en los marcos RIS existentes. Para llenar esta brecha, este artículo propone DeRIS, un nuevo marco que descompone RIS en dos componentes clave: percepción (perception) y cognición (cognition). Esta descomposición modular facilita un análisis sistemático de los principales cuellos de botella que obstaculizan el desempeño de RIS. Se descubre que la limitación principal no radica en deficiencias perceptivas, sino en capacidades cognitivas multimodales insuficientes de los modelos actuales. Para aliviar este problema, se propone un mecanismo de sinergia de retroalimentación (Loopback Synergy), que mejora la sinergia entre los módulos de percepción y cognición, logrando así una segmentación precisa mientras se mejora simultáneamente la comprensión robusta de imagen-texto.

Antecedentes de Investigación y Motivación

Definición del Problema

La segmentación de imágenes referidas (RIS) requiere que el modelo segmente con precisión objetos correspondientes en imágenes basándose en descripciones en lenguaje natural. A diferencia de las tareas de segmentación tradicionales, RIS requiere una comprensión profunda de la correspondencia entre expresiones lingüísticas y contenido visual, ofreciendo mayor flexibilidad pero también mayor desafío.

Limitaciones de Métodos Existentes

Los autores clasifican los métodos RIS existentes en dos categorías:

Métodos Centrados en Percepción (Perception-centric): Dependen de redes troncales jerárquicas para preservar información espacial de grano fino, pero debido a la diversidad limitada de conjuntos de datos posteriores, los módulos de fusión multimodal tienen capacidades cognitivas de contenido débiles
Métodos Centrados en Cognición (Cognition-centric): Aprovechan modelos preentrenados de visión-lenguaje a gran escala para mejorar la comprensión multimodal, pero debido a la complejidad computacional cuadrática de la arquitectura Transformer, pierden información espacial de grano fino en entradas de alta resolución

Motivación de la Investigación

Los métodos existentes presentan un compromiso entre capacidades perceptivas y cognitivas. Este artículo sostiene que la tarea RIS implica fundamentalmente dos dimensiones clave: percepción (localización precisa de objetos en primer plano) y cognición (comprensión integral de contenido textual y visual), por lo que propone desacoplar estos dos componentes e integrar efectivamente sus ventajas.

Contribuciones Principales

Propone el Marco DeRIS: El primer marco que desacopla explícitamente la tarea RIS en componentes de percepción y cognición, integrando sin problemas las ventajas de ambos para lograr localización perceptiva de alta precisión y comprensión robusta del contexto multimodal
Análisis Profundo de Cuellos de Botella RIS: Mediante análisis sistemático, descubre que la capacidad cognitiva en lugar de la capacidad perceptiva es el principal cuello de botella de RIS, y propone un mecanismo de sinergia de retroalimentación que promueve interacción progresiva entre módulos de percepción y cognición
Estrategia de Conversión de Muestras No Referidas: Desarrolla una estrategia simple y efectiva de aumento de datos que alivia la inestabilidad del entrenamiento y mejora la capacidad de generalización del modelo, abordando desafíos de distribución de cola larga
Desempeño SOTA: Logra nuevo desempeño de última generación en conjuntos de datos RefCOCO/+/g y gRefCOCO

Explicación Detallada del Método

Definición de la Tarea

Dado una imagen I y una expresión en lenguaje natural T, la tarea RIS requiere producir:

Máscara de segmentación $P_m$ : Indica la ubicación a nivel de píxel del objeto objetivo
Clasificación referida $P_{ref}$ : Determina si cada región candidata es el objetivo
Juicio no referido $P_{nr}$ : Determina si el objeto descrito existe en la imagen

Arquitectura del Modelo

Arquitectura General

DeRIS contiene tres componentes principales:

Rama de Percepción: Utiliza un codificador jerárquico para procesar imágenes de alta resolución (384×384), preservando representaciones visuales de grano fino
Rama de Cognición: Utiliza modelo preentrenado BEiT3 para procesar imágenes de baja resolución (224×224) y texto, enfocándose en comprensión semántica
Mecanismo de Sinergia de Retroalimentación: Establece interacción fuerte entre ramas de percepción y cognición

Mecanismo de Sinergia de Retroalimentación

Cada ronda de interacción contiene una capa cognitiva y una capa perceptiva:

Capa Perceptiva:

Consulta inicial $Q_i$ interactúa con características multiescala mediante atención cruzada deformable
Autoatención establece relaciones entre instancias, produciendo salida $Q_p$
Predicción de máscara: $M_p = Q_p \cdot f_m$ , donde $f_m = \text{Conv}(\text{Concat}(f_{h4}, f_v))$

Capa Cognitiva:

Relación instancia-instancia: $f_s = \text{AvgPool}(f_m \times \sigma(M_p))$
Relación instancia-texto: $Q_c = \text{Attn}(Q'_p, f_t, f_t)$
Puntuación de confianza: $S_r = \text{MLP}(Q_c)$

Fusión de Consultas: $Q_f = \text{C1}(Q_p, Q_r) = \text{MLP}(\text{Concat}(Q_p, Q_r))$

Conversión de Muestras No Referidas (NSC)

Para abordar la distribución de cola larga donde las muestras no referidas representan solo el 9% en el conjunto de datos gRefCOCO, se propone una estrategia de filtrado de tres niveles:

La imagen correspondiente a la oración seleccionada es inconsistente con la imagen actual
La longitud de la oración seleccionada es mayor que el umbral $N_w$
La similitud de la oración es menor que el umbral $T_s$

Cálculo de similitud: $\text{Sim}(s_1, s_2) = \frac{\text{Jac}(s_1, s_2) + \text{Cos}(s_1, s_2)}{2}$

Objetivos de Entrenamiento

Función de pérdida total: $L^i = \lambda_m L^i_{mask} + \lambda_r L^i_r + \lambda_{nt} L^i_{nt}$ $L = \lambda_{aux} \sum_{i=1}^{N_r-1} L^i + L^{N_r}$

Donde se incluyen pérdida de segmentación (BCE+Dice), pérdida de clasificación referida (BCE) y pérdida de juicio no referido (BCE).

Configuración Experimental

Conjuntos de Datos

RefCOCO/+/g: Conjuntos de datos de referencia RIS estándar
gRefCOCO: Conjunto de datos de segmentación de expresiones referidas generalizadas, que admite escenarios multireferidos y no referidos

Métricas de Evaluación

mIoU/cIoU/oIoU: Métricas de intersección sobre unión
gIoU: Intersección sobre unión generalizada
N-acc: Tasa de precisión no referida
Pr@0.9: Precisión bajo umbral de alta precisión

Detalles de Implementación

Rama de percepción: Pesos preentrenados de Mask2Former, resolución de entrada 384×384
Rama de cognición: Pesos preentrenados de BEiT3, resolución de entrada 224×224
Número de rondas de retroalimentación: 3
Probabilidad de conversión: $R_c = 15\%$
Estrategia de entrenamiento: Optimizador AdamW, tasa de aprendizaje 1e-4

Resultados Experimentales

Resultados Principales

Desempeño en Tarea RIS (RefCOCO/+/g)

En el conjunto de validación RefCOCO, DeRIS-L mejora 4.46% mIoU en comparación con OneRef-L:

RefCOCO val: 85.72% vs 81.26%
RefCOCO+ val: 81.28% vs 76.60%
RefCOCOg val: 80.01% vs 75.68%

Desempeño en Tarea GRES (gRefCOCO)

DeRIS-L supera significativamente los métodos existentes en todas las métricas:

Val conjunto cIoU: 72.00% vs 64.20% (HieA2G)
Mejora especialmente notable en métrica N-acc: 82.22% vs 62.80%

Experimentos de Ablación

Análisis de Capacidades Perceptivas vs Cognitivas

Hallazgo clave: La capacidad cognitiva es el principal cuello de botella de RIS

Actualización del modelo cognitivo de BERT-B a BEiT3-L: mejora cIoU 12.88%
Actualización del modelo perceptivo de Swin-S a Swin-B: mejora cIoU solo 1.20%

Efectividad del Mecanismo de Sinergia de Retroalimentación

Comparación de diferentes estructuras de conexión:

P-to-C (línea base): gIoU 69.98%
Sinergia de retroalimentación: gIoU 71.37% (+1.39%)
Tiempo de entrenamiento prácticamente sin aumento

Efecto de la Estrategia NSC

Sin NSC: N-acc 60.19%
Con NSC: N-acc 79.25% (+19.06%)
Mejora significativa de la estabilidad del entrenamiento

Análisis de Eficiencia

En comparación con métodos puramente centrados en cognición, DeRIS mantiene alta eficiencia en resoluciones altas:

Tiempo de inferencia en resolución 384 aumenta solo 19%
Métrica Pr@0.9 mejora 14.41%

Trabajo Relacionado

Clasificación de Métodos RIS

Métodos Centrados en Percepción:
- Métodos de fusión tardía: Fusión visual-lingüística después de extracción de características
- Métodos de fusión temprana: Integración de información multimodal durante el proceso de extracción de características
Métodos Centrados en Cognición:
- Aprovechamiento de modelos preentrenados de visión-lenguaje para mejorar capacidad cognitiva
- Incluye métodos de un flujo, dos flujos, codificadores fusionados y MLLM

Ventajas de Este Trabajo

En comparación con trabajos existentes, DeRIS es el primero en desacoplar e analizar sistemáticamente el papel de la percepción y cognición, proporcionando un nuevo paradigma de diseño arquitectónico.

Conclusiones y Discusión

Conclusiones Principales

Descubrimiento del Cuello de Botella Cognitivo: El análisis sistemático demuestra que la capacidad cognitiva en lugar de la capacidad perceptiva es el factor limitante principal del RIS actual
Diseño Arquitectónico Efectivo: El mecanismo de sinergia de retroalimentación integra exitosamente las ventajas de percepción y cognición
Valor del Aumento de Datos: La estrategia NSC resuelve efectivamente el problema de escasez de muestras no referidas

Limitaciones

Costo Computacional: La arquitectura de dos ramas añade cierto costo computacional
Sensibilidad de Hiperparámetros: Hiperparámetros como número de rondas de retroalimentación y probabilidad de conversión requieren ajuste cuidadoso
Dependencia de Datos: La efectividad de la estrategia NSC depende de la diversidad del conjunto de datos

Direcciones Futuras

Explorar mecanismos de interacción percepción-cognición más eficientes
Investigar estrategias adaptativas de generación de muestras no referidas
Extender a tareas de comprensión multimodal más complejas

Evaluación Profunda

Fortalezas

Arquitectura Innovadora: El diseño desacoplado proporciona una nueva perspectiva de investigación, analizando sistemáticamente los cuellos de botella centrales de RIS
Verificación Experimental Completa: Numerosos experimentos de ablación demuestran la efectividad de cada componente
Alto Valor Práctico: Logra desempeño SOTA en múltiples conjuntos de datos de referencia
Análisis Profundo: Análisis cuantitativos y cualitativos combinados proporcionan perspectivas valiosas

Insuficiencias

Análisis Teórico Limitado: Falta análisis de convergencia teórica del mecanismo de sinergia de retroalimentación
Verificación de Generalización: Principalmente verificado en conjuntos de datos estándar, carece de experimentos de generalización entre dominios
Espacio de Optimización de Eficiencia: El diseño de dos ramas aún tiene espacio para optimización de eficiencia computacional

Impacto

Contribución Académica: Proporciona un nuevo paradigma de diseño arquitectónico para el campo RIS
Valor Práctico: El método es simple y efectivo, fácil de reproducir y aplicar
Significado Inspirador: La idea de desacoplamiento puede generalizarse a otras tareas multimodales

Escenarios Aplicables

DeRIS es particularmente adecuado para:

Escenarios de aplicación que requieren segmentación de alta precisión
Tareas de comprensión de descripciones lingüísticas complejas
Escenarios generalizados de multireferencia y no referencia
Aplicaciones prácticas con ciertos requisitos de eficiencia de inferencia

Referencias

El artículo cita 75 referencias relacionadas, cubriendo trabajos importantes en los campos de RIS, comprensión visual-lingüística, segmentación de instancias y otros campos relacionados, proporcionando una base teórica sólida para esta investigación.