2025-11-25T09:16:18.025021

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

Dai, Cheng, Liu et al.

Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.

academic

DeRIS: Разделение восприятия и познания для улучшенной сегментации изображений с указанием через синергию обратной связи

Основная информация

ID статьи: 2507.01738
Название: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
Авторы: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
Учреждения: Southeast University, Baidu VIS, Stanford University
Категория: cs.CV
Дата публикации: 13 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2507.01738v2

Аннотация

Сегментация изображений с указанием (RIS) — это сложная задача, целью которой является сегментация объектов на изображении на основе естественного языкового описания. Хотя предыдущие исследования в основном сосредоточивались на улучшении визуально-языкового взаимодействия и достижении точной локализации, систематический анализ фундаментальных узких мест в существующих фреймворках RIS остается недостаточным. Для заполнения этого пробела в работе предлагается DeRIS — новый фреймворк, который разделяет RIS на два ключевых компонента: восприятие (perception) и познание (cognition). Такое модульное разделение способствует систематическому анализу основных узких мест, препятствующих производительности RIS. Исследование показывает, что основное ограничение заключается не в дефектах восприятия, а в недостаточных мультимодальных когнитивных способностях текущих моделей. Для решения этой проблемы предлагается механизм синергии обратной связи (Loopback Synergy), который усиливает синергию между модулями восприятия и познания, обеспечивая точную сегментацию и одновременно улучшая надежное понимание изображения и текста.

Исследовательский контекст и мотивация

Определение проблемы

Сегментация изображений с указанием (RIS) требует от модели точной сегментации соответствующих целевых объектов на изображении на основе естественного языкового описания. В отличие от традиционных задач сегментации, RIS требует глубокого понимания соответствия между языковым выражением и визуальным содержанием, обладая большей гибкостью, но также большей сложностью.

Ограничения существующих методов

Авторы классифицируют существующие методы RIS на две категории:

Методы, ориентированные на восприятие (Perception-centric): полагаются на иерархические магистральные сети для сохранения информации о мелкозернистом пространстве, но из-за ограниченного разнообразия нижестоящих наборов данных мультимодальные модули слияния имеют слабые способности понимания содержания
Методы, ориентированные на познание (Cognition-centric): используют предварительно обученные на больших масштабах модели визуально-языкового понимания для улучшения мультимодального понимания, но из-за квадратичной вычислительной сложности архитектуры Transformer теряют информацию о мелкозернистом пространстве при высокоразрешающих входных данных

Исследовательская мотивация

Существующие методы демонстрируют компромисс между способностями восприятия и познания. Авторы утверждают, что задача RIS по сути включает два ключевых измерения: восприятие (точная локализация переднего плана объектов) и познание (полное понимание текстового и визуального содержания), поэтому предлагается разделить эти два компонента и эффективно интегрировать их преимущества.

Основные вклады

Предложение фреймворка DeRIS: первый фреймворк, который явно разделяет задачу RIS на компоненты восприятия и познания, беспрепятственно интегрируя преимущества обоих для достижения высокоточной локализации восприятия и надежного понимания мультимодального контекста
Глубокий анализ узких мест RIS: систематический анализ показывает, что когнитивные способности, а не способности восприятия, являются основным узким местом RIS, и предлагается механизм синергии обратной связи для содействия прогрессивному взаимодействию между модулями восприятия и познания
Стратегия преобразования неуказанных образцов: разработана простая и эффективная стратегия увеличения данных, которая смягчает нестабильность обучения и повышает способность модели к обобщению, решая проблемы распределения с длинным хвостом
Производительность SOTA: достижение новых передовых показателей производительности на наборах данных RefCOCO/+/g и gRefCOCO

Подробное описание методики

Определение задачи

Для изображения I и естественного языкового выражения T задача RIS требует вывода:

Маска сегментации $P_m$ : указывает пиксельное расположение целевого объекта
Классификация указания $P_{ref}$ : определяет, является ли каждый кандидат целевым
Определение неуказания $P_{nr}$ : определяет, существует ли описанный объект на изображении

Архитектура модели

Общая архитектура

DeRIS содержит три основных компонента:

Ветвь восприятия: использует иерархический кодировщик для обработки высокоразрешающихся изображений (384×384), сохраняя мелкозернистые визуальные представления
Ветвь познания: использует предварительно обученную модель BEiT3 для обработки низкоразрешающихся изображений (224×224) и текста, сосредоточиваясь на семантическом понимании
Механизм синергии обратной связи: устанавливает сильное взаимодействие между ветвями восприятия и познания

Механизм синергии обратной связи

Каждый раунд взаимодействия включает слой познания и слой восприятия:

Слой восприятия:

Начальный запрос $Q_i$ взаимодействует с многомасштабными признаками через деформируемое перекрестное внимание
Самовнимание устанавливает отношения между экземплярами, создавая выход $Q_p$
Предсказание маски: $M_p = Q_p \cdot f_m$ , где $f_m = \text{Conv}(\text{Concat}(f_{h4}, f_v))$

Слой познания:

Отношение экземпляр-экземпляр: $f_s = \text{AvgPool}(f_m \times \sigma(M_p))$
Отношение экземпляр-текст: $Q_c = \text{Attn}(Q'_p, f_t, f_t)$
Оценка уверенности: $S_r = \text{MLP}(Q_c)$

Слияние запросов: $Q_f = \text{C1}(Q_p, Q_r) = \text{MLP}(\text{Concat}(Q_p, Q_r))$

Преобразование неуказанных образцов (NSC)

Для решения проблемы распределения с длинным хвостом, где неуказанные образцы составляют только 9% в наборе данных gRefCOCO, предлагается трехуровневая стратегия фильтрации:

Выбранное предложение соответствует изображению, отличному от текущего
Выбранная длина предложения больше порога $N_w$
Сходство предложения ниже порога $T_s$

Расчет сходства: $\text{Sim}(s_1, s_2) = \frac{\text{Jac}(s_1, s_2) + \text{Cos}(s_1, s_2)}{2}$

Цели обучения

Общая функция потерь: $L^i = \lambda_m L^i_{mask} + \lambda_r L^i_r + \lambda_{nt} L^i_{nt}$ $L = \lambda_{aux} \sum_{i=1}^{N_r-1} L^i + L^{N_r}$

Включает потери сегментации (BCE+Dice), потери классификации указания (BCE) и потери определения неуказания (BCE).

Экспериментальная установка

Наборы данных

RefCOCO/+/g: стандартные эталонные наборы данных RIS
gRefCOCO: набор данных сегментации обобщенного указания, поддерживающий сценарии множественного указания и неуказания

Метрики оценки

mIoU/cIoU/oIoU: метрики пересечения над объединением
gIoU: обобщенное пересечение над объединением
N-acc: точность неуказания
Pr@0.9: точность при высоком пороге

Детали реализации

Ветвь восприятия: предварительно обученные веса Mask2Former, разрешение входа 384×384
Ветвь познания: предварительно обученные веса BEiT3, разрешение входа 224×224
Количество раундов обратной связи: 3
Вероятность преобразования: $R_c = 15\%$
Стратегия обучения: оптимизатор AdamW, скорость обучения 1e-4

Результаты экспериментов

Основные результаты

Производительность задачи RIS (RefCOCO/+/g)

На наборе валидации RefCOCO DeRIS-L показывает улучшение на 4,46% mIoU по сравнению с OneRef-L:

RefCOCO val: 85,72% против 81,26%
RefCOCO+ val: 81,28% против 76,60%
RefCOCOg val: 80,01% против 75,68%

Производительность задачи GRES (gRefCOCO)

DeRIS-L значительно превосходит существующие методы по всем метрикам:

Val набор cIoU: 72,00% против 64,20% (HieA2G)
Улучшение метрики N-acc особенно значительно: 82,22% против 62,80%

Абляционные исследования

Анализ способностей восприятия и познания

Ключевые находки: когнитивные способности являются основным узким местом RIS

Обновление модели познания с BERT-B на BEiT3-L: улучшение cIoU на 12,88%
Обновление модели восприятия с Swin-S на Swin-B: улучшение cIoU только на 1,20%

Эффективность механизма синергии обратной связи

Сравнение различных структур подключения:

P-to-C (базовый): gIoU 69,98%
Синергия обратной связи: gIoU 71,37% (+1,39%)
Время обучения практически не увеличивается

Эффект стратегии NSC

Без NSC: N-acc 60,19%
С NSC: N-acc 79,25% (+19,06%)
Значительное улучшение стабильности обучения

Анализ эффективности

По сравнению с чисто ориентированными на познание методами, DeRIS сохраняет высокую эффективность при высоком разрешении:

Время вывода при разрешении 384 увеличивается только на 19%
Улучшение метрики Pr@0.9 на 14,41%

Связанные работы

Классификация методов RIS

Методы, ориентированные на восприятие:
- Методы позднего слияния: визуально-языковое слияние после извлечения признаков
- Методы раннего слияния: интеграция мультимодальной информации во время извлечения признаков
Методы, ориентированные на познание:
- Использование предварительно обученных моделей визуально-языкового понимания для улучшения когнитивных способностей
- Включает методы одного потока, двух потоков, объединенного кодировщика и MLLM

Преимущества данной работы

По сравнению с существующими работами DeRIS впервые систематически разделяет и анализирует роли восприятия и познания, предоставляя новую парадигму проектирования архитектуры.

Выводы и обсуждение

Основные выводы

Обнаружение когнитивного узкого места: систематический анализ доказывает, что когнитивные способности, а не способности восприятия, являются основным ограничивающим фактором текущего RIS
Эффективное проектирование архитектуры: механизм синергии обратной связи успешно интегрирует преимущества восприятия и познания
Ценность увеличения данных: стратегия NSC эффективно решает проблему нехватки неуказанных образцов

Ограничения

Вычислительные затраты: двухветвевая архитектура добавляет определенные вычислительные издержки
Чувствительность гиперпараметров: гиперпараметры, такие как количество раундов обратной связи и вероятность преобразования, требуют тщательной настройки
Зависимость от данных: эффективность стратегии NSC зависит от разнообразия набора данных

Будущие направления

Исследование более эффективных механизмов взаимодействия восприятия и познания
Изучение адаптивных стратегий генерации неуказанных образцов
Расширение на более сложные задачи мультимодального понимания

Глубокая оценка

Преимущества

Инновационная архитектура: разделенный дизайн предоставляет новую исследовательскую перспективу, систематически анализируя основные узкие места RIS
Полная экспериментальная верификация: многочисленные абляционные исследования доказывают эффективность каждого компонента
Высокая практическая ценность: достижение SOTA производительности на нескольких эталонных наборах данных
Глубокий анализ: сочетание количественного и качественного анализа предоставляет ценные инсайты

Недостатки

Недостаток теоретического анализа: отсутствует анализ теоретической сходимости механизма синергии обратной связи
Верификация обобщаемости: основная верификация на стандартных наборах данных, отсутствуют кросс-доменные эксперименты обобщения
Пространство оптимизации эффективности: вычислительная эффективность двухветвевого дизайна все еще имеет пространство для оптимизации

Влияние

Академический вклад: предоставляет новую парадигму проектирования архитектуры для области RIS
Практическая ценность: метод простой и эффективный, легко воспроизводится и применяется
Вдохновляющее значение: идея разделения может быть обобщена на другие мультимодальные задачи

Применимые сценарии

DeRIS особенно подходит для:

Сценариев приложений, требующих высокоточной сегментации
Задач понимания сложных языковых описаний
Обобщенных сценариев с множественным указанием и неуказанием
Практических приложений с определенными требованиями к эффективности вывода

Библиография

Статья цитирует 75 соответствующих работ, охватывающих важные исследования в областях RIS, визуально-языкового понимания, сегментации экземпляров и других связанных областей, предоставляя прочную теоретическую основу для данного исследования.