2025-11-25T09:16:18.025021

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

Dai, Cheng, Liu et al.
Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.
academic

DeRIS: Разделение восприятия и познания для улучшенной сегментации изображений с указанием через синергию обратной связи

Основная информация

  • ID статьи: 2507.01738
  • Название: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
  • Авторы: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
  • Учреждения: Southeast University, Baidu VIS, Stanford University
  • Категория: cs.CV
  • Дата публикации: 13 октября 2025 г. (arXiv v2)
  • Ссылка на статью: https://arxiv.org/abs/2507.01738v2

Аннотация

Сегментация изображений с указанием (RIS) — это сложная задача, целью которой является сегментация объектов на изображении на основе естественного языкового описания. Хотя предыдущие исследования в основном сосредоточивались на улучшении визуально-языкового взаимодействия и достижении точной локализации, систематический анализ фундаментальных узких мест в существующих фреймворках RIS остается недостаточным. Для заполнения этого пробела в работе предлагается DeRIS — новый фреймворк, который разделяет RIS на два ключевых компонента: восприятие (perception) и познание (cognition). Такое модульное разделение способствует систематическому анализу основных узких мест, препятствующих производительности RIS. Исследование показывает, что основное ограничение заключается не в дефектах восприятия, а в недостаточных мультимодальных когнитивных способностях текущих моделей. Для решения этой проблемы предлагается механизм синергии обратной связи (Loopback Synergy), который усиливает синергию между модулями восприятия и познания, обеспечивая точную сегментацию и одновременно улучшая надежное понимание изображения и текста.

Исследовательский контекст и мотивация

Определение проблемы

Сегментация изображений с указанием (RIS) требует от модели точной сегментации соответствующих целевых объектов на изображении на основе естественного языкового описания. В отличие от традиционных задач сегментации, RIS требует глубокого понимания соответствия между языковым выражением и визуальным содержанием, обладая большей гибкостью, но также большей сложностью.

Ограничения существующих методов

Авторы классифицируют существующие методы RIS на две категории:

  1. Методы, ориентированные на восприятие (Perception-centric): полагаются на иерархические магистральные сети для сохранения информации о мелкозернистом пространстве, но из-за ограниченного разнообразия нижестоящих наборов данных мультимодальные модули слияния имеют слабые способности понимания содержания
  2. Методы, ориентированные на познание (Cognition-centric): используют предварительно обученные на больших масштабах модели визуально-языкового понимания для улучшения мультимодального понимания, но из-за квадратичной вычислительной сложности архитектуры Transformer теряют информацию о мелкозернистом пространстве при высокоразрешающих входных данных

Исследовательская мотивация

Существующие методы демонстрируют компромисс между способностями восприятия и познания. Авторы утверждают, что задача RIS по сути включает два ключевых измерения: восприятие (точная локализация переднего плана объектов) и познание (полное понимание текстового и визуального содержания), поэтому предлагается разделить эти два компонента и эффективно интегрировать их преимущества.

Основные вклады

  1. Предложение фреймворка DeRIS: первый фреймворк, который явно разделяет задачу RIS на компоненты восприятия и познания, беспрепятственно интегрируя преимущества обоих для достижения высокоточной локализации восприятия и надежного понимания мультимодального контекста
  2. Глубокий анализ узких мест RIS: систематический анализ показывает, что когнитивные способности, а не способности восприятия, являются основным узким местом RIS, и предлагается механизм синергии обратной связи для содействия прогрессивному взаимодействию между модулями восприятия и познания
  3. Стратегия преобразования неуказанных образцов: разработана простая и эффективная стратегия увеличения данных, которая смягчает нестабильность обучения и повышает способность модели к обобщению, решая проблемы распределения с длинным хвостом
  4. Производительность SOTA: достижение новых передовых показателей производительности на наборах данных RefCOCO/+/g и gRefCOCO

Подробное описание методики

Определение задачи

Для изображения I и естественного языкового выражения T задача RIS требует вывода:

  • Маска сегментации PmP_m: указывает пиксельное расположение целевого объекта
  • Классификация указания PrefP_{ref}: определяет, является ли каждый кандидат целевым
  • Определение неуказания PnrP_{nr}: определяет, существует ли описанный объект на изображении

Архитектура модели

Общая архитектура

DeRIS содержит три основных компонента:

  1. Ветвь восприятия: использует иерархический кодировщик для обработки высокоразрешающихся изображений (384×384), сохраняя мелкозернистые визуальные представления
  2. Ветвь познания: использует предварительно обученную модель BEiT3 для обработки низкоразрешающихся изображений (224×224) и текста, сосредоточиваясь на семантическом понимании
  3. Механизм синергии обратной связи: устанавливает сильное взаимодействие между ветвями восприятия и познания

Механизм синергии обратной связи

Каждый раунд взаимодействия включает слой познания и слой восприятия:

Слой восприятия:

  • Начальный запрос QiQ_i взаимодействует с многомасштабными признаками через деформируемое перекрестное внимание
  • Самовнимание устанавливает отношения между экземплярами, создавая выход QpQ_p
  • Предсказание маски: Mp=QpfmM_p = Q_p \cdot f_m, где fm=Conv(Concat(fh4,fv))f_m = \text{Conv}(\text{Concat}(f_{h4}, f_v))

Слой познания:

  • Отношение экземпляр-экземпляр: fs=AvgPool(fm×σ(Mp))f_s = \text{AvgPool}(f_m \times \sigma(M_p))
  • Отношение экземпляр-текст: Qc=Attn(Qp,ft,ft)Q_c = \text{Attn}(Q'_p, f_t, f_t)
  • Оценка уверенности: Sr=MLP(Qc)S_r = \text{MLP}(Q_c)

Слияние запросов: Qf=C1(Qp,Qr)=MLP(Concat(Qp,Qr))Q_f = \text{C1}(Q_p, Q_r) = \text{MLP}(\text{Concat}(Q_p, Q_r))

Преобразование неуказанных образцов (NSC)

Для решения проблемы распределения с длинным хвостом, где неуказанные образцы составляют только 9% в наборе данных gRefCOCO, предлагается трехуровневая стратегия фильтрации:

  1. Выбранное предложение соответствует изображению, отличному от текущего
  2. Выбранная длина предложения больше порога NwN_w
  3. Сходство предложения ниже порога TsT_s

Расчет сходства: Sim(s1,s2)=Jac(s1,s2)+Cos(s1,s2)2\text{Sim}(s_1, s_2) = \frac{\text{Jac}(s_1, s_2) + \text{Cos}(s_1, s_2)}{2}

Цели обучения

Общая функция потерь: Li=λmLmaski+λrLri+λntLntiL^i = \lambda_m L^i_{mask} + \lambda_r L^i_r + \lambda_{nt} L^i_{nt}L=λauxi=1Nr1Li+LNrL = \lambda_{aux} \sum_{i=1}^{N_r-1} L^i + L^{N_r}

Включает потери сегментации (BCE+Dice), потери классификации указания (BCE) и потери определения неуказания (BCE).

Экспериментальная установка

Наборы данных

  • RefCOCO/+/g: стандартные эталонные наборы данных RIS
  • gRefCOCO: набор данных сегментации обобщенного указания, поддерживающий сценарии множественного указания и неуказания

Метрики оценки

  • mIoU/cIoU/oIoU: метрики пересечения над объединением
  • gIoU: обобщенное пересечение над объединением
  • N-acc: точность неуказания
  • Pr@0.9: точность при высоком пороге

Детали реализации

  • Ветвь восприятия: предварительно обученные веса Mask2Former, разрешение входа 384×384
  • Ветвь познания: предварительно обученные веса BEiT3, разрешение входа 224×224
  • Количество раундов обратной связи: 3
  • Вероятность преобразования: Rc=15%R_c = 15\%
  • Стратегия обучения: оптимизатор AdamW, скорость обучения 1e-4

Результаты экспериментов

Основные результаты

Производительность задачи RIS (RefCOCO/+/g)

На наборе валидации RefCOCO DeRIS-L показывает улучшение на 4,46% mIoU по сравнению с OneRef-L:

  • RefCOCO val: 85,72% против 81,26%
  • RefCOCO+ val: 81,28% против 76,60%
  • RefCOCOg val: 80,01% против 75,68%

Производительность задачи GRES (gRefCOCO)

DeRIS-L значительно превосходит существующие методы по всем метрикам:

  • Val набор cIoU: 72,00% против 64,20% (HieA2G)
  • Улучшение метрики N-acc особенно значительно: 82,22% против 62,80%

Абляционные исследования

Анализ способностей восприятия и познания

Ключевые находки: когнитивные способности являются основным узким местом RIS

  • Обновление модели познания с BERT-B на BEiT3-L: улучшение cIoU на 12,88%
  • Обновление модели восприятия с Swin-S на Swin-B: улучшение cIoU только на 1,20%

Эффективность механизма синергии обратной связи

Сравнение различных структур подключения:

  • P-to-C (базовый): gIoU 69,98%
  • Синергия обратной связи: gIoU 71,37% (+1,39%)
  • Время обучения практически не увеличивается

Эффект стратегии NSC

  • Без NSC: N-acc 60,19%
  • С NSC: N-acc 79,25% (+19,06%)
  • Значительное улучшение стабильности обучения

Анализ эффективности

По сравнению с чисто ориентированными на познание методами, DeRIS сохраняет высокую эффективность при высоком разрешении:

  • Время вывода при разрешении 384 увеличивается только на 19%
  • Улучшение метрики Pr@0.9 на 14,41%

Связанные работы

Классификация методов RIS

  1. Методы, ориентированные на восприятие:
    • Методы позднего слияния: визуально-языковое слияние после извлечения признаков
    • Методы раннего слияния: интеграция мультимодальной информации во время извлечения признаков
  2. Методы, ориентированные на познание:
    • Использование предварительно обученных моделей визуально-языкового понимания для улучшения когнитивных способностей
    • Включает методы одного потока, двух потоков, объединенного кодировщика и MLLM

Преимущества данной работы

По сравнению с существующими работами DeRIS впервые систематически разделяет и анализирует роли восприятия и познания, предоставляя новую парадигму проектирования архитектуры.

Выводы и обсуждение

Основные выводы

  1. Обнаружение когнитивного узкого места: систематический анализ доказывает, что когнитивные способности, а не способности восприятия, являются основным ограничивающим фактором текущего RIS
  2. Эффективное проектирование архитектуры: механизм синергии обратной связи успешно интегрирует преимущества восприятия и познания
  3. Ценность увеличения данных: стратегия NSC эффективно решает проблему нехватки неуказанных образцов

Ограничения

  1. Вычислительные затраты: двухветвевая архитектура добавляет определенные вычислительные издержки
  2. Чувствительность гиперпараметров: гиперпараметры, такие как количество раундов обратной связи и вероятность преобразования, требуют тщательной настройки
  3. Зависимость от данных: эффективность стратегии NSC зависит от разнообразия набора данных

Будущие направления

  1. Исследование более эффективных механизмов взаимодействия восприятия и познания
  2. Изучение адаптивных стратегий генерации неуказанных образцов
  3. Расширение на более сложные задачи мультимодального понимания

Глубокая оценка

Преимущества

  1. Инновационная архитектура: разделенный дизайн предоставляет новую исследовательскую перспективу, систематически анализируя основные узкие места RIS
  2. Полная экспериментальная верификация: многочисленные абляционные исследования доказывают эффективность каждого компонента
  3. Высокая практическая ценность: достижение SOTA производительности на нескольких эталонных наборах данных
  4. Глубокий анализ: сочетание количественного и качественного анализа предоставляет ценные инсайты

Недостатки

  1. Недостаток теоретического анализа: отсутствует анализ теоретической сходимости механизма синергии обратной связи
  2. Верификация обобщаемости: основная верификация на стандартных наборах данных, отсутствуют кросс-доменные эксперименты обобщения
  3. Пространство оптимизации эффективности: вычислительная эффективность двухветвевого дизайна все еще имеет пространство для оптимизации

Влияние

  1. Академический вклад: предоставляет новую парадигму проектирования архитектуры для области RIS
  2. Практическая ценность: метод простой и эффективный, легко воспроизводится и применяется
  3. Вдохновляющее значение: идея разделения может быть обобщена на другие мультимодальные задачи

Применимые сценарии

DeRIS особенно подходит для:

  • Сценариев приложений, требующих высокоточной сегментации
  • Задач понимания сложных языковых описаний
  • Обобщенных сценариев с множественным указанием и неуказанием
  • Практических приложений с определенными требованиями к эффективности вывода

Библиография

Статья цитирует 75 соответствующих работ, охватывающих важные исследования в областях RIS, визуально-языкового понимания, сегментации экземпляров и других связанных областей, предоставляя прочную теоретическую основу для данного исследования.