Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.
- ID статьи: 2507.01738
- Название: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
- Авторы: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
- Учреждения: Southeast University, Baidu VIS, Stanford University
- Категория: cs.CV
- Дата публикации: 13 октября 2025 г. (arXiv v2)
- Ссылка на статью: https://arxiv.org/abs/2507.01738v2
Сегментация изображений с указанием (RIS) — это сложная задача, целью которой является сегментация объектов на изображении на основе естественного языкового описания. Хотя предыдущие исследования в основном сосредоточивались на улучшении визуально-языкового взаимодействия и достижении точной локализации, систематический анализ фундаментальных узких мест в существующих фреймворках RIS остается недостаточным. Для заполнения этого пробела в работе предлагается DeRIS — новый фреймворк, который разделяет RIS на два ключевых компонента: восприятие (perception) и познание (cognition). Такое модульное разделение способствует систематическому анализу основных узких мест, препятствующих производительности RIS. Исследование показывает, что основное ограничение заключается не в дефектах восприятия, а в недостаточных мультимодальных когнитивных способностях текущих моделей. Для решения этой проблемы предлагается механизм синергии обратной связи (Loopback Synergy), который усиливает синергию между модулями восприятия и познания, обеспечивая точную сегментацию и одновременно улучшая надежное понимание изображения и текста.
Сегментация изображений с указанием (RIS) требует от модели точной сегментации соответствующих целевых объектов на изображении на основе естественного языкового описания. В отличие от традиционных задач сегментации, RIS требует глубокого понимания соответствия между языковым выражением и визуальным содержанием, обладая большей гибкостью, но также большей сложностью.
Авторы классифицируют существующие методы RIS на две категории:
- Методы, ориентированные на восприятие (Perception-centric): полагаются на иерархические магистральные сети для сохранения информации о мелкозернистом пространстве, но из-за ограниченного разнообразия нижестоящих наборов данных мультимодальные модули слияния имеют слабые способности понимания содержания
- Методы, ориентированные на познание (Cognition-centric): используют предварительно обученные на больших масштабах модели визуально-языкового понимания для улучшения мультимодального понимания, но из-за квадратичной вычислительной сложности архитектуры Transformer теряют информацию о мелкозернистом пространстве при высокоразрешающих входных данных
Существующие методы демонстрируют компромисс между способностями восприятия и познания. Авторы утверждают, что задача RIS по сути включает два ключевых измерения: восприятие (точная локализация переднего плана объектов) и познание (полное понимание текстового и визуального содержания), поэтому предлагается разделить эти два компонента и эффективно интегрировать их преимущества.
- Предложение фреймворка DeRIS: первый фреймворк, который явно разделяет задачу RIS на компоненты восприятия и познания, беспрепятственно интегрируя преимущества обоих для достижения высокоточной локализации восприятия и надежного понимания мультимодального контекста
- Глубокий анализ узких мест RIS: систематический анализ показывает, что когнитивные способности, а не способности восприятия, являются основным узким местом RIS, и предлагается механизм синергии обратной связи для содействия прогрессивному взаимодействию между модулями восприятия и познания
- Стратегия преобразования неуказанных образцов: разработана простая и эффективная стратегия увеличения данных, которая смягчает нестабильность обучения и повышает способность модели к обобщению, решая проблемы распределения с длинным хвостом
- Производительность SOTA: достижение новых передовых показателей производительности на наборах данных RefCOCO/+/g и gRefCOCO
Для изображения I и естественного языкового выражения T задача RIS требует вывода:
- Маска сегментации Pm: указывает пиксельное расположение целевого объекта
- Классификация указания Pref: определяет, является ли каждый кандидат целевым
- Определение неуказания Pnr: определяет, существует ли описанный объект на изображении
DeRIS содержит три основных компонента:
- Ветвь восприятия: использует иерархический кодировщик для обработки высокоразрешающихся изображений (384×384), сохраняя мелкозернистые визуальные представления
- Ветвь познания: использует предварительно обученную модель BEiT3 для обработки низкоразрешающихся изображений (224×224) и текста, сосредоточиваясь на семантическом понимании
- Механизм синергии обратной связи: устанавливает сильное взаимодействие между ветвями восприятия и познания
Каждый раунд взаимодействия включает слой познания и слой восприятия:
Слой восприятия:
- Начальный запрос Qi взаимодействует с многомасштабными признаками через деформируемое перекрестное внимание
- Самовнимание устанавливает отношения между экземплярами, создавая выход Qp
- Предсказание маски: Mp=Qp⋅fm, где fm=Conv(Concat(fh4,fv))
Слой познания:
- Отношение экземпляр-экземпляр: fs=AvgPool(fm×σ(Mp))
- Отношение экземпляр-текст: Qc=Attn(Qp′,ft,ft)
- Оценка уверенности: Sr=MLP(Qc)
Слияние запросов:
Qf=C1(Qp,Qr)=MLP(Concat(Qp,Qr))
Для решения проблемы распределения с длинным хвостом, где неуказанные образцы составляют только 9% в наборе данных gRefCOCO, предлагается трехуровневая стратегия фильтрации:
- Выбранное предложение соответствует изображению, отличному от текущего
- Выбранная длина предложения больше порога Nw
- Сходство предложения ниже порога Ts
Расчет сходства:
Sim(s1,s2)=2Jac(s1,s2)+Cos(s1,s2)
Общая функция потерь:
Li=λmLmaski+λrLri+λntLntiL=λaux∑i=1Nr−1Li+LNr
Включает потери сегментации (BCE+Dice), потери классификации указания (BCE) и потери определения неуказания (BCE).
- RefCOCO/+/g: стандартные эталонные наборы данных RIS
- gRefCOCO: набор данных сегментации обобщенного указания, поддерживающий сценарии множественного указания и неуказания
- mIoU/cIoU/oIoU: метрики пересечения над объединением
- gIoU: обобщенное пересечение над объединением
- N-acc: точность неуказания
- Pr@0.9: точность при высоком пороге
- Ветвь восприятия: предварительно обученные веса Mask2Former, разрешение входа 384×384
- Ветвь познания: предварительно обученные веса BEiT3, разрешение входа 224×224
- Количество раундов обратной связи: 3
- Вероятность преобразования: Rc=15%
- Стратегия обучения: оптимизатор AdamW, скорость обучения 1e-4
На наборе валидации RefCOCO DeRIS-L показывает улучшение на 4,46% mIoU по сравнению с OneRef-L:
- RefCOCO val: 85,72% против 81,26%
- RefCOCO+ val: 81,28% против 76,60%
- RefCOCOg val: 80,01% против 75,68%
DeRIS-L значительно превосходит существующие методы по всем метрикам:
- Val набор cIoU: 72,00% против 64,20% (HieA2G)
- Улучшение метрики N-acc особенно значительно: 82,22% против 62,80%
Ключевые находки: когнитивные способности являются основным узким местом RIS
- Обновление модели познания с BERT-B на BEiT3-L: улучшение cIoU на 12,88%
- Обновление модели восприятия с Swin-S на Swin-B: улучшение cIoU только на 1,20%
Сравнение различных структур подключения:
- P-to-C (базовый): gIoU 69,98%
- Синергия обратной связи: gIoU 71,37% (+1,39%)
- Время обучения практически не увеличивается
- Без NSC: N-acc 60,19%
- С NSC: N-acc 79,25% (+19,06%)
- Значительное улучшение стабильности обучения
По сравнению с чисто ориентированными на познание методами, DeRIS сохраняет высокую эффективность при высоком разрешении:
- Время вывода при разрешении 384 увеличивается только на 19%
- Улучшение метрики Pr@0.9 на 14,41%
- Методы, ориентированные на восприятие:
- Методы позднего слияния: визуально-языковое слияние после извлечения признаков
- Методы раннего слияния: интеграция мультимодальной информации во время извлечения признаков
- Методы, ориентированные на познание:
- Использование предварительно обученных моделей визуально-языкового понимания для улучшения когнитивных способностей
- Включает методы одного потока, двух потоков, объединенного кодировщика и MLLM
По сравнению с существующими работами DeRIS впервые систематически разделяет и анализирует роли восприятия и познания, предоставляя новую парадигму проектирования архитектуры.
- Обнаружение когнитивного узкого места: систематический анализ доказывает, что когнитивные способности, а не способности восприятия, являются основным ограничивающим фактором текущего RIS
- Эффективное проектирование архитектуры: механизм синергии обратной связи успешно интегрирует преимущества восприятия и познания
- Ценность увеличения данных: стратегия NSC эффективно решает проблему нехватки неуказанных образцов
- Вычислительные затраты: двухветвевая архитектура добавляет определенные вычислительные издержки
- Чувствительность гиперпараметров: гиперпараметры, такие как количество раундов обратной связи и вероятность преобразования, требуют тщательной настройки
- Зависимость от данных: эффективность стратегии NSC зависит от разнообразия набора данных
- Исследование более эффективных механизмов взаимодействия восприятия и познания
- Изучение адаптивных стратегий генерации неуказанных образцов
- Расширение на более сложные задачи мультимодального понимания
- Инновационная архитектура: разделенный дизайн предоставляет новую исследовательскую перспективу, систематически анализируя основные узкие места RIS
- Полная экспериментальная верификация: многочисленные абляционные исследования доказывают эффективность каждого компонента
- Высокая практическая ценность: достижение SOTA производительности на нескольких эталонных наборах данных
- Глубокий анализ: сочетание количественного и качественного анализа предоставляет ценные инсайты
- Недостаток теоретического анализа: отсутствует анализ теоретической сходимости механизма синергии обратной связи
- Верификация обобщаемости: основная верификация на стандартных наборах данных, отсутствуют кросс-доменные эксперименты обобщения
- Пространство оптимизации эффективности: вычислительная эффективность двухветвевого дизайна все еще имеет пространство для оптимизации
- Академический вклад: предоставляет новую парадигму проектирования архитектуры для области RIS
- Практическая ценность: метод простой и эффективный, легко воспроизводится и применяется
- Вдохновляющее значение: идея разделения может быть обобщена на другие мультимодальные задачи
DeRIS особенно подходит для:
- Сценариев приложений, требующих высокоточной сегментации
- Задач понимания сложных языковых описаний
- Обобщенных сценариев с множественным указанием и неуказанием
- Практических приложений с определенными требованиями к эффективности вывода
Статья цитирует 75 соответствующих работ, охватывающих важные исследования в областях RIS, визуально-языкового понимания, сегментации экземпляров и других связанных областей, предоставляя прочную теоретическую основу для данного исследования.