2025-11-23T10:40:16.838465

Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Khanchi, Amer, Poullis

Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.

academic

Быстрая самоконтролируемая ассоциация с учётом глубины и маски для многообъектного отслеживания

Основная информация

ID статьи: 2510.09878
Название: Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
Авторы: Milad Khanchi, Maria Amer, Charalambos Poullis (Concordia University)
Категория: cs.CV (Компьютерное зрение)
Дата публикации: 10 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.09878
Ссылка на код: https://github.com/Milad-Khanchi/SelfTrEncMOT

Аннотация

Методы многообъектного отслеживания (MOT) обычно полагаются на пересечение над объединением (IoU) для ассоциации, однако становятся ненадёжными при сходстве целей или окклюзии, а вычисление IoU масок сегментации является дорогостоящим. В данной работе используются маски сегментации для захвата формы объекта, но без вычисления IoU сегментации. Вместо этого объединяются признаки глубины и маски, обрабатываемые компактным кодировщиком, обученным самоконтролируемым образом, что даёт стабильное представление объекта в качестве дополнительного сигнала сходства помимо IoU ограничивающего прямоугольника и признаков переидентификации. Карты глубины получаются с помощью оценщика глубины с нулевым обучением, маски объектов — с помощью модели визуальной сегментации с подсказками для получения тонкозернистых пространственных сигналов. Метод впервые использует самоконтролируемый кодировщик для оптимизации масок сегментации без вычисления IoU маски. Эксперименты на сложных эталонах с нелинейным движением, окклюзией и переполненными сценами (такие как SportsMOT и DanceTrack) показывают, что метод превосходит передовые методы TBD по большинству метрик.

Исследовательский контекст и мотивация

Определение проблемы

Основные вызовы многообъектного отслеживания включают:

Проблема окклюзии: Когда объекты частично или полностью закрыты, традиционные 2D сигналы (такие как IoU ограничивающего прямоугольника) становятся ненадёжными
Сходство внешнего вида: Объекты с похожим внешним видом трудно различить, что приводит к частым переключениям ID
Вычислительная эффективность: Прямое вычисление IoU масок сегментации имеет высокую вычислительную стоимость
Сложное движение: Ассоциация объектов при нелинейных моделях движения затруднена

Исследовательская мотивация

Существующие методы MOT в основном полагаются на 2D сигналы для ассоциации данных и показывают плохую производительность в сложных сценариях. Например, два пешехода, идущие параллельно, но находящиеся на разных глубинах, могут быть неразличимы в 2D виде. В данной работе предлагается подход, осведомлённый о 3D пространстве, объединяющий информацию о глубине и сегментации для обеспечения более надёжной ассоциации объектов.

Ограничения существующих методов

Методы Joint Detection-ReID (JDR): Высокие вычислительные требования, требуют совместного обучения обнаружению и отслеживанию
Методы Tracking-by-Detection (TBD): В основном полагаются на встраивания внешнего вида, а не на сигналы пространственной осведомлённости
Методы с учётом глубины: Используют глубину как вспомогательный сигнал, а не как основной сигнал ассоциации
Самоконтролируемое обучение переидентификации: Полагаются на контрастное обучение или кластеризацию объектов, не используя объединённую информацию о 3D пространстве

Основные вклады

Разработка самоконтролируемого кодировщика: Повышение временной стабильности и дискриминативности признаков глубины-маски
Новаторский подход: Впервые использование самоконтролируемого кодировщика для оптимизации масок сегментации и интеграции их в оценку соответствия без вычисления IoU маски
Конкурентоспособная производительность: Достижение конкурентоспособной производительности в различных сценариях отслеживания, особенно в сценариях с окклюзией
Эффективная реализация: Избежание дорогостоящих вычислений IoU маски при сохранении возможности тонкозернистого пространственного вывода

Подробное описание метода

Определение задачи

Вход: Последовательные кадры видео и ограничивающие прямоугольники обнаруженных объектов Выход: Ассоциация идентичности объектов между кадрами с сохранением согласованности ID Ограничения: Требования к реальному времени, обработка окклюзии и сходства внешнего вида

Архитектура модели

1. Модуль объединения глубины и маски

Оценка глубины с нулевым обучением: Использование Depth Pro для генерации карт глубины, представляющих относительное пространственное расположение
Визуальная сегментация с подсказками (PVS): Применение SAM2 для выравнивания формы в пространстве-времени
- Для отслеживаемых траекторий в кадре t-1 использование ограничивающего прямоугольника как подсказки для генерации точной маски сегментации
- Для новых обнаружений в кадре t обратное распространение в кадр t-1 для выравнивания
- Поэлементное умножение маски на соответствующую карту глубины для генерации объединённого встраивания глубины-маски

2. Самоконтролируемый кодировщик глубины-маски

Проектирование архитектуры:

Кодировщик: 3 сверточных слоя (ядро 4×4, шаг 2), каналы от 1→32→64→128
Пакетная нормализация и активация ReLU
Линейный слой для создания признаков узкого места размерностью 2048
Декодировщик: зеркальная структура с транспонированной сверткой для повышающей дискретизации

Цели обучения:

L_total = L_recon + L_bottleneck
L_recon = ||f_i - f̂_i||²₂
L_bottleneck = ||b_{t-1} - b_t||²₂

Обновление временной согласованности:

emb_t = C · emb_{t-1} + (1-C) · emb_new
C = T + (1-T) · (1 - (DC-thresh)/(1-thresh))

3. Модуль внешнего вида и движения

Нелинейный фильтр Калмана: Моделирование динамики движения объекта с интеграцией механизма обновления перецентрирования наблюдения (ORU)
Соответствие движения: Вычисление S_IoU (пространственное перекрытие) и S_ang (угловая согласованность)
Соответствие внешнего вида: Использование FastReID для извлечения встраиваний внешнего вида, вычисление сходства косинуса S_emb

Технические инновации

Избежание вычисления IoU маски: Замена дорогостоящего IoU маски на сходство косинуса встраиваний кодировщика
Мультимодальное объединение: Поэлементное объединение информации о глубине и сегментации обеспечивает тонкозернистые пространственные сигналы
Самоконтролируемая оптимизация: Повышение качества признаков через потери реконструкции и согласованности узкого места
Временная стабильность: Стратегия динамически взвешенного обновления встраивания сохраняет согласованность между кадрами

Общая стратегия ассоциации

Match_t = S_IoU_t(X̂,D) + S_ang_t(X̂,D) + S_sd_t(X̂,D) + S_emb_t(X̂,D)

Использование венгерского алгоритма для оптимальной ассоциации данных.

Экспериментальная установка

Наборы данных

SportsMOT: Быстрое, непредсказуемое движение, частая окклюзия
DanceTrack: Высоконелинейное движение, частая окклюзия, близкое взаимодействие
- 40 обучающих последовательностей, 25 валидационных последовательностей, 35 тестовых последовательностей
MOT17: Толпы средней плотности, структурированное движение пешеходов, относительно линейное и предсказуемое

Метрики оценки

HOTA: Высокоуровневая точность отслеживания, балансирующая точность обнаружения и ассоциации
AssA: Точность ассоциации, подчёркивающая сохранение идентичности
DetA: Точность обнаружения
IDF1: Оценка F1 идентичности, сосредоточенная на сохранении идентичности и качестве ассоциации
MOTA: Точность многообъектного отслеживания, сосредоточенная на производительности уровня обнаружения
FPS: Частота кадров на основе компонента отслеживания

Методы сравнения

Методы TBD: ByteTrack, OC-SORT, Deep OC-SORT, DiffMOT, CMTrack и др. Методы JDR: FairMOT, TransTrack, MOTRv2 и др.

Детали реализации

Детектор: YOLOX (согласуется с последними методами MOT)
Обучение: Один GPU NVIDIA A100, размер пакета 128, 12 эпох
Оптимизатор: Adam, скорость обучения 1e-3
Вывод: Размер пакета 1, фаза ассоциации превышает 125 FPS (набор валидации DanceTrack)

Результаты экспериментов

Основные результаты

Тестовый набор SportsMOT

Метод	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT*	76.2	76.1	65.1	97.1	89.3
SelfTrEncMOT*	76.4	77.1	66.0	95.84	88.4

Тестовый набор DanceTrack

Метод	HOTA↑	IDF1↑	AssA↑	MOTA↑	DetA↑
DiffMOT	62.3	63.0	47.2	92.8	82.5
SelfTrEncMOT	64.14	66.47	50.85	90.08	81.06
MOTRv2 (JDR)	69.9	71.7	59.0	91.9	83.0

Тестовый набор MOT17

Метод	HOTA↑	IDF1↑	AssA↑	MOTA↑	IDs↓
CMTrack	65.5	81.5	66.1	80.7	912
SelfTrEncMOT	63.48	78.12	63.25	79.16	1,008

Абляционные исследования

Конфигурация	DanceTrack-val	MOT17-val
Внешний вид + IoU маски	HOTA: 54.78, AssA: 38.52, IDF1: 52.71	HOTA: 68.26, AssA: 66.81, IDF1: 77.20
Внешний вид + IoU ограничивающего прямоугольника	HOTA: 59.46, AssA: 43.93, IDF1: 59.11	HOTA: 70.43, AssA: 70.83, IDF1: 80.73
Внешний вид + IoU ограничивающего прямоугольника + глубина-маска	HOTA: 60.61, AssA: 47.04, IDF1: 62.34	HOTA: 72.22, AssA: 71.79, IDF1: 82.52

Экспериментальные выводы

Дополнительность: Переход от IoU маски к IoU ограничивающего прямоугольника значительно повышает производительность, интеграция глубины-маски обеспечивает дальнейшее улучшение
Адаптация к сценариям: Улучшение более заметно на наборах данных с нелинейным движением, таких как DanceTrack, и относительно меньше на наборах данных с линейным движением, таких как MOT17
Качество ассоциации: Постоянное улучшение метрик ассоциации (HOTA, AssA, IDF1) подтверждает эффективность метода

Связанные работы

Методы Joint Detection-ReID

FairMOT: Двухветвевой метод, объединяющий обнаружение без якорей и встраивания внешнего вида
TransCenter: Деформируемое внимание для улучшения обработки окклюзии
AFMTrack: Сеть соответствия признаков внимания

Методы Tracking-by-Detection

Отслеживание на уровне последовательности: Методы на основе графов (Brasó и др.), самоконтролируемая согласованность пути (Lu и др.)
Отслеживание на уровне кадра: Модели внимания (TrackFormer, MOTRv2), методы регрессии (OC-SORT, DiffMOT)

Осведомлённость о глубине и самоконтролируемая ассоциация

Интеграция глубины: Относительное упорядочение глубины (Quach и др.), стереоглубина в сочетании с оценкой позы (Wang и др.)
Самоконтролируемая переидентификация: Встраивания согласованности пути (Li и др.)

Заключение и обсуждение

Основные выводы

Объединение глубины и маски обеспечивает эффективную способность пространственной осведомлённости в 3D
Самоконтролируемый кодировщик успешно повышает временную стабильность и дискриминативность признаков
Избежание вычисления IoU маски при сохранении возможности тонкозернистого пространственного вывода
Превосходная производительность в сложных сценариях (окклюзия, нелинейное движение)

Ограничения

Вычислительное узкое место: Этап оценки глубины (DepthPro примерно 0.3 сек/кадр) является основным узким местом производительности
Сценарии с линейным движением: Ограниченное улучшение на наборах данных с линейным движением, таких как MOT17
Зависимость: Зависимость от качества предварительно обученных моделей SAM2 и DepthPro

Направления будущих исследований

Оценка глубины в реальном времени: Исследование более быстрых оценщиков глубины для повышения общей скорости
Контрастное обучение: Введение контрастных целей для кодировщика для повышения дискриминативности и надёжности
Сквозное обучение: Исследование совместной оптимизации оценки глубины и отслеживания

Глубокая оценка

Преимущества

Техническая инновация: Впервые объединение объединения глубины-маски с самоконтролируемым кодировщиком для MOT
Практическая ценность: Избежание дорогостоящих вычислений IoU маски, обеспечение эффективного решения
Достаточные эксперименты: Проверка на нескольких сложных наборах данных, полные абляционные исследования
Повышение производительности: Постоянное превосходство над существующими методами TBD по метрикам качества ассоциации

Недостатки

Вычислительная эффективность: Хотя IoU маски избежана, оценка глубины остаётся узким местом
Область применения: Преимущества не очевидны в простых сценариях с линейным движением
Сильная зависимость: Сильная зависимость от качества и доступности предварительно обученных моделей
Теоретический анализ: Отсутствие теоретического объяснения эффективности объединения глубины-маски

Влияние

Академический вклад: Введение новой идеи мультимодального объединения в область MOT
Практическое применение: Практическая ценность для отслеживания в сложных сценариях, таких как спорт и танцы
Воспроизводимость: Предоставление кода и подробных деталей реализации облегчает воспроизведение

Применимые сценарии

Сценарии со сложным движением: Отслеживание нелинейного движения в спортивных соревнованиях, танцевальных представлениях
Среды с высокой окклюзией: Многообъектное отслеживание в переполненных сценариях
Объекты с похожим внешним видом: Сценарии, требующие дополнительных пространственных сигналов для различения
Требования к средней реальной производительности: Приложения, способные допустить определённую вычислительную задержку

Библиография

Статья ссылается на 41 связанную работу, охватывающую основные работы в области MOT, включая классические методы ByteTrack, OC-SORT, FairMOT и др., а также последние методы с учётом глубины и самоконтролируемого обучения, обеспечивая полный справочный материал для соответствующих исследований.