Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
Khanchi, Amer, Poullis
Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
academic
Быстрая самоконтролируемая ассоциация с учётом глубины и маски для многообъектного отслеживания
Методы многообъектного отслеживания (MOT) обычно полагаются на пересечение над объединением (IoU) для ассоциации, однако становятся ненадёжными при сходстве целей или окклюзии, а вычисление IoU масок сегментации является дорогостоящим. В данной работе используются маски сегментации для захвата формы объекта, но без вычисления IoU сегментации. Вместо этого объединяются признаки глубины и маски, обрабатываемые компактным кодировщиком, обученным самоконтролируемым образом, что даёт стабильное представление объекта в качестве дополнительного сигнала сходства помимо IoU ограничивающего прямоугольника и признаков переидентификации. Карты глубины получаются с помощью оценщика глубины с нулевым обучением, маски объектов — с помощью модели визуальной сегментации с подсказками для получения тонкозернистых пространственных сигналов. Метод впервые использует самоконтролируемый кодировщик для оптимизации масок сегментации без вычисления IoU маски. Эксперименты на сложных эталонах с нелинейным движением, окклюзией и переполненными сценами (такие как SportsMOT и DanceTrack) показывают, что метод превосходит передовые методы TBD по большинству метрик.
Основные вызовы многообъектного отслеживания включают:
Проблема окклюзии: Когда объекты частично или полностью закрыты, традиционные 2D сигналы (такие как IoU ограничивающего прямоугольника) становятся ненадёжными
Сходство внешнего вида: Объекты с похожим внешним видом трудно различить, что приводит к частым переключениям ID
Вычислительная эффективность: Прямое вычисление IoU масок сегментации имеет высокую вычислительную стоимость
Сложное движение: Ассоциация объектов при нелинейных моделях движения затруднена
Существующие методы MOT в основном полагаются на 2D сигналы для ассоциации данных и показывают плохую производительность в сложных сценариях. Например, два пешехода, идущие параллельно, но находящиеся на разных глубинах, могут быть неразличимы в 2D виде. В данной работе предлагается подход, осведомлённый о 3D пространстве, объединяющий информацию о глубине и сегментации для обеспечения более надёжной ассоциации объектов.
Методы Joint Detection-ReID (JDR): Высокие вычислительные требования, требуют совместного обучения обнаружению и отслеживанию
Методы Tracking-by-Detection (TBD): В основном полагаются на встраивания внешнего вида, а не на сигналы пространственной осведомлённости
Методы с учётом глубины: Используют глубину как вспомогательный сигнал, а не как основной сигнал ассоциации
Самоконтролируемое обучение переидентификации: Полагаются на контрастное обучение или кластеризацию объектов, не используя объединённую информацию о 3D пространстве
Разработка самоконтролируемого кодировщика: Повышение временной стабильности и дискриминативности признаков глубины-маски
Новаторский подход: Впервые использование самоконтролируемого кодировщика для оптимизации масок сегментации и интеграции их в оценку соответствия без вычисления IoU маски
Конкурентоспособная производительность: Достижение конкурентоспособной производительности в различных сценариях отслеживания, особенно в сценариях с окклюзией
Эффективная реализация: Избежание дорогостоящих вычислений IoU маски при сохранении возможности тонкозернистого пространственного вывода
Вход: Последовательные кадры видео и ограничивающие прямоугольники обнаруженных объектов
Выход: Ассоциация идентичности объектов между кадрами с сохранением согласованности ID
Ограничения: Требования к реальному времени, обработка окклюзии и сходства внешнего вида
Дополнительность: Переход от IoU маски к IoU ограничивающего прямоугольника значительно повышает производительность, интеграция глубины-маски обеспечивает дальнейшее улучшение
Адаптация к сценариям: Улучшение более заметно на наборах данных с нелинейным движением, таких как DanceTrack, и относительно меньше на наборах данных с линейным движением, таких как MOT17
Качество ассоциации: Постоянное улучшение метрик ассоциации (HOTA, AssA, IDF1) подтверждает эффективность метода
Статья ссылается на 41 связанную работу, охватывающую основные работы в области MOT, включая классические методы ByteTrack, OC-SORT, FairMOT и др., а также последние методы с учётом глубины и самоконтролируемого обучения, обеспечивая полный справочный материал для соответствующих исследований.