2025-11-19T16:58:15.123993

Unified Open-World Segmentation with Multi-Modal Prompts

Liu, Yin, Jing et al.

In this work, we present COSINE, a unified open-world segmentation model that consolidates open-vocabulary segmentation and in-context segmentation with multi-modal prompts (e.g., text and image). COSINE exploits foundation models to extract representations for an input image and corresponding multi-modal prompts, and a SegDecoder to align these representations, model their interaction, and obtain masks specified by input prompts across different granularities. In this way, COSINE overcomes architectural discrepancies, divergent learning objectives, and distinct representation learning strategies of previous pipelines for open-vocabulary segmentation and in-context segmentation. Comprehensive experiments demonstrate that COSINE has significant performance improvements in both open-vocabulary and in-context segmentation tasks. Our exploratory analyses highlight that the synergistic collaboration between using visual and textual prompts leads to significantly improved generalization over single-modality approaches.

academic

Segmentation Unifiée du Monde Ouvert avec Invites Multi-Modales

Informations Fondamentales

ID de l'article : 2510.10524
Titre : Unified Open-World Segmentation with Multi-Modal Prompts
Auteurs : Yang Liu, Yufei Yin, Chenchen Jing, Muzhi Zhu, Hao Chen, Yuling Xi, Bo Feng, Hao Wang, Shiyu Li, Chunhua Shen
Classification : cs.CV
Date de publication : 12 octobre 2024 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.10524

Résumé

Cette étude propose COSINE, un modèle de segmentation du monde ouvert unifié qui intègre la segmentation en vocabulaire ouvert et la segmentation contextuelle, en supportant des invites multi-modales (telles que le texte et les images). COSINE exploite les modèles fondamentaux pour extraire les représentations de l'image d'entrée et des invites multi-modales correspondantes, et utilise SegDecoder pour aligner ces représentations, modéliser leurs interactions et obtenir des masques spécifiés par les invites d'entrée à différentes granularités. De cette manière, COSINE surmonte les problèmes des pipelines précédents de segmentation en vocabulaire ouvert et de segmentation contextuelle concernant les différences architecturales, les divergences d'objectifs d'apprentissage et les différences de stratégies d'apprentissage des représentations. Les expériences complètes démontrent des améliorations significatives de performance de COSINE sur les tâches de segmentation en vocabulaire ouvert et contextuelle. L'analyse exploratoire souligne que la synergie entre les invites visuelles et textuelles améliore considérablement la capacité de généralisation par rapport aux approches unimodales.

Contexte et Motivation de la Recherche

Définition du Problème

Les modèles de segmentation traditionnels en monde fermé se limitent à reconnaître un ensemble fixe de catégories rencontrées lors de l'entraînement, tandis que les modèles de segmentation du monde ouvert doivent localiser des objets pertinents arbitraires dans des environnements sauvages en fonction des invites fournies par l'utilisateur. La recherche actuelle en segmentation du monde ouvert se concentre principalement sur deux paradigmes distincts :

Segmentation en vocabulaire ouvert : Remplacer les classificateurs apprenables par des plongements textuels dérivés de descripteurs de catégories, en étendant les cadres de segmentation en ensemble fermé traditionnel à la reconnaissance de nouvelles catégories par l'alignement du langage naturel
Segmentation contextuelle : Exploiter les indices contextuels des images d'exemple pour réaliser une segmentation d'objets adaptative dans les images de requête

Motivation de la Recherche

Les méthodes existantes présentent principalement trois problèmes fondamentaux :

Différences architecturales : Différentes méthodes adoptent des conceptions architecturales radicalement différentes (par exemple, SegGPT utilise une architecture d'encodeur ViT, ODISE adopte une structure encodeur-décodeur Mask2Former)
Divergence des objectifs d'apprentissage : La segmentation en vocabulaire ouvert se concentre sur l'alignement sémantique image-texte, tandis que la segmentation contextuelle met l'accent sur la modélisation des relations référence-requête
Différences de stratégies d'apprentissage des représentations : La segmentation en vocabulaire ouvert s'appuie sur des modèles multi-modaux pour l'appariement de catégories, tandis que la segmentation contextuelle utilise principalement des modèles fondamentaux visuels pour la localisation d'objets

Importance

L'unification de ces deux paradigmes est d'une grande importance : dépendre uniquement du texte peut entraîner une abstraction sémantique insuffisante à grain fin, tandis que les exemples basés sur des images manquent souvent de limites de catégories explicites et d'alignement sémantique. L'intégration des deux peut exploiter pleinement les avantages complémentaires des modalités texte et visuelle.

Contributions Fondamentales

Premier cadre unifié : À la connaissance des auteurs, c'est la première méthode unifiant la segmentation contextuelle et la segmentation en vocabulaire ouvert, proposant le cadre COSINE simple et efficace
Améliorations significatives de performance : Réalisation d'améliorations significatives de performance sur les tâches de segmentation en vocabulaire ouvert et contextuelle
Perspectives de synergie multi-modale : Découverte que la synergie entre différentes branches modales améliore la capacité de généralisation de la segmentation du monde ouvert, fournissant des perspectives précieuses à la communauté de recherche
Conception légère : En gelant les modèles fondamentaux et en entraînant uniquement un décodeur léger, libération efficace du potentiel des modèles fondamentaux dans la perception du monde ouvert

Explication Détaillée de la Méthode

Définition de la Tâche

COSINE vise à traiter la tâche unifiée de segmentation du monde ouvert, dont les entrées incluent :

Image cible
Invites multi-modales (descriptions textuelles ou images d'exemple)
Sortie : masques de segmentation à différentes granularités (segmentation sémantique, d'instance, panoptique, etc.)

Architecture du Modèle

Conception Générale

COSINE adopte une philosophie de conception simple, contenant deux composants principaux :

Réservoir de modèles (Model Pool) : Extraction de caractéristiques de l'image cible et des invites de différentes modalités
SegDecoder : Modèle de segmentation décodeur uniquement, traitant les caractéristiques d'image et d'invites

Réservoir de Modèles

Modèle visuel : Encodeurs visuels DINOv2 et CLIP
Modèle linguistique : Encodeur de texte CLIP
Traitement des entrées :
- Image cible : Encodée en caractéristiques d'image $F = \{F_i\}^P_i$ en utilisant tous les modèles visuels
- Invites visuelles : Encodées avec DINOv2 et regroupées avec masque contextuel en token d'invite $V = \{v_i\}^M_i$
- Invites textuelles : Caractéristiques textuelles extraites $T = \{t_i\}^N_i$ en utilisant le modèle linguistique

Architecture SegDecoder

Contient quatre modules fondamentaux :

Groupe d'adaptateurs :
- Feature Blender : Fusion de différentes caractéristiques d'image
- V-Adapter et T-Adapter : Alignement des dimensions de caractéristiques d'image et de diverses invites modales
Aligneur Image-Invite (Image-Prompt Aligner) :
```
⟨F', V', T'⟩ = Alignment(F, V, T; θ)
```
Alignement de l'image et des invites de différentes modalités par auto-attention, attention croisée et réseaux de neurones à propagation avant
Décodeur de Pixels (Pixel Decoder) :
- Mono-échelle : Deux couches de convolution transposée, réalisant un sur-échantillonnage 4×
- Multi-échelle : Transformer d'attention déformable
Décodeur Multi-Modal (Multi-Modality Decoder) :
```
⟨Q_r, V_r, T_r⟩ = Decoder(Q, V', T', F', F_mask; φ)
```
Adopte une conception à double voie, promouvant l'interaction entre les requêtes d'objets, les invites de différentes modalités et les caractéristiques d'image par auto-attention et attention croisée

Points d'Innovation Technique

Espace de représentation unifié : Conversion des entrées de différentes modalités en séquences de tokens normalisées, réalisant l'unification structurelle
Stratégie d'entraînement coopératif : Maintien d'un rapport d'échantillons 1:1 entre les invites d'image et de texte pendant l'entraînement
Inférence coopérative multi-modale : Support de l'inférence coopérative avec des invites unimodales et multi-modales, intégration des informations de différentes modalités par un mécanisme de fusion moyenne simple

Configuration Expérimentale

Ensembles de Données

COCO : 118K images d'entraînement, 5K images de validation, supportant plusieurs tâches de segmentation
Objects365 : 365 catégories d'objets, 638K images, utilisant la version améliorée Objects365-SAM
Ensembles de données de segmentation référencée : refCLEF, refCOCO, refCOCO+, refCOCOg
Ensembles de données d'évaluation : LVIS, ADE20K, Cityscapes, DAVIS 2017, YouTube-VOS 2019, etc.

Métriques d'Évaluation

Segmentation peu-shot : mIoU (apprentissage un-shot et few-shot)
Segmentation d'instance : AP (toutes les catégories) et APr (catégories rares)
Segmentation panoptique : PQ (qualité panoptique) et AP
Segmentation d'objets vidéo : Score J&F
Segmentation référencée : cIoU

Détails d'Implémentation

Modèles fondamentaux : DINOv2 (ViT-L) et CLIP (ConvNeXt-Large)
Paramètres entraînables : 25M mono-échelle, 32M multi-échelle
Configuration d'entraînement : 50K étapes, taille de lot 64, optimiseur Adam, taux d'apprentissage 1e-4
Augmentation de données : Retournement horizontal aléatoire et gigue à grande échelle (LSJ)

Résultats Expérimentaux

Résultats Principaux

Segmentation Sémantique Peu-Shot (LVIS-92i)

Apprentissage un-shot : 35,2 mIoU (vs. Matcher 33,0, SINE 31,2)
Apprentissage few-shot : 40,7 mIoU (vs. Matcher 40,0, SINE 35,5)

Segmentation d'Instance Peu-Shot (LVIS)

AP : 20,3 (significativement supérieur à DINOv 15,4)
APr : 25,8 (performance excellente sur les catégories rares)

Segmentation Panoptique en Vocabulaire Ouvert

ADE20K : PQ 31,0, AP 21,1 (supérieur à ODISE 23,4 PQ, 13,9 AP)
Cityscapes : PQ 35,7, AP 15,6 (comparable aux méthodes SOTA)

Segmentation Sémantique en Vocabulaire Ouvert

A-847 : 15,6 mIoU
PC-459 : 19,2 mIoU

Expériences d'Ablation

Effet d'Interaction Visuelle-Textuelle

Phase d'entraînement (10K étapes d'entraînement) :

Branche visuelle uniquement : LVIS-92i apprentissage un-shot 24,5 mIoU
Branche textuelle uniquement : ADE20K PQ 13,2
Union multi-modale : Amélioration significative des deux branches

Phase d'inférence :

Coopération multi-modale augmentant LVIS-92i de 35,2 à 43,1 mIoU
Augmentation d'ADE20K de 31,0 à 31,4 PQ

Analyse de Contribution des Composants

Encodeur DINOv2 uniquement : Baisse significative de performance sur les tâches en vocabulaire ouvert
Encodeur CLIP uniquement : Baisse de performance sur les tâches contextuelles
Suppression de Feature Blender : Baisse évidente de performance
Suppression d'Image-Prompt Aligner : Baisse de tous les indicateurs

Analyse de Cas

L'article présente des résultats qualitatifs dans divers scénarios :

Inspection industrielle : Coopération des invites visuelles et textuelles pour segmentation précise des défauts
Imagerie médicale : Application des invites multi-modales dans les images médicales complexes
Scènes générales : Traitement unifié des tâches de segmentation à différentes granularités

Travaux Connexes

Segmentation du Monde Ouvert

Segmentation en vocabulaire ouvert : Méthodes ODISE, FC-CLIP, OpenSeeD se concentrant sur l'alignement texte-image
Segmentation contextuelle : Méthodes SegGPT, PerSAM, Matcher, DINOv exploitant les exemples visuels

Modèles Fondamentaux Visuels

Apprentissage auto-supervisé : MAE, DINOv2 fournissant des caractéristiques visuelles puissantes
Apprentissage multi-modal : CLIP réalisant l'alignement image-texte par apprentissage contrastif
Segmentation générale : SAM réalisant la segmentation zéro-shot indépendante de la catégorie

Distinction des Travaux Connexes

COSINE est la première méthode unifiant la segmentation en vocabulaire ouvert et la segmentation contextuelle, réalisant une intégration efficace des deux paradigmes en gelant les modèles fondamentaux et en entraînant un décodeur léger.

Conclusion et Discussion

Conclusions Principales

Efficacité du cadre unifié : COSINE unifie avec succès la segmentation en vocabulaire ouvert et la segmentation contextuelle, atteignant les performances SOTA sur plusieurs tâches
Importance de la synergie multi-modale : La coopération des invites visuelles et textuelles améliore significativement la capacité de généralisation du modèle
Avantages de la conception légère : En gelant les modèles fondamentaux, COSINE réduit considérablement les coûts d'entraînement tout en maintenant une performance forte

Limitations

Sacrifice de performance en ensemble fermé : Pour améliorer la capacité de généralisation du monde ouvert, la performance en scénarios d'ensemble fermé diminue (par exemple, PQ 50,6 sur COCO vs OpenSeeD 59,5)
Limitations du réservoir de modèles : Exploration limitée de combinaisons de modèles fondamentaux, recherche insuffisante sur les MLLMs et modèles de diffusion plus avancés
Coût de calcul : L'utilisation de plusieurs modèles fondamentaux augmente inévitablement les frais généraux de calcul

Directions Futures

Distillation de connaissances : Distillation des connaissances de plusieurs modèles dans un modèle unique pour réduire les coûts de calcul
Modèles fondamentaux supplémentaires : Exploration de modèles fondamentaux plus avancés tels que les MLLMs et les modèles de diffusion
Optimisation architecturale : Optimisation supplémentaire de la conception architecturale unifiée

Évaluation Approfondie

Points Forts

Innovation forte : Première proposition d'un cadre unifiant la segmentation en vocabulaire ouvert et la segmentation contextuelle, résolvant un problème technique important
Expérimentation complète : Évaluation complète sur plusieurs ensembles de données et tâches, incluant des expériences d'ablation détaillées
Contributions techniques claires : Fourniture d'une solution pratique par la conception de modèles fondamentaux gelés et de décodeurs légers
Analyse approfondie : Exploration approfondie des effets de synergie multi-modale

Insuffisances

Analyse théorique insuffisante : Manque d'explications théoriques sur les raisons de l'efficacité de la coopération multi-modale
Limitations du choix de modèles fondamentaux : Exploration insuffisante d'autres combinaisons possibles de modèles fondamentaux
Analyse d'efficacité de calcul insuffisante : Analyse insuffisante des frais généraux de calcul introduits par les modèles multiples

Impact

Valeur académique : Fourniture d'une nouvelle perspective unifiée pour la segmentation du monde ouvert, pouvant inspirer les recherches ultérieures
Valeur pratique : La conception légère rend la méthode très pratique
Reproductibilité : Les auteurs s'engagent à ouvrir le code source, favorisant l'adoption et l'amélioration par la communauté de recherche

Scénarios Applicables

Conduite autonome : Nécessité d'identifier et de segmenter diverses objets sur la route
Robotique interactive : Nécessité de segmentation selon les instructions en langage naturel ou les exemples visuels
Analyse d'imagerie médicale : Segmentation de lésions combinant descriptions textuelles et exemples visuels
Détection industrielle : Détection de défauts basée sur des invites multi-modales

Références

L'article cite 73 références connexes, couvrant plusieurs domaines importants tels que la segmentation, les modèles fondamentaux et l'apprentissage multi-modal, fournissant une base théorique solide pour la recherche.

Évaluation Générale : Ceci est un article de haute qualité en vision par ordinateur, proposant un cadre unifié innovant pour le problème important de la segmentation du monde ouvert. Bien qu'il présente certaines limitations, ses contributions techniques sont claires, ses résultats expérimentaux sont convaincants, et il joue un rôle important dans l'avancement du domaine.