Unified Open-World Segmentation with Multi-Modal Prompts
Liu, Yin, Jing et al.
In this work, we present COSINE, a unified open-world segmentation model that consolidates open-vocabulary segmentation and in-context segmentation with multi-modal prompts (e.g., text and image). COSINE exploits foundation models to extract representations for an input image and corresponding multi-modal prompts, and a SegDecoder to align these representations, model their interaction, and obtain masks specified by input prompts across different granularities. In this way, COSINE overcomes architectural discrepancies, divergent learning objectives, and distinct representation learning strategies of previous pipelines for open-vocabulary segmentation and in-context segmentation. Comprehensive experiments demonstrate that COSINE has significant performance improvements in both open-vocabulary and in-context segmentation tasks. Our exploratory analyses highlight that the synergistic collaboration between using visual and textual prompts leads to significantly improved generalization over single-modality approaches.
academic
Segmentation Unifiée du Monde Ouvert avec Invites Multi-Modales
Cette étude propose COSINE, un modèle de segmentation du monde ouvert unifié qui intègre la segmentation en vocabulaire ouvert et la segmentation contextuelle, en supportant des invites multi-modales (telles que le texte et les images). COSINE exploite les modèles fondamentaux pour extraire les représentations de l'image d'entrée et des invites multi-modales correspondantes, et utilise SegDecoder pour aligner ces représentations, modéliser leurs interactions et obtenir des masques spécifiés par les invites d'entrée à différentes granularités. De cette manière, COSINE surmonte les problèmes des pipelines précédents de segmentation en vocabulaire ouvert et de segmentation contextuelle concernant les différences architecturales, les divergences d'objectifs d'apprentissage et les différences de stratégies d'apprentissage des représentations. Les expériences complètes démontrent des améliorations significatives de performance de COSINE sur les tâches de segmentation en vocabulaire ouvert et contextuelle. L'analyse exploratoire souligne que la synergie entre les invites visuelles et textuelles améliore considérablement la capacité de généralisation par rapport aux approches unimodales.
Les modèles de segmentation traditionnels en monde fermé se limitent à reconnaître un ensemble fixe de catégories rencontrées lors de l'entraînement, tandis que les modèles de segmentation du monde ouvert doivent localiser des objets pertinents arbitraires dans des environnements sauvages en fonction des invites fournies par l'utilisateur. La recherche actuelle en segmentation du monde ouvert se concentre principalement sur deux paradigmes distincts :
Segmentation en vocabulaire ouvert : Remplacer les classificateurs apprenables par des plongements textuels dérivés de descripteurs de catégories, en étendant les cadres de segmentation en ensemble fermé traditionnel à la reconnaissance de nouvelles catégories par l'alignement du langage naturel
Segmentation contextuelle : Exploiter les indices contextuels des images d'exemple pour réaliser une segmentation d'objets adaptative dans les images de requête
Les méthodes existantes présentent principalement trois problèmes fondamentaux :
Différences architecturales : Différentes méthodes adoptent des conceptions architecturales radicalement différentes (par exemple, SegGPT utilise une architecture d'encodeur ViT, ODISE adopte une structure encodeur-décodeur Mask2Former)
Divergence des objectifs d'apprentissage : La segmentation en vocabulaire ouvert se concentre sur l'alignement sémantique image-texte, tandis que la segmentation contextuelle met l'accent sur la modélisation des relations référence-requête
Différences de stratégies d'apprentissage des représentations : La segmentation en vocabulaire ouvert s'appuie sur des modèles multi-modaux pour l'appariement de catégories, tandis que la segmentation contextuelle utilise principalement des modèles fondamentaux visuels pour la localisation d'objets
L'unification de ces deux paradigmes est d'une grande importance : dépendre uniquement du texte peut entraîner une abstraction sémantique insuffisante à grain fin, tandis que les exemples basés sur des images manquent souvent de limites de catégories explicites et d'alignement sémantique. L'intégration des deux peut exploiter pleinement les avantages complémentaires des modalités texte et visuelle.
Premier cadre unifié : À la connaissance des auteurs, c'est la première méthode unifiant la segmentation contextuelle et la segmentation en vocabulaire ouvert, proposant le cadre COSINE simple et efficace
Améliorations significatives de performance : Réalisation d'améliorations significatives de performance sur les tâches de segmentation en vocabulaire ouvert et contextuelle
Perspectives de synergie multi-modale : Découverte que la synergie entre différentes branches modales améliore la capacité de généralisation de la segmentation du monde ouvert, fournissant des perspectives précieuses à la communauté de recherche
Conception légère : En gelant les modèles fondamentaux et en entraînant uniquement un décodeur léger, libération efficace du potentiel des modèles fondamentaux dans la perception du monde ouvert
Adopte une conception à double voie, promouvant l'interaction entre les requêtes d'objets, les invites de différentes modalités et les caractéristiques d'image par auto-attention et attention croisée
Espace de représentation unifié : Conversion des entrées de différentes modalités en séquences de tokens normalisées, réalisant l'unification structurelle
Stratégie d'entraînement coopératif : Maintien d'un rapport d'échantillons 1:1 entre les invites d'image et de texte pendant l'entraînement
Inférence coopérative multi-modale : Support de l'inférence coopérative avec des invites unimodales et multi-modales, intégration des informations de différentes modalités par un mécanisme de fusion moyenne simple
COSINE est la première méthode unifiant la segmentation en vocabulaire ouvert et la segmentation contextuelle, réalisant une intégration efficace des deux paradigmes en gelant les modèles fondamentaux et en entraînant un décodeur léger.
Efficacité du cadre unifié : COSINE unifie avec succès la segmentation en vocabulaire ouvert et la segmentation contextuelle, atteignant les performances SOTA sur plusieurs tâches
Importance de la synergie multi-modale : La coopération des invites visuelles et textuelles améliore significativement la capacité de généralisation du modèle
Avantages de la conception légère : En gelant les modèles fondamentaux, COSINE réduit considérablement les coûts d'entraînement tout en maintenant une performance forte
Sacrifice de performance en ensemble fermé : Pour améliorer la capacité de généralisation du monde ouvert, la performance en scénarios d'ensemble fermé diminue (par exemple, PQ 50,6 sur COCO vs OpenSeeD 59,5)
Limitations du réservoir de modèles : Exploration limitée de combinaisons de modèles fondamentaux, recherche insuffisante sur les MLLMs et modèles de diffusion plus avancés
Coût de calcul : L'utilisation de plusieurs modèles fondamentaux augmente inévitablement les frais généraux de calcul
Innovation forte : Première proposition d'un cadre unifiant la segmentation en vocabulaire ouvert et la segmentation contextuelle, résolvant un problème technique important
Expérimentation complète : Évaluation complète sur plusieurs ensembles de données et tâches, incluant des expériences d'ablation détaillées
Contributions techniques claires : Fourniture d'une solution pratique par la conception de modèles fondamentaux gelés et de décodeurs légers
Analyse approfondie : Exploration approfondie des effets de synergie multi-modale
L'article cite 73 références connexes, couvrant plusieurs domaines importants tels que la segmentation, les modèles fondamentaux et l'apprentissage multi-modal, fournissant une base théorique solide pour la recherche.
Évaluation Générale : Ceci est un article de haute qualité en vision par ordinateur, proposant un cadre unifié innovant pour le problème important de la segmentation du monde ouvert. Bien qu'il présente certaines limitations, ses contributions techniques sont claires, ses résultats expérimentaux sont convaincants, et il joue un rôle important dans l'avancement du domaine.