2025-11-22T08:40:16.236203

UniVector: Unified Vector Extraction via Instance-Geometry Interaction

Yan, Yue, Xia et al.

Vector extraction retrieves structured vector geometry from raster images, offering high-fidelity representation and broad applicability. Existing methods, however, are usually tailored to a single vector type (e.g., polygons, polylines, line segments), requiring separate models for different structures. This stems from treating instance attributes (category, structure) and geometric attributes (point coordinates, connections) independently, limiting the ability to capture complex structures. Inspired by the human brain's simultaneous use of semantic and spatial interactions in visual perception, we propose UniVector, a unified VE framework that leverages instance-geometry interaction to extract multiple vector types within a single model. UniVector encodes vectors as structured queries containing both instance- and geometry-level information, and iteratively updates them through an interaction module for cross-level context exchange. A dynamic shape constraint further refines global structures and key points. To benchmark multi-structure scenarios, we introduce the Multi-Vector dataset with diverse polygons, polylines, and line segments. Experiments show UniVector sets a new state of the art on both single- and multi-structure VE tasks. Code and dataset will be released at https://github.com/yyyyll0ss/UniVector.

academic

UniVector : Extraction Vectorielle Unifiée via Interaction Instance-Géométrie

Informations Fondamentales

ID de l'article : 2510.13234
Titre : UniVector: Unified Vector Extraction via Instance-Geometry Interaction
Auteurs : Yinglong Yan, Jun Yue, Shaobo Xia, Hanmeng Sun, Tianxu Ying, Chengcheng Wu, Sifan Lan, Min He, Pedram Ghamisi, Leyuan Fang
Classification : cs.CV (Vision par Ordinateur)
Date de Publication : 15 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.13234v1

Résumé

L'extraction vectorielle (Vector Extraction, VE) récupère des informations géométriques vectorielles structurées à partir d'images raster, offrant une représentation haute fidélité et une large applicabilité. Cependant, les méthodes existantes sont généralement adaptées à un seul type de vecteur (polygones, polylignes, segments), nécessitant des modèles indépendants pour différentes structures. Cela provient du traitement indépendant des attributs d'instance (catégorie, structure) et des attributs géométriques (coordonnées de points, connectivité), limitant la capacité à capturer des structures complexes. Inspirés par la façon dont le cerveau humain utilise simultanément les interactions sémantiques et spatiales dans la perception visuelle, les auteurs proposent UniVector, un cadre VE unifié qui extrait plusieurs types de vecteurs au sein d'un modèle unique via l'interaction instance-géométrie. UniVector encode les vecteurs en tant que requêtes structurées contenant des informations au niveau instance et au niveau géométrie, mises à jour itérativement par des modules d'interaction pour réaliser l'échange de contexte entre niveaux. Les contraintes de forme dynamique affinent davantage la structure globale et les points clés.

Contexte de Recherche et Motivation

Définition du Problème

L'extraction vectorielle est une tâche fondamentale en vision par ordinateur, visant à extraire des informations vectorielles structurées à partir d'images raster. Les données vectorielles présentent des avantages par rapport aux données raster en termes de stockage léger, de haute fidélité et de facilité d'édition, avec des applications étendues en conception graphique, cartographie géographique et conduite autonome.

Limitations des Méthodes Existantes

Limitation à une structure unique : Les méthodes existantes sont généralement conçues spécifiquement pour des types de vecteurs particuliers (polygones, polylignes ou segments), nécessitant plusieurs modèles indépendants
Problèmes d'architecture en cascade : Les approches traditionnelles adoptent des pipelines en cascade, traitant séparément les attributs d'instance et géométriques, entraînant des lacunes informationnelles
Erreurs topologiques : L'absence de contraintes au niveau instance génère facilement des erreurs topologiques dans les scènes multi-structures

Motivation de la Recherche

Inspirés par la façon dont le cerveau humain utilise simultanément la compréhension sémantique et spatiale dans la perception visuelle, les auteurs proposent de modéliser l'interaction instance-géométrie pour construire une fusion d'informations explicite entre niveaux, permettant aux priors de structure globale et aux indices sémantiques-structurels fins de se compléter mutuellement.

Contributions Principales

Représentation et Cadre Unifiés : Propose une représentation de requête structurée pour unifier différentes structures vectorielles et introduit le cadre d'apprentissage d'interaction instance-géométrie UniVector
Modélisation de l'Interaction Instance-Géométrie : Conçoit un encodeur vectoriel unifié et un décodeur d'interaction instance-géométrie, initialisant et affinant adaptativement les requêtes structurées
Contrainte de Forme Dynamique (DSC) : Introduit DSC pour optimiser dynamiquement la cohérence de structure globale et la précision de forme locale
Ensemble de Données Multi-Vecteur : Construit le premier ensemble de données VE multi-structures, contenant des polygones, polylignes et segments

Encodage vectoriel unifié : Encode différentes structures vectorielles en requêtes structurées
Décodage d'interaction instance-géométrie : Affine itérativement les requêtes
Contrainte de forme dynamique : Assure la cohérence de structure globale et la précision géométrique locale

2. Encodage Vectoriel Unifié

Représentation de Requête Structurée :

Ensemble de requêtes $Q_s \in \mathbb{R}^{N \times (M+1) \times C}$ , où N est le nombre maximal d'instances vectorielles, M est le nombre maximal de points par vecteur, C est la dimension du canal
Chaque vecteur $Q_s^i$ contient une requête d'instance $Q_{ins}^i \in \mathbb{R}^C$ et une requête géométrique $Q_{geo}^i \in \mathbb{R}^{M \times C}$

Processus d'Encodage de Requête :

Encodage au niveau instance : Adopte une stratégie du grossier au fin, sélectionnant d'abord les tokens d'image avec les scores les plus élevés pour former une requête grossière, puis l'affine via un module de détection d'instance
Encodage au niveau géométrie : Capture la structure détaillée via un module de déformation de forme, utilisant l'attention intra-cadre pour affiner la requête géométrique

3. Décodage d'Interaction Instance-Géométrie

Extraction de Caractéristiques Structurées : Étend l'attention déformable, attribuant des points de référence d'instance et géométriques à chaque vecteur :

undefined