Vector extraction retrieves structured vector geometry from raster images, offering high-fidelity representation and broad applicability. Existing methods, however, are usually tailored to a single vector type (e.g., polygons, polylines, line segments), requiring separate models for different structures. This stems from treating instance attributes (category, structure) and geometric attributes (point coordinates, connections) independently, limiting the ability to capture complex structures. Inspired by the human brain's simultaneous use of semantic and spatial interactions in visual perception, we propose UniVector, a unified VE framework that leverages instance-geometry interaction to extract multiple vector types within a single model. UniVector encodes vectors as structured queries containing both instance- and geometry-level information, and iteratively updates them through an interaction module for cross-level context exchange. A dynamic shape constraint further refines global structures and key points. To benchmark multi-structure scenarios, we introduce the Multi-Vector dataset with diverse polygons, polylines, and line segments. Experiments show UniVector sets a new state of the art on both single- and multi-structure VE tasks. Code and dataset will be released at https://github.com/yyyyll0ss/UniVector.
- ID del Artículo: 2510.13234
- Título: UniVector: Unified Vector Extraction via Instance-Geometry Interaction
- Autores: Yinglong Yan, Jun Yue, Shaobo Xia, Hanmeng Sun, Tianxu Ying, Chengcheng Wu, Sifan Lan, Min He, Pedram Ghamisi, Leyuan Fang
- Clasificación: cs.CV (Visión por Computadora)
- Fecha de Publicación: 15 de octubre de 2025 (preimpresión arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.13234v1
La extracción de vectores (Vector Extraction, VE) recupera información de geometría vectorial estructurada de imágenes rasterizadas, proporcionando representaciones de alta fidelidad y amplia aplicabilidad. Sin embargo, los métodos existentes generalmente están personalizados para un único tipo de vector (como polígonos, polilíneas, segmentos de línea), requiriendo modelos independientes para diferentes estructuras. Esto se debe al procesamiento independiente de atributos de instancia (categoría, estructura) y atributos geométricos (coordenadas de puntos, conectividad), lo que limita la capacidad de capturar estructuras complejas. Inspirados en cómo el cerebro humano utiliza simultáneamente interacción semántica y espacial en la percepción visual, los autores proponen UniVector, un marco unificado de VE que extrae múltiples tipos de vectores dentro de un único modelo mediante interacción instancia-geometría. UniVector codifica vectores como consultas estructuradas que contienen información a nivel de instancia y a nivel geométrico, actualizadas iterativamente mediante módulos de interacción para lograr intercambio de contexto entre niveles. Las restricciones de forma dinámica refinan aún más la estructura global y los puntos clave.
La extracción de vectores es una tarea fundamental en visión por computadora que tiene como objetivo extraer información vectorial estructurada de imágenes rasterizadas. Los datos vectoriales presentan ventajas sobre los datos rasterizados en términos de almacenamiento ligero, alta fidelidad y editabilidad, con aplicaciones generalizadas en diseño gráfico, cartografía geográfica y conducción autónoma.
- Restricción de Estructura Única: Los métodos existentes generalmente están diseñados específicamente para tipos de vectores particulares (polígonos, polilíneas o segmentos de línea), requiriendo múltiples modelos independientes
- Problemas de Arquitectura en Cascada: Los métodos tradicionales emplean canalizaciones en cascada que procesan atributos de instancia y geométricos por separado, resultando en brechas de información
- Errores Topológicos: La falta de restricciones a nivel de instancia genera fácilmente errores topológicos en escenas con múltiples estructuras
Inspirados en cómo el cerebro humano utiliza simultáneamente comprensión semántica y espacial en la percepción visual, los autores proponen modelar la fusión explícita de información entre niveles mediante interacción instancia-geometría, permitiendo que los antecedentes de estructura global y las pistas semántico-estructurales refinadas se complementen mutuamente.
- Representación y Marco Unificados: Se propone una representación de consulta estructurada para unificar diferentes estructuras vectoriales e introduce el marco de aprendizaje de interacción instancia-geometría UniVector
- Modelado de Interacción Instancia-Geometría: Se diseña un codificador de vectores unificado y un decodificador de interacción instancia-geometría que inicializa y refina adaptativamente consultas estructuradas
- Restricción de Forma Dinámica (DSC): Se introduce DSC para optimizar dinámicamente la consistencia de estructura global y la precisión de forma local
- Conjunto de Datos Multi-Vector: Se construye el primer conjunto de datos de VE multi-estructura, que contiene polígonos, polilíneas y segmentos de línea
Dado una imagen rasterizada, extraer simultáneamente múltiples estructuras vectoriales (polígonos, polilíneas, segmentos de línea), produciendo como salida la categoría de instancia, cuadro delimitador, coordenadas de puntos y categoría de puntos.
El marco UniVector contiene tres componentes principales:
- Codificación de Vectores Unificada: Codifica diferentes estructuras vectoriales como consultas estructuradas
- Decodificación de Interacción Instancia-Geometría: Refina iterativamente las consultas
- Restricción de Forma Dinámica: Asegura consistencia de estructura global y precisión geométrica local
Representación de Consulta Estructurada:
- Conjunto de consultas Qs∈RN×(M+1)×C, donde N es el número máximo de instancias vectoriales, M es el número máximo de puntos por vector, y C es la dimensión del canal
- Cada vector Qsi contiene consulta de instancia Qinsi∈RC y consulta geométrica Qgeoi∈RM×C
Proceso de Codificación de Consultas:
- Codificación a nivel de instancia: Adopta una estrategia de grueso a fino, seleccionando primero tokens de imagen con puntuación más alta para formar consultas aproximadas, luego refinando mediante módulo de detección de instancias
- Codificación a nivel geométrico: Captura estructura detallada mediante módulo de deformación de forma, utilizando atención intra-fotograma para refinar consultas geométricas
Extracción de Características Estructuradas:
Extiende atención deformable, asignando puntos de referencia de instancia y puntos de referencia geométricos para cada vector:
undefined