2025-11-22T08:40:16.236203

UniVector: Unified Vector Extraction via Instance-Geometry Interaction

Yan, Yue, Xia et al.

Vector extraction retrieves structured vector geometry from raster images, offering high-fidelity representation and broad applicability. Existing methods, however, are usually tailored to a single vector type (e.g., polygons, polylines, line segments), requiring separate models for different structures. This stems from treating instance attributes (category, structure) and geometric attributes (point coordinates, connections) independently, limiting the ability to capture complex structures. Inspired by the human brain's simultaneous use of semantic and spatial interactions in visual perception, we propose UniVector, a unified VE framework that leverages instance-geometry interaction to extract multiple vector types within a single model. UniVector encodes vectors as structured queries containing both instance- and geometry-level information, and iteratively updates them through an interaction module for cross-level context exchange. A dynamic shape constraint further refines global structures and key points. To benchmark multi-structure scenarios, we introduce the Multi-Vector dataset with diverse polygons, polylines, and line segments. Experiments show UniVector sets a new state of the art on both single- and multi-structure VE tasks. Code and dataset will be released at https://github.com/yyyyll0ss/UniVector.

academic

UniVector: Extracción Unificada de Vectores mediante Interacción Instancia-Geometría

Información Básica

ID del Artículo: 2510.13234
Título: UniVector: Unified Vector Extraction via Instance-Geometry Interaction
Autores: Yinglong Yan, Jun Yue, Shaobo Xia, Hanmeng Sun, Tianxu Ying, Chengcheng Wu, Sifan Lan, Min He, Pedram Ghamisi, Leyuan Fang
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: 15 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13234v1

Resumen

La extracción de vectores (Vector Extraction, VE) recupera información de geometría vectorial estructurada de imágenes rasterizadas, proporcionando representaciones de alta fidelidad y amplia aplicabilidad. Sin embargo, los métodos existentes generalmente están personalizados para un único tipo de vector (como polígonos, polilíneas, segmentos de línea), requiriendo modelos independientes para diferentes estructuras. Esto se debe al procesamiento independiente de atributos de instancia (categoría, estructura) y atributos geométricos (coordenadas de puntos, conectividad), lo que limita la capacidad de capturar estructuras complejas. Inspirados en cómo el cerebro humano utiliza simultáneamente interacción semántica y espacial en la percepción visual, los autores proponen UniVector, un marco unificado de VE que extrae múltiples tipos de vectores dentro de un único modelo mediante interacción instancia-geometría. UniVector codifica vectores como consultas estructuradas que contienen información a nivel de instancia y a nivel geométrico, actualizadas iterativamente mediante módulos de interacción para lograr intercambio de contexto entre niveles. Las restricciones de forma dinámica refinan aún más la estructura global y los puntos clave.

Antecedentes de Investigación y Motivación

Definición del Problema

La extracción de vectores es una tarea fundamental en visión por computadora que tiene como objetivo extraer información vectorial estructurada de imágenes rasterizadas. Los datos vectoriales presentan ventajas sobre los datos rasterizados en términos de almacenamiento ligero, alta fidelidad y editabilidad, con aplicaciones generalizadas en diseño gráfico, cartografía geográfica y conducción autónoma.

Limitaciones de Métodos Existentes

Restricción de Estructura Única: Los métodos existentes generalmente están diseñados específicamente para tipos de vectores particulares (polígonos, polilíneas o segmentos de línea), requiriendo múltiples modelos independientes
Problemas de Arquitectura en Cascada: Los métodos tradicionales emplean canalizaciones en cascada que procesan atributos de instancia y geométricos por separado, resultando en brechas de información
Errores Topológicos: La falta de restricciones a nivel de instancia genera fácilmente errores topológicos en escenas con múltiples estructuras

Motivación de la Investigación

Inspirados en cómo el cerebro humano utiliza simultáneamente comprensión semántica y espacial en la percepción visual, los autores proponen modelar la fusión explícita de información entre niveles mediante interacción instancia-geometría, permitiendo que los antecedentes de estructura global y las pistas semántico-estructurales refinadas se complementen mutuamente.

Contribuciones Principales

Representación y Marco Unificados: Se propone una representación de consulta estructurada para unificar diferentes estructuras vectoriales e introduce el marco de aprendizaje de interacción instancia-geometría UniVector
Modelado de Interacción Instancia-Geometría: Se diseña un codificador de vectores unificado y un decodificador de interacción instancia-geometría que inicializa y refina adaptativamente consultas estructuradas
Restricción de Forma Dinámica (DSC): Se introduce DSC para optimizar dinámicamente la consistencia de estructura global y la precisión de forma local
Conjunto de Datos Multi-Vector: Se construye el primer conjunto de datos de VE multi-estructura, que contiene polígonos, polilíneas y segmentos de línea

Explicación Detallada del Método

Definición de la Tarea

Dado una imagen rasterizada, extraer simultáneamente múltiples estructuras vectoriales (polígonos, polilíneas, segmentos de línea), produciendo como salida la categoría de instancia, cuadro delimitador, coordenadas de puntos y categoría de puntos.

Arquitectura del Modelo

1. Marco General

El marco UniVector contiene tres componentes principales:

Codificación de Vectores Unificada: Codifica diferentes estructuras vectoriales como consultas estructuradas
Decodificación de Interacción Instancia-Geometría: Refina iterativamente las consultas
Restricción de Forma Dinámica: Asegura consistencia de estructura global y precisión geométrica local

2. Codificación de Vectores Unificada

Representación de Consulta Estructurada:

Conjunto de consultas $Q_s \in \mathbb{R}^{N \times (M+1) \times C}$ , donde N es el número máximo de instancias vectoriales, M es el número máximo de puntos por vector, y C es la dimensión del canal
Cada vector $Q_s^i$ contiene consulta de instancia $Q_{ins}^i \in \mathbb{R}^C$ y consulta geométrica $Q_{geo}^i \in \mathbb{R}^{M \times C}$

Proceso de Codificación de Consultas:

Codificación a nivel de instancia: Adopta una estrategia de grueso a fino, seleccionando primero tokens de imagen con puntuación más alta para formar consultas aproximadas, luego refinando mediante módulo de detección de instancias
Codificación a nivel geométrico: Captura estructura detallada mediante módulo de deformación de forma, utilizando atención intra-fotograma para refinar consultas geométricas

3. Decodificación de Interacción Instancia-Geometría

Extracción de Características Estructuradas: Extiende atención deformable, asignando puntos de referencia de instancia y puntos de referencia geométricos para cada vector:

$\begin{cases} R_{geo}^l = \text{Sigmoid}(\text{Sigmoid}^{-1}(R_{ins}^l) + \text{MLP}(Q_{geo}^l)), & l = 0 \\ R_{geo}^l = \text{Sigmoid}(\text{Sigmoid}^{-1}(R_{geo}^l) + \text{MLP}(Q_{geo}^l)), & l \geq 1 \end{cases}$

Interacción Instancia-Geometría:

Interacción a nivel único: Utiliza mecanismo de auto-atención
Refinamiento entre niveles: Utiliza mecanismo de atención cruzada

$Q_{ins}^{''} = \text{Concat}(\text{CA}(Q_{ins}^{i'}, Q_{geo}^{i'}), i \in [1, ..., N])$ $Q_{geo}^{''} = \text{Concat}(\text{CA}(Q_{geo}^{i'}, Q_{ins}^{i'}), i \in [1, ..., N])$

4. Restricción de Forma Dinámica (DSC)

Coincidencia Dinámica de Puntos Clave: Resuelve el emparejamiento de grafo bipartito entre vector predicho $\hat{P} = \{\hat{p}_i\}_{i=1}^M$ y valor verdadero $P = \{p_i\}_{i=1}^T$ :

$L_{match}(\hat{P}, P, \beta) = \frac{1}{T}\sum_{i=1}^T(\alpha_p \cdot l_1(p_i, \hat{p}_i) + \alpha_c \cdot l_1(c_i, \hat{c}_i))$

$\beta^* = \arg\min_\beta L_{match}(\hat{P}, P, \beta)$

Supervisión de Forma Vectorial: Las restricciones integradas incluyen pérdida de dirección, pérdida de puntos clave y pérdida de clasificación:

$L_{VSL} = \alpha_1 \cdot L_{dir} + \alpha_2 \cdot L_{kp} + \alpha_3 \cdot L_{cls}$

Puntos de Innovación Técnica

Representación Unificada: Primera propuesta de representación de consulta estructurada que unifica diferentes tipos de vectores
Mecanismo de Interacción: Diseña interacción explícita instancia-geometría, cerrando la brecha de información entre dos niveles
Restricción Dinámica: Introduce restricción de forma dinámica que se adapta a variaciones de forma de diferentes vectores

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos Multi-Vector:

Primer conjunto de datos de extracción vectorial multi-estructura
20,000 imágenes de entrenamiento, 3,734 imágenes de validación
Tres categorías semánticas: edificios (70.6%), límites de carreteras (18.9%), líneas centrales (10.5%)
Edificios como polígonos, límites de carreteras como polilíneas, líneas centrales como segmentos de línea

Conjuntos de Datos de Estructura Única:

CrowdAI: 280k+ imágenes de entrenamiento, 60k imágenes de prueba, para extracción de edificios
Structured3D: Conjunto de datos sintético de casas 3D
Topo-Boundary: 25k imágenes aéreas, para extracción de límites de carreteras
Wireframe y York Urban: Conjuntos de datos estándar de detección de segmentos de línea

Métricas de Evaluación

Edificios: mAP, IoU, CIoU, PoLiS Límites de Carreteras y Líneas Centrales:

Nivel de píxel: Precisión, Recuperación, Puntuación F1 (tolerancia de 10 píxeles)
Nivel geométrico: ECM (Medida de Conectividad de Entropía), APLS (Similitud de Longitud de Ruta Promedio)

Métodos de Comparación

Incluye FFL, HiSup, PolyR-CNN (polígonos), Sat2Graph, RNGDet++ (polilíneas), HAWP, LETR (segmentos de línea) y otros métodos representativos.

Resultados Experimentales

Resultados Principales

Desempeño en Conjunto de Datos Multi-Vector:

Edificios: mAP 49.8% (ResNet-50), 53.4% (Swin-L)
Límites de carreteras: Puntuación F1 88.4% (ResNet-50), 90.4% (Swin-L)
Líneas centrales: Puntuación F1 87.8% (ResNet-50), 88.2% (Swin-L)

Desempeño SOTA en Conjuntos de Datos de Estructura Única:

CrowdAI: AP 72.8% (ResNet-50), 79.9% (Swin-B)
Topo-Boundary: Puntuación F1 90.3%
Wireframe: sAP10 64.5% (ResNet-50), 69.8% (Swin-L)

Experimentos de Ablación

Componente	Multi-Vector Edificios	CrowdAI	Topo-Boundary
Baseline	39.6	63.9	78.8
+IGID	45.2 (+5.6)	69.3 (+5.4)	85.6 (+6.8)
+UVE	47.6 (+2.4)	71.5 (+2.2)	87.5 (+1.9)
+DSC	49.4 (+1.8)	72.8 (+1.3)	90.3 (+2.8)

La decodificación de interacción instancia-geometría (IGID) proporciona la ganancia máxima, mientras que la codificación de vectores unificada (UVE) y la restricción de forma dinámica (DSC) proporcionan mejoras adicionales.

Hallazgos Experimentales

Eficiencia de Entrenamiento: Comparado con métodos de múltiples modelos en cascada, se logra una mejora de 2-20 veces en velocidad de entrenamiento e inferencia
Precisión Geométrica: Demuestra formas más precisas y menos falsas detecciones en escenas complejas
Generalización Entre Dominios: Mantiene desempeño estable en diferentes conjuntos de datos

Trabajo Relacionado

Clasificación de Métodos de Extracción Vectorial

Marco de Instancia a Geometría:

Predice primero representaciones de instancia (cuadro delimitador o máscara), luego deduce geometría vectorial
Métodos representativos: Mask R-CNN, PolyR-CNN, LETR
Limitaciones: Depende de la calidad de instancia, distorsión fácil en escenas densas

Marco de Geometría a Instancia:

Detecta primero puntos geométricos, luego predice relaciones de conectividad
Métodos representativos: PolyWorld, GraphMapper, RoadTracer
Limitaciones: Carece de antecedentes a nivel de instancia, propensión a errores topológicos

Ventajas de Este Trabajo

Mediante el modelado explícito de interacción instancia-geometría, combina las ventajas de ambos marcos, logrando extracción vectorial multi-estructura más precisa.

Conclusiones y Discusión

Conclusiones Principales

UniVector logra exitosamente extracción unificada de vectores multi-estructura, alcanzando SOTA tanto en tareas de estructura única como multi-estructura
El mecanismo de interacción instancia-geometría cierra efectivamente la brecha de información entre dos niveles
La restricción de forma dinámica se adapta a las necesidades de variación de forma de diferentes tipos de vectores

Limitaciones

La configuración de número máximo de puntos fijo puede limitar la representación de formas extremadamente complejas
La complejidad computacional aumenta en comparación con métodos de estructura única
Persisten desafíos para vectores de escala extremadamente pequeña u ocluidos severamente

Direcciones Futuras

Los autores proponen desarrollar modelos fundamentales de extracción vectorial de cero disparos y aplicar representaciones vectoriales a tareas posteriores como localización visual y planificación de rutas.

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primer marco unificado de extracción vectorial multi-estructura, resolviendo un problema de larga data en el campo
Método Razonable: El diseño de interacción instancia-geometría inspirado en la cognición humana posee una base teórica muy sólida
Experimentación Completa: La evaluación integral en múltiples conjuntos de datos demuestra la efectividad del método
Alto Valor Práctico: Mejora significativamente la eficiencia de entrenamiento, con importante valor de aplicación

Insuficiencias

Costo Computacional: La complejidad computacional aumenta en comparación con métodos de estructura única
Sensibilidad de Parámetros: Los parámetros de peso en la restricción de forma dinámica requieren ajuste cuidadoso
Casos Extremos: La capacidad de manejo para objetivos extremadamente pequeños o severamente ocluidos es limitada

Impacto

Contribución Académica: Abre camino a la resolución de problemas de extracción multi-estructura unificada, proporcionando nuevas perspectivas para el desarrollo del campo
Valor Práctico: Posee importancia significativa en aplicaciones como construcción de mapas de alta precisión, conducción autónoma y otros campos
Reproducibilidad: Se compromete a liberar código y conjuntos de datos, facilitando investigaciones posteriores

Escenarios Aplicables

Construcción de mapas de alta precisión
Análisis de imágenes de teledetección
Extracción de información de edificios
Planificación de rutas para conducción autónoma
Automatización de diseño gráfico

Referencias

El artículo cita 75 referencias relacionadas, abarcando múltiples campos relevantes incluyendo extracción vectorial, detección de objetos, segmentación semántica, redes neuronales gráficas y otros trabajos importantes, proporcionando una base teórica sólida para esta investigación.

Evaluación General: Este es un artículo de alta calidad en visión por computadora que logra un avance significativo en la importante tarea de extracción vectorial. El método posee fuerte innovación, diseño experimental razonable, resultados convincentes, y posee importante valor académico y práctico.