Vector extraction retrieves structured vector geometry from raster images, offering high-fidelity representation and broad applicability. Existing methods, however, are usually tailored to a single vector type (e.g., polygons, polylines, line segments), requiring separate models for different structures. This stems from treating instance attributes (category, structure) and geometric attributes (point coordinates, connections) independently, limiting the ability to capture complex structures. Inspired by the human brain's simultaneous use of semantic and spatial interactions in visual perception, we propose UniVector, a unified VE framework that leverages instance-geometry interaction to extract multiple vector types within a single model. UniVector encodes vectors as structured queries containing both instance- and geometry-level information, and iteratively updates them through an interaction module for cross-level context exchange. A dynamic shape constraint further refines global structures and key points. To benchmark multi-structure scenarios, we introduce the Multi-Vector dataset with diverse polygons, polylines, and line segments. Experiments show UniVector sets a new state of the art on both single- and multi-structure VE tasks. Code and dataset will be released at https://github.com/yyyyll0ss/UniVector.
- ID del Artículo: 2510.13234
- Título: UniVector: Unified Vector Extraction via Instance-Geometry Interaction
- Autores: Yinglong Yan, Jun Yue, Shaobo Xia, Hanmeng Sun, Tianxu Ying, Chengcheng Wu, Sifan Lan, Min He, Pedram Ghamisi, Leyuan Fang
- Clasificación: cs.CV (Visión por Computadora)
- Fecha de Publicación: 15 de octubre de 2025 (preimpresión arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.13234v1
La extracción de vectores (Vector Extraction, VE) recupera información de geometría vectorial estructurada de imágenes rasterizadas, proporcionando representaciones de alta fidelidad y amplia aplicabilidad. Sin embargo, los métodos existentes generalmente están personalizados para un único tipo de vector (como polígonos, polilíneas, segmentos de línea), requiriendo modelos independientes para diferentes estructuras. Esto se debe al procesamiento independiente de atributos de instancia (categoría, estructura) y atributos geométricos (coordenadas de puntos, conectividad), lo que limita la capacidad de capturar estructuras complejas. Inspirados en cómo el cerebro humano utiliza simultáneamente interacción semántica y espacial en la percepción visual, los autores proponen UniVector, un marco unificado de VE que extrae múltiples tipos de vectores dentro de un único modelo mediante interacción instancia-geometría. UniVector codifica vectores como consultas estructuradas que contienen información a nivel de instancia y a nivel geométrico, actualizadas iterativamente mediante módulos de interacción para lograr intercambio de contexto entre niveles. Las restricciones de forma dinámica refinan aún más la estructura global y los puntos clave.
La extracción de vectores es una tarea fundamental en visión por computadora que tiene como objetivo extraer información vectorial estructurada de imágenes rasterizadas. Los datos vectoriales presentan ventajas sobre los datos rasterizados en términos de almacenamiento ligero, alta fidelidad y editabilidad, con aplicaciones generalizadas en diseño gráfico, cartografía geográfica y conducción autónoma.
- Restricción de Estructura Única: Los métodos existentes generalmente están diseñados específicamente para tipos de vectores particulares (polígonos, polilíneas o segmentos de línea), requiriendo múltiples modelos independientes
- Problemas de Arquitectura en Cascada: Los métodos tradicionales emplean canalizaciones en cascada que procesan atributos de instancia y geométricos por separado, resultando en brechas de información
- Errores Topológicos: La falta de restricciones a nivel de instancia genera fácilmente errores topológicos en escenas con múltiples estructuras
Inspirados en cómo el cerebro humano utiliza simultáneamente comprensión semántica y espacial en la percepción visual, los autores proponen modelar la fusión explícita de información entre niveles mediante interacción instancia-geometría, permitiendo que los antecedentes de estructura global y las pistas semántico-estructurales refinadas se complementen mutuamente.
- Representación y Marco Unificados: Se propone una representación de consulta estructurada para unificar diferentes estructuras vectoriales e introduce el marco de aprendizaje de interacción instancia-geometría UniVector
- Modelado de Interacción Instancia-Geometría: Se diseña un codificador de vectores unificado y un decodificador de interacción instancia-geometría que inicializa y refina adaptativamente consultas estructuradas
- Restricción de Forma Dinámica (DSC): Se introduce DSC para optimizar dinámicamente la consistencia de estructura global y la precisión de forma local
- Conjunto de Datos Multi-Vector: Se construye el primer conjunto de datos de VE multi-estructura, que contiene polígonos, polilíneas y segmentos de línea
Dado una imagen rasterizada, extraer simultáneamente múltiples estructuras vectoriales (polígonos, polilíneas, segmentos de línea), produciendo como salida la categoría de instancia, cuadro delimitador, coordenadas de puntos y categoría de puntos.
El marco UniVector contiene tres componentes principales:
- Codificación de Vectores Unificada: Codifica diferentes estructuras vectoriales como consultas estructuradas
- Decodificación de Interacción Instancia-Geometría: Refina iterativamente las consultas
- Restricción de Forma Dinámica: Asegura consistencia de estructura global y precisión geométrica local
Representación de Consulta Estructurada:
- Conjunto de consultas Qs∈RN×(M+1)×C, donde N es el número máximo de instancias vectoriales, M es el número máximo de puntos por vector, y C es la dimensión del canal
- Cada vector Qsi contiene consulta de instancia Qinsi∈RC y consulta geométrica Qgeoi∈RM×C
Proceso de Codificación de Consultas:
- Codificación a nivel de instancia: Adopta una estrategia de grueso a fino, seleccionando primero tokens de imagen con puntuación más alta para formar consultas aproximadas, luego refinando mediante módulo de detección de instancias
- Codificación a nivel geométrico: Captura estructura detallada mediante módulo de deformación de forma, utilizando atención intra-fotograma para refinar consultas geométricas
Extracción de Características Estructuradas:
Extiende atención deformable, asignando puntos de referencia de instancia y puntos de referencia geométricos para cada vector:
{Rgeol=Sigmoid(Sigmoid−1(Rinsl)+MLP(Qgeol)),Rgeol=Sigmoid(Sigmoid−1(Rgeol)+MLP(Qgeol)),l=0l≥1
Interacción Instancia-Geometría:
- Interacción a nivel único: Utiliza mecanismo de auto-atención
- Refinamiento entre niveles: Utiliza mecanismo de atención cruzada
Qins′′=Concat(CA(Qinsi′,Qgeoi′),i∈[1,...,N])Qgeo′′=Concat(CA(Qgeoi′,Qinsi′),i∈[1,...,N])
Coincidencia Dinámica de Puntos Clave:
Resuelve el emparejamiento de grafo bipartito entre vector predicho P^={p^i}i=1M y valor verdadero P={pi}i=1T:
Lmatch(P^,P,β)=T1∑i=1T(αp⋅l1(pi,p^i)+αc⋅l1(ci,c^i))
β∗=argminβLmatch(P^,P,β)
Supervisión de Forma Vectorial:
Las restricciones integradas incluyen pérdida de dirección, pérdida de puntos clave y pérdida de clasificación:
LVSL=α1⋅Ldir+α2⋅Lkp+α3⋅Lcls
- Representación Unificada: Primera propuesta de representación de consulta estructurada que unifica diferentes tipos de vectores
- Mecanismo de Interacción: Diseña interacción explícita instancia-geometría, cerrando la brecha de información entre dos niveles
- Restricción Dinámica: Introduce restricción de forma dinámica que se adapta a variaciones de forma de diferentes vectores
Conjunto de Datos Multi-Vector:
- Primer conjunto de datos de extracción vectorial multi-estructura
- 20,000 imágenes de entrenamiento, 3,734 imágenes de validación
- Tres categorías semánticas: edificios (70.6%), límites de carreteras (18.9%), líneas centrales (10.5%)
- Edificios como polígonos, límites de carreteras como polilíneas, líneas centrales como segmentos de línea
Conjuntos de Datos de Estructura Única:
- CrowdAI: 280k+ imágenes de entrenamiento, 60k imágenes de prueba, para extracción de edificios
- Structured3D: Conjunto de datos sintético de casas 3D
- Topo-Boundary: 25k imágenes aéreas, para extracción de límites de carreteras
- Wireframe y York Urban: Conjuntos de datos estándar de detección de segmentos de línea
Edificios: mAP, IoU, CIoU, PoLiS
Límites de Carreteras y Líneas Centrales:
- Nivel de píxel: Precisión, Recuperación, Puntuación F1 (tolerancia de 10 píxeles)
- Nivel geométrico: ECM (Medida de Conectividad de Entropía), APLS (Similitud de Longitud de Ruta Promedio)
Incluye FFL, HiSup, PolyR-CNN (polígonos), Sat2Graph, RNGDet++ (polilíneas), HAWP, LETR (segmentos de línea) y otros métodos representativos.
Desempeño en Conjunto de Datos Multi-Vector:
- Edificios: mAP 49.8% (ResNet-50), 53.4% (Swin-L)
- Límites de carreteras: Puntuación F1 88.4% (ResNet-50), 90.4% (Swin-L)
- Líneas centrales: Puntuación F1 87.8% (ResNet-50), 88.2% (Swin-L)
Desempeño SOTA en Conjuntos de Datos de Estructura Única:
- CrowdAI: AP 72.8% (ResNet-50), 79.9% (Swin-B)
- Topo-Boundary: Puntuación F1 90.3%
- Wireframe: sAP10 64.5% (ResNet-50), 69.8% (Swin-L)
| Componente | Multi-Vector Edificios | CrowdAI | Topo-Boundary |
|---|
| Baseline | 39.6 | 63.9 | 78.8 |
| +IGID | 45.2 (+5.6) | 69.3 (+5.4) | 85.6 (+6.8) |
| +UVE | 47.6 (+2.4) | 71.5 (+2.2) | 87.5 (+1.9) |
| +DSC | 49.4 (+1.8) | 72.8 (+1.3) | 90.3 (+2.8) |
La decodificación de interacción instancia-geometría (IGID) proporciona la ganancia máxima, mientras que la codificación de vectores unificada (UVE) y la restricción de forma dinámica (DSC) proporcionan mejoras adicionales.
- Eficiencia de Entrenamiento: Comparado con métodos de múltiples modelos en cascada, se logra una mejora de 2-20 veces en velocidad de entrenamiento e inferencia
- Precisión Geométrica: Demuestra formas más precisas y menos falsas detecciones en escenas complejas
- Generalización Entre Dominios: Mantiene desempeño estable en diferentes conjuntos de datos
Marco de Instancia a Geometría:
- Predice primero representaciones de instancia (cuadro delimitador o máscara), luego deduce geometría vectorial
- Métodos representativos: Mask R-CNN, PolyR-CNN, LETR
- Limitaciones: Depende de la calidad de instancia, distorsión fácil en escenas densas
Marco de Geometría a Instancia:
- Detecta primero puntos geométricos, luego predice relaciones de conectividad
- Métodos representativos: PolyWorld, GraphMapper, RoadTracer
- Limitaciones: Carece de antecedentes a nivel de instancia, propensión a errores topológicos
Mediante el modelado explícito de interacción instancia-geometría, combina las ventajas de ambos marcos, logrando extracción vectorial multi-estructura más precisa.
- UniVector logra exitosamente extracción unificada de vectores multi-estructura, alcanzando SOTA tanto en tareas de estructura única como multi-estructura
- El mecanismo de interacción instancia-geometría cierra efectivamente la brecha de información entre dos niveles
- La restricción de forma dinámica se adapta a las necesidades de variación de forma de diferentes tipos de vectores
- La configuración de número máximo de puntos fijo puede limitar la representación de formas extremadamente complejas
- La complejidad computacional aumenta en comparación con métodos de estructura única
- Persisten desafíos para vectores de escala extremadamente pequeña u ocluidos severamente
Los autores proponen desarrollar modelos fundamentales de extracción vectorial de cero disparos y aplicar representaciones vectoriales a tareas posteriores como localización visual y planificación de rutas.
- Innovación Fuerte: Primer marco unificado de extracción vectorial multi-estructura, resolviendo un problema de larga data en el campo
- Método Razonable: El diseño de interacción instancia-geometría inspirado en la cognición humana posee una base teórica muy sólida
- Experimentación Completa: La evaluación integral en múltiples conjuntos de datos demuestra la efectividad del método
- Alto Valor Práctico: Mejora significativamente la eficiencia de entrenamiento, con importante valor de aplicación
- Costo Computacional: La complejidad computacional aumenta en comparación con métodos de estructura única
- Sensibilidad de Parámetros: Los parámetros de peso en la restricción de forma dinámica requieren ajuste cuidadoso
- Casos Extremos: La capacidad de manejo para objetivos extremadamente pequeños o severamente ocluidos es limitada
- Contribución Académica: Abre camino a la resolución de problemas de extracción multi-estructura unificada, proporcionando nuevas perspectivas para el desarrollo del campo
- Valor Práctico: Posee importancia significativa en aplicaciones como construcción de mapas de alta precisión, conducción autónoma y otros campos
- Reproducibilidad: Se compromete a liberar código y conjuntos de datos, facilitando investigaciones posteriores
- Construcción de mapas de alta precisión
- Análisis de imágenes de teledetección
- Extracción de información de edificios
- Planificación de rutas para conducción autónoma
- Automatización de diseño gráfico
El artículo cita 75 referencias relacionadas, abarcando múltiples campos relevantes incluyendo extracción vectorial, detección de objetos, segmentación semántica, redes neuronales gráficas y otros trabajos importantes, proporcionando una base teórica sólida para esta investigación.
Evaluación General: Este es un artículo de alta calidad en visión por computadora que logra un avance significativo en la importante tarea de extracción vectorial. El método posee fuerte innovación, diseño experimental razonable, resultados convincentes, y posee importante valor académico y práctico.