Vector extraction retrieves structured vector geometry from raster images, offering high-fidelity representation and broad applicability. Existing methods, however, are usually tailored to a single vector type (e.g., polygons, polylines, line segments), requiring separate models for different structures. This stems from treating instance attributes (category, structure) and geometric attributes (point coordinates, connections) independently, limiting the ability to capture complex structures. Inspired by the human brain's simultaneous use of semantic and spatial interactions in visual perception, we propose UniVector, a unified VE framework that leverages instance-geometry interaction to extract multiple vector types within a single model. UniVector encodes vectors as structured queries containing both instance- and geometry-level information, and iteratively updates them through an interaction module for cross-level context exchange. A dynamic shape constraint further refines global structures and key points. To benchmark multi-structure scenarios, we introduce the Multi-Vector dataset with diverse polygons, polylines, and line segments. Experiments show UniVector sets a new state of the art on both single- and multi-structure VE tasks. Code and dataset will be released at https://github.com/yyyyll0ss/UniVector.
- ID Articolo: 2510.13234
- Titolo: UniVector: Unified Vector Extraction via Instance-Geometry Interaction
- Autori: Yinglong Yan, Jun Yue, Shaobo Xia, Hanmeng Sun, Tianxu Ying, Chengcheng Wu, Sifan Lan, Min He, Pedram Ghamisi, Leyuan Fang
- Classificazione: cs.CV (Visione Artificiale)
- Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.13234v1
L'estrazione vettoriale (Vector Extraction, VE) recupera informazioni geometriche vettoriali strutturate da immagini raster, fornendo rappresentazioni ad alta fedeltà e ampia applicabilità. Tuttavia, i metodi esistenti sono generalmente personalizzati per singoli tipi vettoriali (come poligoni, polilinie, segmenti), richiedendo modelli indipendenti per diverse strutture. Ciò deriva dal trattamento indipendente degli attributi di istanza (categoria, struttura) e degli attributi geometrici (coordinate dei punti, connessioni), limitando la capacità di catturare strutture complesse. Ispirato dal modo in cui il cervello umano utilizza contemporaneamente l'interazione semantica e spaziale nella percezione visiva, gli autori propongono UniVector, un framework VE unificato che estrae molteplici tipi vettoriali attraverso l'interazione istanza-geometria in un singolo modello. UniVector codifica i vettori come query strutturate contenenti informazioni a livello di istanza e geometriche, aggiornate iterativamente tramite moduli di interazione per realizzare lo scambio di contesto tra livelli. I vincoli di forma dinamica perfezionano ulteriormente la struttura globale e i punti chiave.
L'estrazione vettoriale è un compito fondamentale nella visione artificiale, mirato a estrarre informazioni vettoriali strutturate da immagini raster. I dati vettoriali offrono vantaggi rispetto ai dati raster in termini di archiviazione leggera, alta fedeltà e facilità di modifica, con ampia applicazione nel design grafico, nella cartografia geografica e nella guida autonoma.
- Limitazione di Struttura Singola: I metodi esistenti sono generalmente progettati specificamente per tipi vettoriali particolari (poligoni, polilinie o segmenti), richiedendo modelli multipli indipendenti
- Problemi di Architettura a Cascata: I metodi tradizionali adottano pipeline a cascata, elaborando separatamente gli attributi di istanza e geometrici, causando lacune informative
- Errori Topologici: La mancanza di vincoli a livello di istanza produce facilmente errori topologici in scenari multi-struttura
Ispirato dal modo in cui il cervello umano utilizza contemporaneamente la comprensione semantica e spaziale nella percezione visiva, gli autori propongono di modellare la fusione esplicita di informazioni tra livelli attraverso l'interazione istanza-geometria, permettendo ai priori di struttura globale e ai segnali semantico-strutturali raffinati di complementarsi reciprocamente.
- Rappresentazione e Framework Unificati: Propone una rappresentazione di query strutturate per unificare diverse strutture vettoriali e introduce il framework di apprendimento dell'interazione istanza-geometria UniVector
- Modellazione dell'Interazione Istanza-Geometria: Progetta un encoder vettoriale unificato e un decoder di interazione istanza-geometria, con inizializzazione adattiva e raffinamento di query strutturate
- Vincoli di Forma Dinamica (DSC): Introduce DSC per ottimizzare dinamicamente la coerenza della struttura globale e la precisione della forma locale
- Dataset Multi-Vector: Costruisce il primo dataset VE multi-struttura, contenente poligoni, polilinie e segmenti
Dato un'immagine raster, estrarre simultaneamente molteplici strutture vettoriali (poligoni, polilinie, segmenti), producendo categoria di istanza, riquadro di delimitazione, coordinate dei punti e categoria dei punti.
Il framework UniVector contiene tre componenti principali:
- Codifica Vettoriale Unificata: Codifica diverse strutture vettoriali come query strutturate
- Decodifica di Interazione Istanza-Geometria: Raffinamento iterativo delle query
- Vincoli di Forma Dinamica: Assicura coerenza della struttura globale e precisione geometrica locale
Rappresentazione di Query Strutturate:
- Set di query Qs∈RN×(M+1)×C, dove N è il numero massimo di istanze vettoriali, M è il numero massimo di punti per vettore, C è la dimensione del canale
- Ogni vettore Qsi contiene query di istanza Qinsi∈RC e query geometriche Qgeoi∈RM×C
Processo di Codifica delle Query:
- Codifica a livello di istanza: Adotta una strategia da grossolano a fine, selezionando prima i token di immagine con punteggio più alto per formare query grossolane, quindi raffinando tramite il modulo di rilevamento di istanza
- Codifica a livello geometrico: Cattura strutture dettagliate tramite il modulo di deformazione della forma, utilizzando l'attenzione intra-frame per raffinare le query geometriche
Estrazione di Caratteristiche Strutturate:
Estende l'attenzione deformabile, assegnando punti di riferimento di istanza e geometrici a ciascun vettore:
{Rgeol=Sigmoid(Sigmoid−1(Rinsl)+MLP(Qgeol)),Rgeol=Sigmoid(Sigmoid−1(Rgeol)+MLP(Qgeol)),l=0l≥1
Interazione Istanza-Geometria:
- Interazione a singolo livello: Utilizza meccanismo di auto-attenzione
- Raffinamento tra livelli: Utilizza meccanismo di attenzione incrociata
Qins′′=Concat(CA(Qinsi′,Qgeoi′),i∈[1,...,N])Qgeo′′=Concat(CA(Qgeoi′,Qinsi′),i∈[1,...,N])
Corrispondenza Dinamica dei Punti Chiave:
Risolve l'abbinamento bipartito tra il vettore predetto P^={p^i}i=1M e il valore di verità P={pi}i=1T:
Lmatch(P^,P,β)=T1∑i=1T(αp⋅l1(pi,p^i)+αc⋅l1(ci,c^i))
β∗=argminβLmatch(P^,P,β)
Supervisione della Forma Vettoriale:
Il vincolo sintetico include perdita di direzione, perdita di punti chiave e perdita di classificazione:
LVSL=α1⋅Ldir+α2⋅Lkp+α3⋅Lcls
- Rappresentazione Unificata: Propone per la prima volta una rappresentazione di query strutturate che unifica diversi tipi vettoriali
- Meccanismo di Interazione: Progetta un'interazione istanza-geometria esplicita, colmando il divario informativo tra i due livelli
- Vincoli Dinamici: Introduce vincoli di forma dinamica per adattarsi alle variazioni di forma di diversi vettori
Dataset Multi-Vector:
- Primo dataset di estrazione vettoriale multi-struttura
- 20.000 immagini di addestramento, 3.734 immagini di validazione
- Tre categorie semantiche: edifici (70,6%), confini stradali (18,9%), linee centrali (10,5%)
- Gli edifici sono poligoni, i confini stradali sono polilinie, le linee centrali sono segmenti
Dataset di Struttura Singola:
- CrowdAI: 280k+ immagini di addestramento, 60k immagini di test, per l'estrazione di edifici
- Structured3D: dataset sintetico di case 3D
- Topo-Boundary: 25k immagini aeree, per l'estrazione di confini stradali
- Wireframe e York Urban: dataset standard di rilevamento di segmenti
Edifici: mAP, IoU, CIoU, PoLiS
Confini Stradali e Linee Centrali:
- Livello di pixel: precisione, richiamo, punteggio F1 (tolleranza di 10 pixel)
- Livello geometrico: ECM (misura di connettività dell'entropia), APLS (somiglianza della lunghezza del percorso medio)
Include FFL, HiSup, PolyR-CNN (poligoni), Sat2Graph, RNGDet++ (polilinie), HAWP, LETR (segmenti) e altri metodi rappresentativi.
Prestazioni su Dataset Multi-Vector:
- Edifici: mAP 49,8% (ResNet-50), 53,4% (Swin-L)
- Confini stradali: F1-score 88,4% (ResNet-50), 90,4% (Swin-L)
- Linee centrali: F1-score 87,8% (ResNet-50), 88,2% (Swin-L)
Prestazioni SOTA su Dataset di Struttura Singola:
- CrowdAI: AP 72,8% (ResNet-50), 79,9% (Swin-B)
- Topo-Boundary: F1-score 90,3%
- Wireframe: sAP10 64,5% (ResNet-50), 69,8% (Swin-L)
| Componente | Multi-Vector Edifici | CrowdAI | Topo-Boundary |
|---|
| Baseline | 39,6 | 63,9 | 78,8 |
| +IGID | 45,2 (+5,6) | 69,3 (+5,4) | 85,6 (+6,8) |
| +UVE | 47,6 (+2,4) | 71,5 (+2,2) | 87,5 (+1,9) |
| +DSC | 49,4 (+1,8) | 72,8 (+1,3) | 90,3 (+2,8) |
La decodifica di interazione istanza-geometria (IGID) fornisce il guadagno massimo, mentre la codifica vettoriale unificata (UVE) e i vincoli di forma dinamica (DSC) forniscono miglioramenti aggiuntivi.
- Efficienza di Addestramento: Rispetto ai metodi multi-modello a cascata, la velocità di addestramento e inferenza migliora di 2-20 volte
- Precisione Geometrica: Mostra forme più accurate e meno falsi positivi in scenari complessi
- Generalizzazione Cross-Domain: Mantiene prestazioni stabili su diversi dataset
Framework da Istanza a Geometria:
- Predice prima la rappresentazione di istanza (riquadro di delimitazione o maschera), quindi deduce la geometria vettoriale
- Metodi rappresentativi: Mask R-CNN, PolyR-CNN, LETR
- Limitazioni: Dipende dalla qualità dell'istanza, distorsione facile in scenari densi
Framework da Geometria a Istanza:
- Rileva prima i punti geometrici, quindi predice le relazioni di connessione
- Metodi rappresentativi: PolyWorld, GraphMapper, RoadTracer
- Limitazioni: Mancanza di priori a livello di istanza, facile produzione di errori topologici
Attraverso la modellazione esplicita dell'interazione istanza-geometria, combinando i vantaggi di entrambi i framework, realizza un'estrazione vettoriale multi-struttura più accurata.
- UniVector realizza con successo l'estrazione vettoriale multi-struttura unificata, raggiungendo SOTA sia nei compiti di struttura singola che multi-struttura
- Il meccanismo di interazione istanza-geometria colma efficacemente il divario informativo tra i due livelli
- I vincoli di forma dinamica si adattano alle esigenze di variazione di forma di diversi tipi vettoriali
- L'impostazione del numero massimo di punti fisso potrebbe limitare la rappresentazione di forme estremamente complesse
- La complessità computazionale aumenta rispetto ai metodi di struttura singola
- Rimangono sfide per vettori di scala estremamente piccola o gravemente occludenti
Gli autori propongono lo sviluppo di modelli fondamentali di estrazione vettoriale zero-shot e l'applicazione della rappresentazione vettoriale a compiti a valle come la localizzazione visiva e la pianificazione del percorso.
- Forte Innovatività: Propone per la prima volta un framework unificato di estrazione vettoriale multi-struttura, risolvendo un problema di lunga data nel settore
- Metodo Razionale: La progettazione dell'interazione istanza-geometria ispirata alla cognizione umana ha una base teorica molto solida
- Esperimenti Completi: La valutazione completa su più dataset dimostra l'efficacia del metodo
- Alto Valore Pratico: Migliora significativamente l'efficienza di addestramento, con importante valore applicativo
- Overhead Computazionale: La complessità computazionale aumenta rispetto ai metodi di struttura singola
- Sensibilità ai Parametri: I parametri di peso nei vincoli di forma dinamica richiedono un'attenta sintonizzazione
- Scenari Estremi: La capacità di gestione di obiettivi estremamente piccoli o gravemente occludenti è limitata
- Contributo Accademico: Risolve in modo pioneristico il problema dell'estrazione unificata multi-struttura, fornendo nuove prospettive per lo sviluppo del settore
- Valore Pratico: Ha importanza significativa nella costruzione di mappe ad alta precisione, nella guida autonoma e in altre applicazioni
- Riproducibilità: Si impegna a rendere open-source il codice e il dataset, favorendo la ricerca successiva
- Costruzione di mappe ad alta precisione
- Analisi di immagini telerilevate
- Estrazione di informazioni architettoniche
- Pianificazione del percorso per la guida autonoma
- Automazione del design grafico
L'articolo cita 75 articoli correlati, coprendo importanti lavori in estrazione vettoriale, rilevamento di oggetti, segmentazione semantica, reti neurali grafiche e altri campi correlati, fornendo una base teorica solida per questa ricerca.
Valutazione Complessiva: Questo è un articolo di alta qualità sulla visione artificiale che ha raggiunto un significativo progresso nel compito importante dell'estrazione vettoriale. Il metodo è fortemente innovativo, la progettazione sperimentale è razionale, i risultati sono convincenti e ha importante valore accademico e pratico.