2025-11-22T08:40:16.236203

UniVector: Unified Vector Extraction via Instance-Geometry Interaction

Yan, Yue, Xia et al.

Vector extraction retrieves structured vector geometry from raster images, offering high-fidelity representation and broad applicability. Existing methods, however, are usually tailored to a single vector type (e.g., polygons, polylines, line segments), requiring separate models for different structures. This stems from treating instance attributes (category, structure) and geometric attributes (point coordinates, connections) independently, limiting the ability to capture complex structures. Inspired by the human brain's simultaneous use of semantic and spatial interactions in visual perception, we propose UniVector, a unified VE framework that leverages instance-geometry interaction to extract multiple vector types within a single model. UniVector encodes vectors as structured queries containing both instance- and geometry-level information, and iteratively updates them through an interaction module for cross-level context exchange. A dynamic shape constraint further refines global structures and key points. To benchmark multi-structure scenarios, we introduce the Multi-Vector dataset with diverse polygons, polylines, and line segments. Experiments show UniVector sets a new state of the art on both single- and multi-structure VE tasks. Code and dataset will be released at https://github.com/yyyyll0ss/UniVector.

academic

UniVector: उदाहरण-ज्यामिति अंतःक्रिया के माध्यम से एकीकृत वेक्टर निष्कर्षण

मूल जानकारी

पेपर ID: 2510.13234
शीर्षक: UniVector: Unified Vector Extraction via Instance-Geometry Interaction
लेखक: Yinglong Yan, Jun Yue, Shaobo Xia, Hanmeng Sun, Tianxu Ying, Chengcheng Wu, Sifan Lan, Min He, Pedram Ghamisi, Leyuan Fang
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशन तिथि: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.13234v1

सारांश

वेक्टर निष्कर्षण (Vector Extraction, VE) रास्टर छवियों से संरचित वेक्टर ज्यामिति जानकारी प्राप्त करता है, जो उच्च निष्ठा प्रतिनिधित्व और व्यापक प्रयोज्यता प्रदान करता है। हालांकि, मौजूदा विधियां आमतौर पर एकल वेक्टर प्रकार (जैसे बहुभुज, पॉलीलाइन, रेखा खंड) के लिए अनुकूलित होती हैं, जिन्हें विभिन्न संरचनाओं के लिए स्वतंत्र मॉडल की आवश्यकता होती है। यह उदाहरण विशेषताओं (वर्ग, संरचना) और ज्यामिति विशेषताओं (बिंदु निर्देशांक, कनेक्शन) को स्वतंत्र रूप से संभालने से उत्पन्न होता है, जो जटिल संरचनाओं को कैप्चर करने की क्षमता को सीमित करता है। मानव मस्तिष्क द्वारा दृश्य धारणा में शब्दार्थ और स्थानिक अंतःक्रिया का एक साथ उपयोग करने से प्रेरित होकर, लेखकों ने UniVector प्रस्तावित किया है, एक एकीकृत VE ढांचा जो उदाहरण-ज्यामिति अंतःक्रिया के माध्यम से एकल मॉडल के भीतर कई वेक्टर प्रकारों को निष्कर्षित करता है। UniVector वेक्टर को संरचित प्रश्नों के रूप में एन्कोड करता है जिनमें उदाहरण-स्तर और ज्यामिति-स्तर की जानकारी होती है, जो स्तरों के बीच संदर्भ विनिमय को प्राप्त करने के लिए अंतःक्रिया मॉड्यूल के माध्यम से पुनरावृत्ति से अपडेट होते हैं। गतिशील आकार बाधाएं वैश्विक संरचना और मुख्य बिंदुओं को और परिष्कृत करती हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

वेक्टर निष्कर्षण कंप्यूटर विजन में एक मुख्य कार्य है, जिसका उद्देश्य रास्टर छवियों से संरचित वेक्टर जानकारी निकालना है। वेक्टर डेटा रास्टर डेटा की तुलना में हल्के भंडारण, उच्च निष्ठा और आसान संपादनीयता के लाभ प्रदान करता है, जो ग्राफिक डिजाइन, भू-मानचित्रण और स्वायत्त ड्राइविंग जैसे क्षेत्रों में व्यापक रूप से लागू होता है।

मौजूदा विधियों की सीमाएं

एकल संरचना सीमा: मौजूदा विधियां आमतौर पर विशिष्ट वेक्टर प्रकार (बहुभुज, पॉलीलाइन या रेखा खंड) के लिए डिज़ाइन की गई हैं, जिन्हें कई स्वतंत्र मॉडल की आवश्यकता होती है
कैस्केड आर्किटेक्चर समस्या: पारंपरिक विधियां कैस्केड पाइपलाइन अपनाती हैं, जो उदाहरण विशेषताओं और ज्यामिति विशेषताओं को अलग से संभालती हैं, जिससे सूचना अंतराल होता है
टोपोलॉजी त्रुटियां: उदाहरण-स्तर की बाधाओं की कमी बहु-संरचना परिदृश्यों में टोपोलॉजी त्रुटियां उत्पन्न करने के लिए प्रवण है

अनुसंधान प्रेरणा

मानव मस्तिष्क द्वारा दृश्य धारणा में शब्दार्थ समझ और स्थानिक समझ दोनों का उपयोग करने से प्रेरित होकर, लेखकों ने स्पष्ट क्रॉस-स्तर सूचना संलयन को मॉडल करने के लिए उदाहरण-ज्यामिति अंतःक्रिया के माध्यम से प्रस्ताव दिया है, जिससे वैश्विक संरचना पूर्वानुमान और सूक्ष्म शब्दार्थ-संरचना संकेत एक दूसरे को पूरक कर सकते हैं।

मुख्य योगदान

एकीकृत प्रतिनिधित्व और ढांचा: विभिन्न वेक्टर संरचनाओं को एकीकृत करने के लिए संरचित प्रश्न प्रतिनिधित्व प्रस्तावित करता है, और UniVector उदाहरण-ज्यामिति अंतःक्रिया शिक्षण ढांचा पेश करता है
उदाहरण-ज्यामिति अंतःक्रिया मॉडलिंग: एकीकृत वेक्टर एन्कोडर और उदाहरण-ज्यामिति अंतःक्रिया डिकोडर डिज़ाइन करता है, संरचित प्रश्नों को स्वचालित रूप से आरंभ और परिष्कृत करता है
गतिशील आकार बाधा (DSC): वैश्विक संरचना सामंजस्य और स्थानीय आकार सटीकता को गतिशील रूप से अनुकूलित करने के लिए DSC पेश करता है
Multi-Vector डेटासेट: बहुभुज, पॉलीलाइन और रेखा खंड युक्त पहला बहु-संरचना VE डेटासेट बनाता है

विधि विवरण

कार्य परिभाषा

रास्टर छवि को देखते हुए, इसमें कई वेक्टर संरचनाओं (बहुभुज, पॉलीलाइन, रेखा खंड) को एक साथ निकालें, जिसमें उदाहरण वर्ग, बाउंडिंग बॉक्स, बिंदु निर्देशांक और बिंदु वर्ग शामिल हों।

मॉडल आर्किटेक्चर

1. समग्र ढांचा

UniVector ढांचे में तीन मुख्य घटक हैं:

एकीकृत वेक्टर एन्कोडिंग: विभिन्न वेक्टर संरचनाओं को संरचित प्रश्नों में एन्कोड करता है
उदाहरण-ज्यामिति अंतःक्रिया डिकोडिंग: प्रश्नों को पुनरावृत्ति से परिष्कृत करता है
गतिशील आकार बाधा: वैश्विक संरचना सामंजस्य और स्थानीय ज्यामिति सटीकता सुनिश्चित करता है

2. एकीकृत वेक्टर एन्कोडिंग

संरचित प्रश्न प्रतिनिधित्व:

प्रश्न समुच्चय $Q_s \in \mathbb{R}^{N \times (M+1) \times C}$ , जहां N अधिकतम वेक्टर उदाहरण संख्या है, M प्रत्येक वेक्टर के लिए अधिकतम बिंदु संख्या है, C चैनल आयाम है
प्रत्येक वेक्टर $Q_s^i$ में उदाहरण प्रश्न $Q_{ins}^i \in \mathbb{R}^C$ और ज्यामिति प्रश्न $Q_{geo}^i \in \mathbb{R}^{M \times C}$ शामिल हैं

प्रश्न एन्कोडिंग प्रक्रिया:

उदाहरण-स्तर एन्कोडिंग: मोटे-से-सूक्ष्म रणनीति अपनाता है, पहले उच्चतम स्कोर वाली छवि टोकन का चयन करके मोटा प्रश्न बनाता है, फिर उदाहरण पहचान मॉड्यूल के माध्यम से परिष्कृत करता है
ज्यामिति-स्तर एन्कोडिंग: विस्तृत संरचना को कैप्चर करने के लिए आकार विकृति मॉड्यूल के माध्यम से, फ्रेम-आंतरिक ध्यान का उपयोग करके ज्यामिति प्रश्नों को परिष्कृत करता है

3. उदाहरण-ज्यामिति अंतःक्रिया डिकोडिंग

संरचित विशेषता निष्कर्षण: विकृत ध्यान को विस्तारित करता है, प्रत्येक वेक्टर को उदाहरण संदर्भ बिंदु और ज्यामिति संदर्भ बिंदु आवंटित करता है:

$\begin{cases} R_{geo}^l = \text{Sigmoid}(\text{Sigmoid}^{-1}(R_{ins}^l) + \text{MLP}(Q_{geo}^l)), & l = 0 \\ R_{geo}^l = \text{Sigmoid}(\text{Sigmoid}^{-1}(R_{geo}^l) + \text{MLP}(Q_{geo}^l)), & l \geq 1 \end{cases}$

उदाहरण-ज्यामिति अंतःक्रिया:

एकल-स्तर अंतःक्रिया: स्व-ध्यान तंत्र का उपयोग करता है
क्रॉस-स्तर परिष्करण: क्रॉस-ध्यान तंत्र का उपयोग करता है

$Q_{ins}^{''} = \text{Concat}(\text{CA}(Q_{ins}^{i'}, Q_{geo}^{i'}), i \in [1, ..., N])$ $Q_{geo}^{''} = \text{Concat}(\text{CA}(Q_{geo}^{i'}, Q_{ins}^{i'}), i \in [1, ..., N])$

4. गतिशील आकार बाधा (DSC)

मुख्य बिंदु गतिशील मिलान: अनुमानित वेक्टर $\hat{P} = \{\hat{p}_i\}_{i=1}^M$ और सत्य मान $P = \{p_i\}_{i=1}^T$ के बीच द्विपक्षीय ग्राफ मिलान को हल करता है:

$L_{match}(\hat{P}, P, \beta) = \frac{1}{T}\sum_{i=1}^T(\alpha_p \cdot l_1(p_i, \hat{p}_i) + \alpha_c \cdot l_1(c_i, \hat{c}_i))$

$\beta^* = \arg\min_\beta L_{match}(\hat{P}, P, \beta)$

वेक्टर आकार पर्यवेक्षण: दिशा हानि, मुख्य बिंदु हानि और वर्गीकरण हानि को शामिल करने वाली व्यापक बाधा:

$L_{VSL} = \alpha_1 \cdot L_{dir} + \alpha_2 \cdot L_{kp} + \alpha_3 \cdot L_{cls}$

तकनीकी नवाचार बिंदु

एकीकृत प्रतिनिधित्व: पहली बार विभिन्न वेक्टर प्रकारों को एकीकृत करने के लिए संरचित प्रश्न प्रतिनिधित्व प्रस्तावित करता है
अंतःक्रिया तंत्र: स्पष्ट उदाहरण-ज्यामिति अंतःक्रिया डिज़ाइन करता है, दोनों स्तरों के बीच सूचना अंतराल को पाटता है
गतिशील बाधा: विभिन्न वेक्टरों के आकार परिवर्तन को अनुकूल बनाने के लिए गतिशील आकार बाधा पेश करता है

प्रयोगात्मक सेटअप

डेटासेट

Multi-Vector डेटासेट:

पहला बहु-संरचना वेक्टर निष्कर्षण डेटासेट
20,000 प्रशिक्षण छवियां, 3,734 सत्यापन छवियां
तीन शब्दार्थ वर्ग: भवन (70.6%), सड़क सीमा (18.9%), केंद्र रेखा (10.5%)
भवन बहुभुज हैं, सड़क सीमाएं पॉलीलाइन हैं, केंद्र रेखाएं रेखा खंड हैं

एकल-संरचना डेटासेट:

CrowdAI: 280k+ प्रशिक्षण छवियां, 60k परीक्षण छवियां, भवन निष्कर्षण के लिए
Structured3D: सिंथेटिक 3D घर डेटासेट
Topo-Boundary: 25k हवाई छवियां, सड़क सीमा निष्कर्षण के लिए
Wireframe और York Urban: मानक रेखा खंड पहचान डेटासेट

मूल्यांकन मेट्रिक्स

भवन: mAP, IoU, CIoU, PoLiS सड़क सीमा और केंद्र रेखा:

पिक्सल-स्तर: सटीकता, रिकॉल, F1 स्कोर (10 पिक्सल सहिष्णुता)
ज्यामिति-स्तर: ECM (एंट्रॉपी कनेक्टिविटी माप), APLS (औसत पथ लंबाई समानता)

तुलना विधियां

FFL, HiSup, PolyR-CNN (बहुभुज), Sat2Graph, RNGDet++ (पॉलीलाइन), HAWP, LETR (रेखा खंड) जैसी प्रतिनिधि विधियां शामिल हैं।

प्रयोगात्मक परिणाम

मुख्य परिणाम

Multi-Vector डेटासेट प्रदर्शन:

भवन: mAP 49.8% (ResNet-50), 53.4% (Swin-L)
सड़क सीमा: F1-score 88.4% (ResNet-50), 90.4% (Swin-L)
केंद्र रेखा: F1-score 87.8% (ResNet-50), 88.2% (Swin-L)

एकल-संरचना डेटासेट SOTA प्रदर्शन:

CrowdAI: AP 72.8% (ResNet-50), 79.9% (Swin-B)
Topo-Boundary: F1-score 90.3%
Wireframe: sAP10 64.5% (ResNet-50), 69.8% (Swin-L)

विलोपन प्रयोग

घटक	Multi-Vector भवन	CrowdAI	Topo-Boundary
Baseline	39.6	63.9	78.8
+IGID	45.2 (+5.6)	69.3 (+5.4)	85.6 (+6.8)
+UVE	47.6 (+2.4)	71.5 (+2.2)	87.5 (+1.9)
+DSC	49.4 (+1.8)	72.8 (+1.3)	90.3 (+2.8)

उदाहरण-ज्यामिति अंतःक्रिया डिकोडिंग (IGID) सबसे बड़ा लाभ प्रदान करता है, एकीकृत वेक्टर एन्कोडिंग (UVE) और गतिशील आकार बाधा (DSC) अतिरिक्त सुधार प्रदान करते हैं।

प्रयोगात्मक निष्कर्ष

प्रशिक्षण दक्षता: कैस्केड बहु-मॉडल विधियों की तुलना में, प्रशिक्षण और अनुमान गति 2-20 गुना बेहतर होती है
ज्यामिति सटीकता: जटिल परिदृश्यों में अधिक सटीक आकार और कम गलत सकारात्मक प्रदर्शित करता है
क्रॉस-डोमेन सामान्यीकरण: विभिन्न डेटासेट पर स्थिर प्रदर्शन बनाए रखता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

UniVector एकीकृत बहु-संरचना वेक्टर निष्कर्षण को सफलतापूर्वक प्राप्त करता है, एकल-संरचना और बहु-संरचना कार्यों दोनों पर SOTA प्राप्त करता है
उदाहरण-ज्यामिति अंतःक्रिया तंत्र दोनों स्तरों के बीच सूचना अंतराल को प्रभावी ढंग से पाटता है
गतिशील आकार बाधा विभिन्न वेक्टर प्रकारों के आकार परिवर्तन आवश्यकताओं को अनुकूल बनाता है

सीमाएं

निश्चित अधिकतम बिंदु संख्या सेटिंग अत्यंत जटिल आकारों के प्रतिनिधित्व को सीमित कर सकती है
एकल-संरचना विधियों की तुलना में कम्प्यूटेशनल जटिलता में वृद्धि
अत्यंत छोटे पैमाने या गंभीर रूप से अवरुद्ध वेक्टरों के लिए अभी भी चुनौतियां हैं

भविष्य की दिशाएं

लेखकों ने शून्य-शॉट वेक्टर निष्कर्षण आधार मॉडल विकसित करने और दृश्य स्थानीयकरण और पथ योजना जैसे डाउनस्ट्रीम कार्यों में वेक्टर प्रतिनिधित्व लागू करने का प्रस्ताव दिया है।

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार एकीकृत बहु-संरचना वेक्टर निष्कर्षण ढांचा प्रस्तावित करता है, क्षेत्र में लंबे समय से मौजूद समस्या को हल करता है
तर्कसंगत विधि: मानव मस्तिष्क की संज्ञान से प्रेरित उदाहरण-ज्यामिति अंतःक्रिया डिज़ाइन में बहुत मजबूत सैद्धांतिक आधार है
व्यापक प्रयोग: कई डेटासेट पर व्यापक मूल्यांकन विधि की प्रभावशीलता को प्रमाणित करता है
उच्च व्यावहारिक मूल्य: प्रशिक्षण दक्षता में उल्लेखनीय सुधार, महत्वपूर्ण अनुप्रयोग मूल्य है

कमियां

कम्प्यूटेशनल ओवरहेड: एकल-संरचना विधियों की तुलना में कम्प्यूटेशनल जटिलता में वृद्धि
पैरामीटर संवेदनशीलता: गतिशील आकार बाधा में भार पैरामीटर को सावधानीपूर्वक ट्यून करने की आवश्यकता है
चरम परिदृश्य: अत्यंत छोटे लक्ष्य या गंभीर रूप से अवरुद्ध स्थितियों को संभालने की क्षमता सीमित है

प्रभाव

शैक्षणिक योगदान: बहु-संरचना एकीकृत निष्कर्षण समस्या को अग्रणी रूप से हल करता है, क्षेत्र विकास के लिए नई सोच प्रदान करता है
व्यावहारिक मूल्य: भौगोलिक सूचना प्रणाली, स्वायत्त ड्राइविंग आदि अनुप्रयोगों में महत्वपूर्ण महत्व है
पुनरुत्पादनशीलता: कोड और डेटासेट को ओपन-सोर्स करने का वचन देता है, बाद के अनुसंधान को सुविधाजनक बनाता है

लागू परिदृश्य

उच्च-सटीकता मानचित्र निर्माण
दूरसंवेदन छवि विश्लेषण
भवन सूचना निष्कर्षण
स्वायत्त ड्राइविंग पथ योजना
ग्राफिक डिजाइन स्वचालन

संदर्भ

पेपर ने 75 संबंधित संदर्भों का हवाला दिया है, जिसमें वेक्टर निष्कर्षण, वस्तु पहचान, शब्दार्थ विभाजन, ग्राफ तंत्रिका नेटवर्क और अन्य कई संबंधित क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो इस अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह वेक्टर निष्कर्षण के महत्वपूर्ण कार्य पर एक उच्च-गुणवत्ता वाला कंप्यूटर विजन पेपर है जो महत्वपूर्ण सफलता प्राप्त करता है। विधि में मजबूत नवाचार है, प्रयोगात्मक डिज़ाइन तर्कसंगत है, परिणाम विश्वास्पद हैं, और इसमें महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य है।