2025-11-12T05:37:10.018265

Text-Enhanced Panoptic Symbol Spotting in CAD Drawings

Liu, Gong, Li et al.
With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
academic

CAD ड्राइंग में पाठ-संवर्धित पैनोप्टिक प्रतीक स्पॉटिंग

मूल जानकारी

  • पेपर ID: 2510.11091
  • शीर्षक: Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
  • लेखक: Xianlin Liu, Yan Gong, Bohao Li, Jiajing Huang, Bowen Du, Junchen Ye, Liyan Xu
  • वर्गीकरण: cs.CV cs.AI
  • प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.11091

सारांश

कंप्यूटर-सहायक डिजाइन (CAD) ड्राइंग के इंजीनियरिंग, आर्किटेक्चर और औद्योगिक डिजाइन में व्यापक अनुप्रयोग के साथ, इन ड्राइंग को सटीक रूप से व्याख्या और विश्लेषण करने की क्षमता तेजी से महत्वपूर्ण हो गई है। विभिन्न उप-कार्यों में, पैनोप्टिक प्रतीक पहचान CAD स्वचालन और डिजाइन पुनः प्राप्ति जैसे डाउनस्ट्रीम अनुप्रयोगों का समर्थन करने में महत्वपूर्ण भूमिका निभाता है। मौजूदा विधियां मुख्य रूप से CAD ड्राइंग में ज्यामितीय आदिम पर ध्यान केंद्रित करती हैं, लेकिन दो प्रमुख समस्याओं का सामना करती हैं: आमतौर पर CAD ड्राइंग में समृद्ध पाठ एनोटेशन को नजरअंदाज करते हैं, और आदिम के बीच संबंधों के स्पष्ट मॉडलिंग की कमी है, जिससे समग्र ड्राइंग समझ अधूरी रहती है। इस अंतराल को भरने के लिए, यह पेपर पाठ एनोटेशन को एकीकृत करने वाली एक पैनोप्टिक प्रतीक पहचान फ्रेमवर्क प्रस्तावित करता है, जो ज्यामितीय और पाठ आदिम को संयुक्त रूप से मॉडल करके एकीकृत प्रतिनिधित्व बनाता है, Transformer-आधारित बैकबोन नेटवर्क और प्रकार-जागरूक ध्यान तंत्र का उपयोग करके विभिन्न प्रकार के आदिम के बीच स्थानिक निर्भरता को स्पष्ट रूप से मॉडल करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह पेपर CAD ड्राइंग में पैनोप्टिक प्रतीक स्पॉटिंग कार्य को हल करने के लिए है, जो उदाहरण-स्तरीय प्रतीक पहचान और शब्दार्थ पहचान को एकीकृत करता है, गणनीय "वस्तु" श्रेणियों (जैसे दरवाजे, खिड़कियां, फर्नीचर) और अगणनीय "सामग्री" श्रेणियों (जैसे दीवारें, रेलिंग आदि) दोनों को पहचानना आवश्यक है।

समस्या की महत्ता

  1. औद्योगिक आवश्यकता: CAD ड्राइंग मशीन विनिर्माण, निर्माण, इलेक्ट्रॉनिक्स और एयरोस्पेस जैसे उद्योगों में व्यापक रूप से लागू होते हैं, सटीक प्रतीक पहचान बुद्धिमान डिजाइन व्याख्या, स्वचालित मॉडलिंग और ड्राइंग पुनः प्राप्ति को लागू करने का आधार है
  2. तकनीकी चुनौती: वास्तविक CAD ड्राइंग बड़े पैमाने पर और संरचनात्मक रूप से जटिल हैं, जिन्हें ज्यामितीय संरचना और शब्दार्थ जानकारी दोनों को समझने की आवश्यकता है
  3. अनुप्रयोग मूल्य: CAD स्वचालन, डिजाइन पुनः प्राप्ति आदि डाउनस्ट्रीम अनुप्रयोगों का समर्थन करता है

मौजूदा विधियों की सीमाएं

  1. पाठ जानकारी को नजरअंदाज करना: मौजूदा विधियां मुख्य रूप से ज्यामितीय आदिम (रेखाएं, चाप, वृत्त आदि) पर ध्यान केंद्रित करती हैं, CAD ड्राइंग में समृद्ध पाठ एनोटेशन को नजरअंदाज करती हैं, जिनमें आयाम लेबल, प्रतीक नाम और कार्यात्मक विवरण जैसी महत्वपूर्ण शब्दार्थ जानकारी होती है
  2. संबंध मॉडलिंग की कमी: विभिन्न प्रकार के आदिम के बीच संबंधों के स्पष्ट मॉडलिंग की कमी है, उच्च-स्तरीय संरचनात्मक निर्भरता को पकड़ने में असमर्थ है, प्रतिनिधित्व क्षमता और मॉडल प्रदर्शन को सीमित करता है

अनुसंधान प्रेरणा

पाठ एनोटेशन CAD ड्राइंग में ज्यामितीय लेआउट के पूरक शब्दार्थ सुराग प्रदान करते हैं, डिजाइन इरादे को समझने के लिए महत्वपूर्ण जानकारी का स्रोत हैं। पाठ एनोटेशन को ज्यामितीय आदिम के साथ एकीकृत करके, अधिक व्यापक प्रतिनिधित्व बनाया जा सकता है, जटिल परिदृश्यों में पहचान सटीकता में सुधार किया जा सकता है।

मुख्य योगदान

  1. पहली बार CAD प्रतीक पहचान में पाठ जानकारी को एकीकृत करना: पाठ एनोटेशन को CAD प्रतीक पहचान कार्य में एक महत्वपूर्ण शब्दार्थ मोडैलिटी के रूप में पेश करना, पाठ और ज्यामितीय आदिम को संयोजित करके ड्राइंग सामग्री की अधिक समृद्ध समझ प्राप्त करना
  2. प्रकार-जागरूक ध्यान तंत्र प्रस्तावित करना: विभिन्न प्रकार के आदिम के बीच स्थानिक संबंधों को स्पष्ट रूप से मॉडल करने के लिए प्रकार-जागरूक ध्यान तंत्र डिजाइन करना, लेआउट संरचना के प्रति मॉडल की समझ क्षमता को बढ़ाना
  3. वास्तविक डेटासेट पर इष्टतम प्रदर्शन प्राप्त करना: पाठ एनोटेशन युक्त FloorPlanCAD डेटासेट पर अत्याधुनिक प्रदर्शन प्राप्त करना, विधि की व्यावहारिकता और स्थिरता को सत्यापित करना

विधि विवरण

कार्य परिभाषा

  • इनपुट: वेक्टरीकृत CAD ड्राइंग D, जिसमें ज्यामितीय आदिम (रेखाएं, चाप, वृत्त, दीर्घवृत्त) और पाठ एनोटेशन शामिल हैं
  • आदिम प्रतिनिधित्व: प्रत्येक आदिम ei शब्दार्थ श्रेणी li और उदाहरण सूचकांक zi से जुड़ा है
  • आउटपुट: प्रत्येक आदिम के लिए शब्दार्थ लेबल l̂i और उदाहरण सूचकांक ẑi की भविष्यवाणी करना

मॉडल आर्किटेक्चर

1. ग्राफ निर्माण मॉड्यूल

CAD ड्राइंग को मूल ग्राफिक आदिम के समूह D = {pk} में विघटित करना, जिसमें ज्यामितीय आदिम और पाठ एनोटेशन शामिल हैं, ग्राफ में शीर्ष के रूप में कार्य करते हैं। विविध पाठ आदिम को संसाधित करने के लिए पाठ एकीकरण मॉड्यूल पेश करना, सार्थक शब्दार्थ वाली उच्च-गुणवत्ता वाली एनोटेशन को संरक्षित करना।

2. विशेषता आरंभीकरण

  • दृश्य विशेषता निष्कर्षण: रास्टराइज्ड CAD छवि से विशेषता मानचित्र निकालने के लिए पूर्व-प्रशिक्षित CNN (HRNetV2-W48) का उपयोग करना
  • आदिम विशेषता: द्विरेखीय प्रक्षेप के माध्यम से विशेषता मानचित्र से प्रारंभिक विशेषता एम्बेडिंग नमूना लेना f_i^0 = εCNN(F, ci)
  • किनारे विशेषता निर्माण: विभिन्न प्रकार के आदिम के बीच स्थानिक संबंधों का वर्णन करने के लिए किनारे विशेषता को हाथ से बनाना

3. प्रकार-जागरूक ध्यान तंत्र

किनारे विशेषता एन्कोडिंग:

  • प्रकार संकेतक t: नोड जोड़ी श्रेणी (ज्यामितीय-ज्यामितीय, ज्यामितीय-पाठ, पाठ-पाठ) का प्रतिनिधित्व करता है
  • ज्यामितीय संबंध वेक्टर e ∈ R^7: सापेक्ष दूरी, स्थिति और कोण को पकड़ता है
  • पूर्ण किनारे विशेषता: E = (t∥e) ∈ R^{N×k×8}

ध्यान गणना:

मूल ध्यान स्कोर: α_ij^l = (q_i^l · k_j^l) / √(d/h)
बहु-सिर ध्यान: A^s = Concat(a_ij^1, a_ij^2, ..., a_ij^h)
संरचनात्मक एम्बेडिंग: T^s = MLP(E)
संवर्धित ध्यान: f^s = Softmax(A^s + T^s)f^{s-1}

4. हानि फलन

शब्दार्थ वर्गीकरण और उदाहरण विभाजन को संयुक्त रूप से अनुकूलित करना:

L = λ_sem · L_sem + λ_ins · L_ins
L_ins = (1/Σm_i) Σ_i ∥o_i - (c_i - p_i)∥ · m_i

जहां L_sem क्रॉस-एंट्रॉपी हानि है, L_ins उदाहरण केंद्र प्रतिगमन हानि है।

तकनीकी नवाचार बिंदु

  1. पाठ आदिम एकीकरण: पहली बार पाठ एनोटेशन को ग्राफ संरचना में एक स्वतंत्र आदिम प्रकार के रूप में शामिल करना, शब्दार्थ मार्गदर्शन प्रदान करना
  2. प्रकार-जागरूक मॉडलिंग: प्रकार संकेतक के माध्यम से विभिन्न आदिम जोड़ियों के संबंध प्रकार को स्पष्ट रूप से अलग करना
  3. संरचनात्मक ध्यान: किनारे विशेषता को ध्यान गणना में पूर्वाग्रह शब्द के रूप में एकीकृत करना, स्थानिक संबंध मॉडलिंग को बढ़ाना

प्रायोगिक सेटअप

डेटासेट

  • FloorPlanCAD डेटासेट: 15,663 CAD ड्राइंग, समृद्ध पाठ एनोटेशन युक्त
  • श्रेणियां: 35 वस्तु श्रेणियां, गणनीय "वस्तु" वर्ग और अगणनीय "सामग्री" वर्ग को अलग करना
  • एनोटेशन: रेखा-स्तरीय एनोटेशन, वस्तु वर्ग में श्रेणी लेबल और उदाहरण सूचकांक हैं, सामग्री वर्ग में केवल शब्दार्थ श्रेणी है
  • विभाजन: 14m×14m नियमित ब्लॉक प्रशिक्षण और मूल्यांकन को सुविधाजनक बनाते हैं

मूल्यांकन मेट्रिक्स

विशेष CAD प्रतीक पहचान मूल्यांकन मेट्रिक्स का उपयोग करना:

  • पहचान गुणवत्ता (RQ): RQ = |TP|/(|TP| + 0.5|FP| + 0.5|FN|)
  • विभाजन गुणवत्ता (SQ): SQ = Σ_{(s_p,s_g)∈TP} IoU(s_p,s_g) / |TP|
  • पैनोप्टिक गुणवत्ता (PQ): PQ = RQ × SQ

तुलना विधियां

  • CADTransformer: Transformer-आधारित आधारभूत विधि
  • CADTransformer + text: पाठ जोड़ने वाली आधारभूत विधि का रूपांतर

कार्यान्वयन विवरण

  • अनुकूलक: Adam (β1=0.9, β2=0.99, lr=2.5×10^-5)
  • आर्किटेक्चर: 6 ध्यान सिर, प्रत्येक आदिम के लिए अधिकतम 16 पड़ोसी
  • प्रशिक्षण: 50 epoch, बैच आकार 2, 2 RTX 3090 GPU
  • हानि भार: λ_sem=1, λ_ins=0.3

प्रायोगिक परिणाम

मुख्य परिणाम

विधिPQRQSQF1
CADTransformer0.71520.82980.86190.7754
CADTransformer + text0.73520.84040.87480.7834
हमारी विधि0.73710.83810.87940.7877

मुख्य निष्कर्ष:

  1. पाठ एकीकरण PQ को 0.7152 से 0.7352 तक बढ़ाता है, शब्दार्थ विशेषता की सकारात्मक भूमिका को प्रमाणित करता है
  2. प्रकार-जागरूक ध्यान तंत्र PQ को 0.7371 तक और बढ़ाता है
  3. सभी मूल्यांकन मेट्रिक्स पर आधारभूत विधि से बेहतर है

श्रेणी-स्तरीय विश्लेषण

पेपर 32 श्रेणियों का विस्तृत प्रदर्शन विश्लेषण प्रदान करता है, मुख्य निष्कर्ष:

  • लाभ श्रेणियां: दरवाजे की श्रेणी (एकल दरवाजे, दोहरे दरवाजे, स्लाइडिंग दरवाजे), फर्नीचर श्रेणी (सोफा, बिस्तर, कुर्सी) आदि में महत्वपूर्ण सुधार
  • चुनौतीपूर्ण श्रेणियां: बे विंडो जैसी ज्यामितीय रूप से जटिल और एनोटेशन गैर-मानकीकृत श्रेणियों पर प्रदर्शन में मामूली कमी
  • समग्र प्रवृत्ति: अधिकांश प्रतीक प्रकारों पर बेहतर प्रदर्शन, विधि की सामान्यीकरण क्षमता को प्रमाणित करता है

केस विश्लेषण

दृश्य परिणाम दिखाते हैं कि CADTransformer की तुलना में, यह विधि जटिल क्षेत्रों में कम गलत वर्गीकरण उत्पन्न करती है, विशेष रूप से आधारभूत मॉडल को भ्रमित करने वाले चुनौतीपूर्ण क्षेत्रों में अधिक मजबूत प्रदर्शन करती है।

संबंधित कार्य

CAD प्रतीक पहचान विधि वर्गीकरण

  1. पिक्सेल-आधारित विधियां: प्रतीक पहचान को छवि कार्य के रूप में मानना, लक्ष्य पहचान या छवि विभाजन तकनीक का उपयोग करना, लेकिन ज्यामितीय सटीकता खोना और उच्च कम्प्यूटेशनल लागत
  2. आदिम-आधारित विधियां: सीधे ज्यामितीय आदिम पर काम करना, ग्राफ तंत्रिका नेटवर्क या Transformer का उपयोग करके मॉडलिंग करना, संरचनात्मक जानकारी को संरक्षित करना लेकिन जटिल पदानुक्रमित संबंधों को मॉडल करना मुश्किल है
  3. बिंदु क्लाउड-आधारित विधियां: आदिम को उच्च-आयामी बिंदु क्लाउड संरचना में अमूर्त करना, समृद्ध ज्यामितीय जानकारी को पकड़ना लेकिन अक्सर शब्दार्थ सुराग को नजरअंदाज करना

इस पेपर की स्थिति

यह पेपर आदिम-आधारित विधि है, लेकिन पाठ शब्दार्थ जानकारी को एकीकृत करने में नवीन है, मौजूदा विधियों में बहु-मोडल समझ के पहलू में अंतराल को भरता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. पाठ एनोटेशन CAD ड्राइंग में महत्वपूर्ण शब्दार्थ जानकारी का स्रोत है, पाठ को एकीकृत करने से प्रतीक पहचान प्रदर्शन में महत्वपूर्ण सुधार हो सकता है
  2. प्रकार-जागरूक ध्यान तंत्र विभिन्न प्रकार के आदिम के बीच स्थानिक निर्भरता को प्रभावी रूप से मॉडल कर सकता है
  3. ज्यामितीय और पाठ मॉडलिंग को संयुक्त करना CAD ड्राइंग की अधिक व्यापक समझ प्रदान करता है

सीमाएं

  1. पाठ गुणवत्ता पर निर्भरता: विधि प्रदर्शन पाठ एनोटेशन की गुणवत्ता और सामंजस्य पर निर्भर करता है
  2. कम्प्यूटेशनल जटिलता: पाठ आदिम और प्रकार-जागरूक तंत्र को जोड़ने से कम्प्यूटेशनल ओवरहेड बढ़ सकता है
  3. डेटासेट सीमा: केवल आर्किटेक्चरल फ्लोर प्लान डेटासेट पर सत्यापित, अन्य CAD क्षेत्रों में सामान्यीकरण क्षमता अभी तक सत्यापित नहीं है

भविष्य की दिशा

  1. अन्य CAD क्षेत्रों (मशीनरी, इलेक्ट्रॉनिक्स आदि) तक विस्तार करना
  2. अधिक कुशल बहु-मोडल संलयन तंत्र का अनुसंधान करना
  3. लेबल किए गए डेटा पर निर्भरता को कम करने के लिए स्व-पर्यवेक्षित शिक्षा की खोज करना

गहन मूल्यांकन

शक्तियां

  1. समस्या पहचान सटीक: मौजूदा विधियों द्वारा पाठ जानकारी को नजरअंदाज करने की मुख्य समस्या को सटीक रूप से पहचानना
  2. विधि डिजाइन तर्कसंगत: प्रकार-जागरूक ध्यान तंत्र डिजाइन चतुर है, विभिन्न प्रकार के संबंधों को स्पष्ट रूप से मॉडल कर सकता है
  3. प्रयोग व्यापक: व्यापक तुलनात्मक प्रयोग, विलोपन प्रयोग और केस विश्लेषण प्रदान करता है
  4. प्रदर्शन सुधार महत्वपूर्ण: वास्तविक बड़े पैमाने पर डेटासेट पर स्पष्ट सुधार प्राप्त करता है
  5. लेखन स्पष्ट: पेपर संरचना स्पष्ट है, तकनीकी विवरण सटीक है

कमियां

  1. सीमित नवाचार: मुख्य योगदान मौजूदा तकनीक (Transformer + पाठ) को नए क्षेत्र में लागू करना है
  2. सैद्धांतिक विश्लेषण की कमी: पाठ जानकारी प्रभावी क्यों है इसके गहन सैद्धांतिक विश्लेषण की कमी है
  3. कम्प्यूटेशनल ओवरहेड विश्लेषण नहीं: कम्प्यूटेशनल जटिलता और रन-टाइम विश्लेषण प्रदान नहीं किया गया है
  4. सामान्यीकरण सत्यापन अपर्याप्त: केवल एक डेटासेट पर सत्यापित, क्रॉस-डोमेन प्रयोग की कमी है

प्रभाव

  1. शैक्षणिक मूल्य: CAD समझ क्षेत्र में बहु-मोडल दृष्टिकोण पेश करता है, बाद के अनुसंधान को प्रेरित कर सकता है
  2. व्यावहारिक मूल्य: विधि सरल और प्रभावी है, औद्योगिक अनुप्रयोग के लिए आसान है
  3. पुनरुत्पादनीयता: कार्यान्वयन विवरण विस्तार से वर्णित हैं, अच्छी पुनरुत्पादनीयता है

लागू परिदृश्य

  1. आर्किटेक्चरल CAD विश्लेषण: विशेष रूप से समृद्ध पाठ एनोटेशन वाले आर्किटेक्चरल फ्लोर प्लान के लिए उपयुक्त
  2. इंजीनियरिंग ड्राइंग समझ: अन्य पाठ लेबल वाली इंजीनियरिंग ड्राइंग तक विस्तारित किया जा सकता है
  3. CAD स्वचालन: CAD स्वचालन और बुद्धिमान डिजाइन प्रणालियों के लिए आधार तकनीकी समर्थन प्रदान करता है

संदर्भ

पेपर 75 संबंधित संदर्भों का हवाला देता है, जिसमें CAD विश्लेषण, कंप्यूटर दृष्टि, गहन शिक्षा आदि कई क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, साहित्य अनुसंधान काफी व्यापक है। FloorPlanCAD डेटासेट, CADTransformer आदि सीधे संबंधित कार्यों को प्रमुखता से संदर्भित किया गया है।


समग्र मूल्यांकन: यह एक तकनीकी रूप से ठोस, समस्या परिभाषा स्पष्ट अनुप्रयोग-उन्मुख पेपर है। हालांकि तकनीकी नवाचार अपेक्षाकृत सीमित है, लेकिन यह व्यावहारिक समस्या को सटीक रूप से पहचानता है और प्रभावी समाधान प्रस्तावित करता है, वास्तविक डेटासेट पर महत्वपूर्ण सुधार प्राप्त करता है। पेपर CAD समझ क्षेत्र को निश्चित रूप से आगे बढ़ाता है, विशेष रूप से बहु-मोडल जानकारी संलयन के पहलू में मूल्यवान अन्वेषण प्रदान करता है।