Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
Liu, Gong, Li et al.
With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
academic
Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
Con l'ampia applicazione dei disegni CAD (Computer-Aided Design) nell'ingegneria, nell'architettura e nella progettazione industriale, la capacità di interpretare e analizzare accuratamente questi disegni diventa sempre più importante. Tra i vari compiti secondari, il riconoscimento panoptico dei simboli svolge un ruolo cruciale nel supportare l'automazione CAD e le applicazioni di recupero dei progetti. I metodi esistenti si concentrano principalmente sui primitivi geometrici nei disegni CAD per affrontare questo compito, ma affrontano due problemi principali: generalmente trascurano le ricche annotazioni di testo nei disegni CAD e mancano di una modellazione esplicita delle relazioni tra i primitivi, risultando in una comprensione incompleta del disegno complessivo. Per colmare questa lacuna, il presente articolo propone un framework di riconoscimento panoptico dei simboli che integra le annotazioni di testo, costruendo una rappresentazione unificata attraverso la modellazione congiunta dei primitivi geometrici e testuali, utilizzando una rete backbone basata su Transformer e un meccanismo di attenzione consapevole del tipo per modellare esplicitamente le dipendenze spaziali tra primitivi di diversi tipi.
Il problema centrale affrontato in questo articolo è il compito di riconoscimento panoptico dei simboli (Panoptic Symbol Spotting) nei disegni CAD, che unifica il rilevamento dei simboli a livello di istanza e il riconoscimento semantico, richiedendo sia l'identificazione di categorie di "oggetti" numerabili (come porte, finestre, mobili) che di categorie di "materiali" non numerabili (come muri, ringhiere, ecc.).
Esigenze Industriali: I disegni CAD sono ampiamente utilizzati nell'industria manifatturiera, nell'edilizia, nell'elettronica e nell'aerospaziale; il riconoscimento accurato dei simboli è la base per l'interpretazione intelligente dei progetti, la modellazione automatizzata e il recupero dei disegni
Sfide Tecniche: I disegni CAD reali sono su larga scala e strutturalmente complessi, richiedendo la comprensione simultanea della struttura geometrica e delle informazioni semantiche
Valore Applicativo: Supporta l'automazione CAD, il recupero dei progetti e altre applicazioni a valle
Trascuramento delle Informazioni Testuali: I metodi esistenti si concentrano principalmente sui primitivi geometrici (linee, archi, cerchi, ecc.), trascurando le ricche annotazioni di testo nei disegni CAD, che contengono informazioni semantiche importanti come etichette dimensionali, nomi di simboli e descrizioni funzionali
Mancanza di Modellazione delle Relazioni: Mancanza di modellazione esplicita delle relazioni tra primitivi di diversi tipi, incapacità di catturare dipendenze strutturali di alto livello, limitando la capacità rappresentativa e le prestazioni del modello
Le annotazioni di testo nei disegni CAD forniscono indizi semantici che integrano il layout geometrico e rappresentano una fonte di informazioni importante per comprendere l'intento progettuale. Integrando le annotazioni di testo con i primitivi geometrici, è possibile costruire una rappresentazione più completa e migliorare l'accuratezza del riconoscimento in scenari complessi.
Primo Integrazione di Informazioni Testuali nel Riconoscimento dei Simboli CAD: Introduce le annotazioni di testo come modalità semantica chiave nel compito di riconoscimento dei simboli CAD, ottenendo una comprensione più ricca del contenuto dei disegni combinando primitivi testuali e geometrici
Propone un Meccanismo di Attenzione Consapevole del Tipo: Progetta un meccanismo di attenzione consapevole del tipo per modellare esplicitamente le relazioni spaziali tra primitivi di diversi tipi, migliorando la capacità del modello di comprendere la struttura del layout
Raggiunge Prestazioni Ottimali su Dataset Reali: Ottiene prestazioni all'avanguardia sul dataset FloorPlanCAD contenente annotazioni di testo, verificando l'utilità pratica e la stabilità del metodo
Scompone il disegno CAD in un insieme di primitivi grafici di base D = {pk}, includendo primitivi geometrici e annotazioni di testo, come vertici nel grafo. Introduce un modulo di integrazione del testo per elaborare diversi tipi di primitivi testuali, preservando annotazioni di alta qualità con semantica significativa.
Estrazione delle Caratteristiche Visive: Utilizza una CNN pre-addestrata (HRNetV2-W48) per estrarre mappe di caratteristiche da immagini CAD rasterizzate
Caratteristiche dei Primitivi: Ottiene gli embedding di caratteristiche iniziali attraverso interpolazione bilineare dalle mappe di caratteristiche: f_i^0 = εCNN(F, ci)
Costruzione delle Caratteristiche dei Bordi: Costruisce manualmente le caratteristiche dei bordi che descrivono le relazioni spaziali tra primitivi di diversi tipi
Integrazione dei Primitivi Testuali: Per la prima volta incorpora le annotazioni di testo come tipo di primitivo indipendente nella struttura del grafo, fornendo guida semantica
Modellazione Consapevole del Tipo: Distingue esplicitamente i tipi di relazione tra diverse coppie di primitivi attraverso indicatori di tipo
Attenzione Strutturata: Integra le caratteristiche dei bordi come termine di bias nel calcolo dell'attenzione, migliorando la modellazione delle relazioni spaziali
Dataset FloorPlanCAD: 15.663 disegni CAD con ricche annotazioni di testo
Categorie: 35 categorie di oggetti, distinguendo classi di "oggetti" numerabili e classi di "materiali" non numerabili
Annotazioni: Annotazioni a livello di linea; le classi di oggetti hanno etichette di categoria e indici di istanza, le classi di materiali hanno solo categoria semantica
Partizione: Blocchi regolari di 14m×14m per facilitare l'addestramento e la valutazione
L'articolo fornisce un'analisi dettagliata delle prestazioni su 32 categorie, con le seguenti scoperte principali:
Categorie Vantaggiose: Miglioramenti significativi nelle categorie di porte (porte singole, doppie, scorrevoli), categorie di mobili (divani, letti, sedie), ecc.
Categorie Sfidanti: Prestazioni leggermente ridotte in categorie con geometria complessa e annotazioni non standardizzate come le finestre a bovindo
Tendenza Generale: Prestazioni migliori sulla maggior parte dei tipi di simboli, dimostrando la capacità di generalizzazione del metodo
I risultati visualizzati mostrano che, rispetto a CADTransformer, il nostro metodo produce meno errori di classificazione in aree complesse, in particolare mostrando maggiore robustezza in aree sfidanti che confondono facilmente il modello baseline.
Metodi Basati su Pixel: Trattano il riconoscimento dei simboli come compiti di immagine, utilizzando tecniche di rilevamento di oggetti o segmentazione di immagini, ma perdono precisione geometrica e hanno costi computazionali elevati
Metodi Basati su Primitivi: Operano direttamente sui primitivi geometrici, utilizzando reti neurali grafiche o Transformer per la modellazione, mantenendo informazioni strutturali ma difficili nel modellare relazioni gerarchiche complesse
Metodi Basati su Nuvole di Punti: Astraggono i primitivi come strutture di nuvole di punti ad alta dimensione, catturando informazioni geometriche ricche ma spesso trascurando indizi semantici
Questo articolo appartiene ai metodi basati su primitivi, ma innovativamente integra informazioni semantiche testuali, colmando il vuoto dei metodi esistenti nella comprensione multimodale.
Le annotazioni di testo sono una fonte importante di informazioni semantiche nei disegni CAD; l'integrazione del testo può migliorare significativamente le prestazioni del riconoscimento dei simboli
Il meccanismo di attenzione consapevole del tipo può modellare efficacemente le dipendenze spaziali tra primitivi di diversi tipi
La modellazione congiunta di geometria e testo fornisce una comprensione più completa dei disegni CAD
Identificazione Accurata del Problema: Identifica accuratamente il problema chiave del trascuramento delle informazioni testuali nei metodi esistenti
Progettazione Ragionevole del Metodo: Il meccanismo di attenzione consapevole del tipo è ingegnosamente progettato per modellare esplicitamente relazioni di diversi tipi
Esperimenti Completi: Fornisce esperimenti di confronto completi, studi di ablazione e analisi dei casi
Miglioramento Significativo delle Prestazioni: Ottiene miglioramenti evidenti su dataset reali su larga scala
Scrittura Chiara: La struttura dell'articolo è chiara e la descrizione tecnica è accurata
L'articolo cita 75 articoli correlati, coprendo molteplici campi inclusa l'analisi CAD, la visione artificiale e l'apprendimento profondo, con una ricerca bibliografica relativamente completa. Ha fatto particolare riferimento a lavori direttamente correlati come il dataset FloorPlanCAD e CADTransformer.
Valutazione Complessiva: Questo è un articolo di ricerca applicata tecnicamente solido con una definizione del problema chiara. Sebbene l'innovazione tecnica sia relativamente limitata, identifica accuratamente problemi pratici e propone soluzioni efficaci, ottenendo miglioramenti significativi su dataset reali. L'articolo fornisce un contributo significativo al campo della comprensione CAD, in particolare nell'esplorazione della fusione di informazioni multimodali.