2025-11-12T05:37:10.018265

Text-Enhanced Panoptic Symbol Spotting in CAD Drawings

Liu, Gong, Li et al.
With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
academic

Text-Enhanced Panoptic Symbol Spotting in CAD Drawings

Informazioni Fondamentali

  • ID Articolo: 2510.11091
  • Titolo: Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
  • Autori: Xianlin Liu, Yan Gong, Bohao Li, Jiajing Huang, Bowen Du, Junchen Ye, Liyan Xu
  • Classificazione: cs.CV cs.AI
  • Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.11091

Riassunto

Con l'ampia applicazione dei disegni CAD (Computer-Aided Design) nell'ingegneria, nell'architettura e nella progettazione industriale, la capacità di interpretare e analizzare accuratamente questi disegni diventa sempre più importante. Tra i vari compiti secondari, il riconoscimento panoptico dei simboli svolge un ruolo cruciale nel supportare l'automazione CAD e le applicazioni di recupero dei progetti. I metodi esistenti si concentrano principalmente sui primitivi geometrici nei disegni CAD per affrontare questo compito, ma affrontano due problemi principali: generalmente trascurano le ricche annotazioni di testo nei disegni CAD e mancano di una modellazione esplicita delle relazioni tra i primitivi, risultando in una comprensione incompleta del disegno complessivo. Per colmare questa lacuna, il presente articolo propone un framework di riconoscimento panoptico dei simboli che integra le annotazioni di testo, costruendo una rappresentazione unificata attraverso la modellazione congiunta dei primitivi geometrici e testuali, utilizzando una rete backbone basata su Transformer e un meccanismo di attenzione consapevole del tipo per modellare esplicitamente le dipendenze spaziali tra primitivi di diversi tipi.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato in questo articolo è il compito di riconoscimento panoptico dei simboli (Panoptic Symbol Spotting) nei disegni CAD, che unifica il rilevamento dei simboli a livello di istanza e il riconoscimento semantico, richiedendo sia l'identificazione di categorie di "oggetti" numerabili (come porte, finestre, mobili) che di categorie di "materiali" non numerabili (come muri, ringhiere, ecc.).

Importanza del Problema

  1. Esigenze Industriali: I disegni CAD sono ampiamente utilizzati nell'industria manifatturiera, nell'edilizia, nell'elettronica e nell'aerospaziale; il riconoscimento accurato dei simboli è la base per l'interpretazione intelligente dei progetti, la modellazione automatizzata e il recupero dei disegni
  2. Sfide Tecniche: I disegni CAD reali sono su larga scala e strutturalmente complessi, richiedendo la comprensione simultanea della struttura geometrica e delle informazioni semantiche
  3. Valore Applicativo: Supporta l'automazione CAD, il recupero dei progetti e altre applicazioni a valle

Limitazioni dei Metodi Esistenti

  1. Trascuramento delle Informazioni Testuali: I metodi esistenti si concentrano principalmente sui primitivi geometrici (linee, archi, cerchi, ecc.), trascurando le ricche annotazioni di testo nei disegni CAD, che contengono informazioni semantiche importanti come etichette dimensionali, nomi di simboli e descrizioni funzionali
  2. Mancanza di Modellazione delle Relazioni: Mancanza di modellazione esplicita delle relazioni tra primitivi di diversi tipi, incapacità di catturare dipendenze strutturali di alto livello, limitando la capacità rappresentativa e le prestazioni del modello

Motivazione della Ricerca

Le annotazioni di testo nei disegni CAD forniscono indizi semantici che integrano il layout geometrico e rappresentano una fonte di informazioni importante per comprendere l'intento progettuale. Integrando le annotazioni di testo con i primitivi geometrici, è possibile costruire una rappresentazione più completa e migliorare l'accuratezza del riconoscimento in scenari complessi.

Contributi Fondamentali

  1. Primo Integrazione di Informazioni Testuali nel Riconoscimento dei Simboli CAD: Introduce le annotazioni di testo come modalità semantica chiave nel compito di riconoscimento dei simboli CAD, ottenendo una comprensione più ricca del contenuto dei disegni combinando primitivi testuali e geometrici
  2. Propone un Meccanismo di Attenzione Consapevole del Tipo: Progetta un meccanismo di attenzione consapevole del tipo per modellare esplicitamente le relazioni spaziali tra primitivi di diversi tipi, migliorando la capacità del modello di comprendere la struttura del layout
  3. Raggiunge Prestazioni Ottimali su Dataset Reali: Ottiene prestazioni all'avanguardia sul dataset FloorPlanCAD contenente annotazioni di testo, verificando l'utilità pratica e la stabilità del metodo

Spiegazione Dettagliata del Metodo

Definizione del Compito

  • Input: Disegno CAD vettorializzato D, contenente primitivi geometrici (linee, archi, cerchi, ellissi) e annotazioni di testo
  • Rappresentazione dei Primitivi: Ogni primitivo ei è associato a una categoria semantica li e a un indice di istanza zi
  • Output: Previsione dell'etichetta semantica l̂i e dell'indice di istanza ẑi per ogni primitivo

Architettura del Modello

1. Modulo di Costruzione del Grafo

Scompone il disegno CAD in un insieme di primitivi grafici di base D = {pk}, includendo primitivi geometrici e annotazioni di testo, come vertici nel grafo. Introduce un modulo di integrazione del testo per elaborare diversi tipi di primitivi testuali, preservando annotazioni di alta qualità con semantica significativa.

2. Inizializzazione delle Caratteristiche

  • Estrazione delle Caratteristiche Visive: Utilizza una CNN pre-addestrata (HRNetV2-W48) per estrarre mappe di caratteristiche da immagini CAD rasterizzate
  • Caratteristiche dei Primitivi: Ottiene gli embedding di caratteristiche iniziali attraverso interpolazione bilineare dalle mappe di caratteristiche: f_i^0 = εCNN(F, ci)
  • Costruzione delle Caratteristiche dei Bordi: Costruisce manualmente le caratteristiche dei bordi che descrivono le relazioni spaziali tra primitivi di diversi tipi

3. Meccanismo di Attenzione Consapevole del Tipo

Codifica delle Caratteristiche dei Bordi:

  • Indicatore di tipo t: rappresenta la categoria della coppia di nodi (geometria-geometria, geometria-testo, testo-testo)
  • Vettore di relazione geometrica e ∈ R^7: cattura distanza relativa, posizione e angolo
  • Caratteristica completa del bordo: E = (t∥e) ∈ R^{N×k×8}

Calcolo dell'Attenzione:

Punteggio di attenzione grezzo: α_ij^l = (q_i^l · k_j^l) / √(d/h)
Attenzione multi-testa: A^s = Concat(a_ij^1, a_ij^2, ..., a_ij^h)
Embedding strutturale: T^s = MLP(E)
Attenzione migliorata: f^s = Softmax(A^s + T^s)f^{s-1}

4. Funzione di Perdita

Ottimizzazione congiunta della classificazione semantica e della segmentazione delle istanze:

L = λ_sem · L_sem + λ_ins · L_ins
L_ins = (1/Σm_i) Σ_i ∥o_i - (c_i - p_i)∥ · m_i

dove L_sem è la perdita di entropia incrociata e L_ins è la perdita di regressione del centro dell'istanza.

Punti di Innovazione Tecnica

  1. Integrazione dei Primitivi Testuali: Per la prima volta incorpora le annotazioni di testo come tipo di primitivo indipendente nella struttura del grafo, fornendo guida semantica
  2. Modellazione Consapevole del Tipo: Distingue esplicitamente i tipi di relazione tra diverse coppie di primitivi attraverso indicatori di tipo
  3. Attenzione Strutturata: Integra le caratteristiche dei bordi come termine di bias nel calcolo dell'attenzione, migliorando la modellazione delle relazioni spaziali

Configurazione Sperimentale

Dataset

  • Dataset FloorPlanCAD: 15.663 disegni CAD con ricche annotazioni di testo
  • Categorie: 35 categorie di oggetti, distinguendo classi di "oggetti" numerabili e classi di "materiali" non numerabili
  • Annotazioni: Annotazioni a livello di linea; le classi di oggetti hanno etichette di categoria e indici di istanza, le classi di materiali hanno solo categoria semantica
  • Partizione: Blocchi regolari di 14m×14m per facilitare l'addestramento e la valutazione

Metriche di Valutazione

Utilizza metriche di valutazione specializzate per il riconoscimento dei simboli CAD:

  • Qualità del Riconoscimento (RQ): RQ = |TP|/(|TP| + 0.5|FP| + 0.5|FN|)
  • Qualità della Segmentazione (SQ): SQ = Σ_{(s_p,s_g)∈TP} IoU(s_p,s_g) / |TP|
  • Qualità Panoptica (PQ): PQ = RQ × SQ

Metodi di Confronto

  • CADTransformer: Metodo baseline basato su Transformer
  • CADTransformer + text: Variante baseline con aggiunta di testo

Dettagli di Implementazione

  • Ottimizzatore: Adam (β1=0.9, β2=0.99, lr=2.5×10^-5)
  • Architettura: 6 teste di attenzione, massimo 16 vicini per primitivo
  • Addestramento: 50 epoch, dimensione batch 2, 2 GPU RTX 3090
  • Pesi di perdita: λ_sem=1, λ_ins=0.3

Risultati Sperimentali

Risultati Principali

MetodoPQRQSQF1
CADTransformer0.71520.82980.86190.7754
CADTransformer + text0.73520.84040.87480.7834
Nostro Metodo0.73710.83810.87940.7877

Scoperte Chiave:

  1. L'integrazione del testo aumenta il PQ da 0.7152 a 0.7352, dimostrando l'effetto positivo delle caratteristiche semantiche
  2. Il meccanismo di attenzione consapevole del tipo migliora ulteriormente il PQ a 0.7371
  3. Supera i metodi baseline in tutte le metriche di valutazione

Analisi a Livello di Categoria

L'articolo fornisce un'analisi dettagliata delle prestazioni su 32 categorie, con le seguenti scoperte principali:

  • Categorie Vantaggiose: Miglioramenti significativi nelle categorie di porte (porte singole, doppie, scorrevoli), categorie di mobili (divani, letti, sedie), ecc.
  • Categorie Sfidanti: Prestazioni leggermente ridotte in categorie con geometria complessa e annotazioni non standardizzate come le finestre a bovindo
  • Tendenza Generale: Prestazioni migliori sulla maggior parte dei tipi di simboli, dimostrando la capacità di generalizzazione del metodo

Analisi dei Casi

I risultati visualizzati mostrano che, rispetto a CADTransformer, il nostro metodo produce meno errori di classificazione in aree complesse, in particolare mostrando maggiore robustezza in aree sfidanti che confondono facilmente il modello baseline.

Lavori Correlati

Classificazione dei Metodi di Riconoscimento dei Simboli CAD

  1. Metodi Basati su Pixel: Trattano il riconoscimento dei simboli come compiti di immagine, utilizzando tecniche di rilevamento di oggetti o segmentazione di immagini, ma perdono precisione geometrica e hanno costi computazionali elevati
  2. Metodi Basati su Primitivi: Operano direttamente sui primitivi geometrici, utilizzando reti neurali grafiche o Transformer per la modellazione, mantenendo informazioni strutturali ma difficili nel modellare relazioni gerarchiche complesse
  3. Metodi Basati su Nuvole di Punti: Astraggono i primitivi come strutture di nuvole di punti ad alta dimensione, catturando informazioni geometriche ricche ma spesso trascurando indizi semantici

Posizionamento di Questo Articolo

Questo articolo appartiene ai metodi basati su primitivi, ma innovativamente integra informazioni semantiche testuali, colmando il vuoto dei metodi esistenti nella comprensione multimodale.

Conclusioni e Discussione

Conclusioni Principali

  1. Le annotazioni di testo sono una fonte importante di informazioni semantiche nei disegni CAD; l'integrazione del testo può migliorare significativamente le prestazioni del riconoscimento dei simboli
  2. Il meccanismo di attenzione consapevole del tipo può modellare efficacemente le dipendenze spaziali tra primitivi di diversi tipi
  3. La modellazione congiunta di geometria e testo fornisce una comprensione più completa dei disegni CAD

Limitazioni

  1. Dipendenza dalla Qualità del Testo: Le prestazioni del metodo dipendono dalla qualità e dalla coerenza delle annotazioni di testo
  2. Complessità Computazionale: L'aggiunta di primitivi testuali e meccanismi consapevoli del tipo potrebbe aumentare l'overhead computazionale
  3. Limitazioni del Dataset: Verificato solo su dataset di piante architettoniche; la generalizzazione ad altri domini CAD rimane da verificare

Direzioni Future

  1. Estensione ad altri domini CAD (meccanica, elettronica, ecc.)
  2. Ricerca di meccanismi di fusione multimodale più efficienti
  3. Esplorazione dell'apprendimento auto-supervisionato per ridurre la dipendenza dai dati annotati

Valutazione Approfondita

Punti di Forza

  1. Identificazione Accurata del Problema: Identifica accuratamente il problema chiave del trascuramento delle informazioni testuali nei metodi esistenti
  2. Progettazione Ragionevole del Metodo: Il meccanismo di attenzione consapevole del tipo è ingegnosamente progettato per modellare esplicitamente relazioni di diversi tipi
  3. Esperimenti Completi: Fornisce esperimenti di confronto completi, studi di ablazione e analisi dei casi
  4. Miglioramento Significativo delle Prestazioni: Ottiene miglioramenti evidenti su dataset reali su larga scala
  5. Scrittura Chiara: La struttura dell'articolo è chiara e la descrizione tecnica è accurata

Carenze

  1. Innovazione Limitata: Il contributo principale è l'applicazione di tecnologie esistenti (Transformer + testo) a un nuovo dominio
  2. Mancanza di Analisi Teorica: Manca un'analisi teorica approfondita del perché le informazioni testuali siano efficaci
  3. Analisi dell'Overhead Computazionale Mancante: Non fornisce analisi della complessità computazionale e dei tempi di esecuzione
  4. Verifica della Generalizzazione Insufficiente: Verificato solo su un dataset; mancano esperimenti cross-domain

Impatto

  1. Valore Accademico: Introduce una prospettiva multimodale nel campo della comprensione CAD, potenzialmente ispirando ricerche successive
  2. Valore Pratico: Il metodo è semplice ed efficace, facilmente applicabile nell'industria
  3. Riproducibilità: I dettagli di implementazione sono descritti in dettaglio, con buona riproducibilità

Scenari Applicabili

  1. Analisi CAD Architettonico: Particolarmente adatto per piante architettoniche con ricche annotazioni di testo
  2. Comprensione di Disegni Tecnici: Estendibile ad altri disegni tecnici contenenti annotazioni di testo
  3. Automazione CAD: Fornisce supporto tecnologico di base per sistemi di automazione CAD e progettazione intelligente

Riferimenti Bibliografici

L'articolo cita 75 articoli correlati, coprendo molteplici campi inclusa l'analisi CAD, la visione artificiale e l'apprendimento profondo, con una ricerca bibliografica relativamente completa. Ha fatto particolare riferimento a lavori direttamente correlati come il dataset FloorPlanCAD e CADTransformer.


Valutazione Complessiva: Questo è un articolo di ricerca applicata tecnicamente solido con una definizione del problema chiara. Sebbene l'innovazione tecnica sia relativamente limitata, identifica accuratamente problemi pratici e propone soluzioni efficaci, ottenendo miglioramenti significativi su dataset reali. L'articolo fornisce un contributo significativo al campo della comprensione CAD, in particolare nell'esplorazione della fusione di informazioni multimodali.