2025-11-12T05:37:10.018265

Text-Enhanced Panoptic Symbol Spotting in CAD Drawings

Liu, Gong, Li et al.

With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.

academic

Text-Enhanced Panoptic Symbol Spotting in CAD-Zeichnungen

Grundinformationen

Paper-ID: 2510.11091
Titel: Text-Enhanced Panoptic Symbol Spotting in CAD-Zeichnungen
Autoren: Xianlin Liu, Yan Gong, Bohao Li, Jiajing Huang, Bowen Du, Junchen Ye, Liyan Xu
Klassifizierung: cs.CV cs.AI
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.11091

Zusammenfassung

Mit der weit verbreiteten Anwendung von computergestützten Entwurfsprogrammen (CAD) in Ingenieurwesen, Architektur und Industriedesign wird die Fähigkeit zur genauen Interpretation und Analyse dieser Zeichnungen zunehmend wichtiger. Unter verschiedenen Teilaufgaben spielt die panoptische Symbolverfolgung eine entscheidende Rolle bei der Unterstützung von CAD-Automatisierung und Anwendungen wie Entwurfsabruf. Bestehende Methoden konzentrieren sich hauptsächlich auf geometrische Primitive in CAD-Zeichnungen zur Lösung dieser Aufgabe, stoßen jedoch auf zwei Hauptprobleme: Sie ignorieren häufig die umfangreichen Textanmerkungen in CAD-Zeichnungen und es fehlt eine explizite Modellierung der Beziehungen zwischen Primitiven, was zu einem unvollständigen Verständnis der Gesamtzeichnung führt. Um diese Lücke zu schließen, wird in diesem Artikel ein Rahmen zur panoptischen Symbolverfolgung mit Textanmerkungen vorgeschlagen, der durch gemeinsame Modellierung von geometrischen und Textprimitiven eine einheitliche Darstellung konstruiert und ein auf Transformer basierendes Backbone-Netzwerk sowie einen typbewussten Aufmerksamkeitsmechanismus verwendet, um räumliche Abhängigkeiten zwischen verschiedenen Arten von Primitiven explizit zu modellieren.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem, das in diesem Artikel behandelt wird, ist die Aufgabe der panoptischen Symbolverfolgung (Panoptic Symbol Spotting) in CAD-Zeichnungen, die die Erkennung auf Instanzebene und die semantische Erkennung vereinheitlicht. Sie erfordert sowohl die Erkennung zählbarer "Objekt"-Kategorien (wie Türen, Fenster, Möbel) als auch nicht zählbarer "Material"-Kategorien (wie Wände, Geländer usw.).

Bedeutung des Problems

Industrielle Anforderungen: CAD-Zeichnungen werden häufig in Maschinenbau, Architektur, Elektronik und Luft- und Raumfahrt verwendet. Eine genaue Symbolverfolgung ist die Grundlage für intelligente Entwurfsinterpretation, automatisierte Modellierung und Zeichnungsabruf
Technische Herausforderungen: Reale CAD-Zeichnungen sind großflächig und strukturell komplex und erfordern das gleichzeitige Verständnis von geometrischen Strukturen und semantischen Informationen
Anwendungswert: Unterstützt CAD-Automatisierung, Entwurfsabruf und andere nachgelagerte Anwendungen

Einschränkungen bestehender Methoden

Ignorieren von Textinformationen: Bestehende Methoden konzentrieren sich hauptsächlich auf geometrische Primitive (Linien, Bögen, Kreise usw.) und ignorieren die umfangreichen Textanmerkungen in CAD-Zeichnungen, die wichtige semantische Informationen wie Größenbezeichnungen, Symbolnamen und Funktionsbeschreibungen enthalten
Fehlende Beziehungsmodellierung: Es fehlt eine explizite Modellierung der Beziehungen zwischen verschiedenen Arten von Primitiven, was die Erfassung von Abhängigkeiten auf höherer Ebene verhindert und die Darstellungs- und Modellleistung einschränkt

Forschungsmotivation

Textanmerkungen in CAD-Zeichnungen bieten semantische Hinweise, die das geometrische Layout ergänzen, und sind eine wichtige Informationsquelle für das Verständnis von Entwurfsabsichten. Durch die Integration von Textanmerkungen mit geometrischen Primitiven kann eine umfassendere Darstellung konstruiert werden, die die Erkennungsgenauigkeit in komplexen Szenen verbessert.

Kernbeiträge

Erstmalige Integration von Textinformationen in die CAD-Symbolverfolgung: Textanmerkungen werden als wichtige semantische Modalität in die CAD-Symbolverfolgungsaufgabe eingeführt, um durch die Kombination von Text- und geometrischen Primitiven ein umfassenderes Verständnis des Zeichnungsinhalts zu erreichen
Vorschlag eines typbewussten Aufmerksamkeitsmechanismus: Ein typbewusster Aufmerksamkeitsmechanismus wird entwickelt, um räumliche Beziehungen zwischen verschiedenen Arten von Primitiven explizit zu modellieren und die Fähigkeit des Modells zum Verständnis von Layoutstrukturen zu verbessern
Optimale Leistung auf echten Datensätzen: Erreicht hochmoderne Leistung auf dem FloorPlanCAD-Datensatz mit Textanmerkungen und validiert die Praktikabilität und Stabilität der Methode

Methodische Details

Aufgabendefinition

Eingabe: Vektorisierte CAD-Zeichnung D, bestehend aus geometrischen Primitiven (Linien, Bögen, Kreise, Ellipsen) und Textanmerkungen
Primitive-Darstellung: Jedes Primitiv ei ist mit einer semantischen Kategorie li und einem Instanzindex zi verknüpft
Ausgabe: Vorhersage der semantischen Bezeichnung l̂i und des Instanzindex ẑi für jedes Primitiv

Modellarchitektur

1. Graphkonstruktionsmodul

Die CAD-Zeichnung wird in eine Menge von grundlegenden geometrischen Primitiven D = {pk} zerlegt, einschließlich geometrischer Primitive und Textanmerkungen, die als Knoten im Graphen dienen. Ein Textintegrationsmodul wird eingeführt, um vielfältige Textprimitiven zu verarbeiten und hochwertige Anmerkungen mit aussagekräftiger Semantik beizubehalten.

2. Merkmalsinitialisierung

Visuelle Merkmalsextraktion: Verwendung eines vortrainierten CNN (HRNetV2-W48) zur Extraktion von Merkmalskarten F aus rasterisierten CAD-Bildern
Primitive-Merkmale: Durch bilineare Interpolation werden anfängliche Merkmaleinbettungen aus der Merkmalskarte gewonnen: f_i^0 = εCNN(F, ci)
Kantenmerkmalkonstruktion: Handwerklich konstruierte Kantenmerkmale beschreiben räumliche Beziehungen zwischen verschiedenen Arten von Primitiven

3. Typbewusster Aufmerksamkeitsmechanismus

Kantenmermalcodierung:

Typindikator t: Stellt die Knotenpaarklasse dar (Geometrie-Geometrie, Geometrie-Text, Text-Text)
Geometrischer Beziehungsvektor e ∈ R^7: Erfasst relative Entfernung, Position und Winkel
Vollständiges Kantenmerkmal: E = (t∥e) ∈ R^{N×k×8}

Aufmerksamkeitsberechnung:

Ursprüngliche Aufmerksamkeitswerte: α_ij^l = (q_i^l · k_j^l) / √(d/h)
Multi-Head-Aufmerksamkeit: A^s = Concat(a_ij^1, a_ij^2, ..., a_ij^h)
Strukturelle Einbettung: T^s = MLP(E)
Verbesserte Aufmerksamkeit: f^s = Softmax(A^s + T^s)f^{s-1}

4. Verlustfunktion

Gemeinsame Optimierung der semantischen Klassifizierung und Instanzsegmentierung:

L = λ_sem · L_sem + λ_ins · L_ins
L_ins = (1/Σm_i) Σ_i ∥o_i - (c_i - p_i)∥ · m_i

wobei L_sem der Kreuzentropieverlust und L_ins der Instanzmittelregressionsverlust ist.

Technische Innovationspunkte

Textprimitiv-Integration: Erstmalige Einbeziehung von Textanmerkungen als unabhängige Primitivtyp in die Graphstruktur, um semantische Anleitung zu bieten
Typbewusste Modellierung: Explizite Unterscheidung verschiedener Beziehungstypen zwischen Primitivpaaren durch Typindikatoren
Strukturierte Aufmerksamkeit: Integration von Kantenmerkmalen als Bias-Term in die Aufmerksamkeitsberechnung, um die räumliche Beziehungsmodellierung zu verbessern

Experimentelle Einrichtung

Datensatz

FloorPlanCAD-Datensatz: 15.663 CAD-Zeichnungen mit umfangreichen Textanmerkungen
Kategorien: 35 Objektkategorien, unterschieden zwischen zählbaren "Objekt"- und nicht zählbaren "Material"-Klassen
Anmerkungen: Linienebenen-Anmerkungen, Objektklassen mit Kategoriebezeichnung und Instanzindex, Materialklassen nur mit semantischer Kategorie
Aufteilung: Regelmäßige 14m×14m-Blöcke für Training und Bewertung

Bewertungsmetriken

Spezialisierte Bewertungsmetriken für die CAD-Symbolverfolgung:

Erkennungsqualität (RQ): RQ = |TP|/(|TP| + 0.5|FP| + 0.5|FN|)
Segmentierungsqualität (SQ): SQ = Σ_{(s_p,s_g)∈TP} IoU(s_p,s_g) / |TP|
Panoptische Qualität (PQ): PQ = RQ × SQ

Vergleichsmethoden

CADTransformer: Transformer-basierte Baseline-Methode
CADTransformer + text: Baseline-Variante mit Text

Implementierungsdetails

Optimierer: Adam (β1=0.9, β2=0.99, lr=2.5×10^-5)
Architektur: 6 Aufmerksamkeitsköpfe, maximal 16 Nachbarn pro Primitiv
Training: 50 Epochen, Batch-Größe 2, 2 RTX 3090 GPUs
Verlustwichte: λ_sem=1, λ_ins=0.3

Experimentelle Ergebnisse

Hauptergebnisse

Methode	PQ	RQ	SQ	F1
CADTransformer	0.7152	0.8298	0.8619	0.7754
CADTransformer + text	0.7352	0.8404	0.8748	0.7834
Unsere Methode	0.7371	0.8381	0.8794	0.7877

Wichtigste Erkenntnisse:

Die Textintegration verbessert PQ von 0.7152 auf 0.7352 und beweist die positive Wirkung semantischer Merkmale
Der typbewusste Aufmerksamkeitsmechanismus verbessert PQ weiter auf 0.7371
Übertrifft die Baseline-Methode bei allen Bewertungsmetriken

Kategorieebenenanalyse

Das Papier bietet eine detaillierte Leistungsanalyse für 32 Kategorien mit folgenden Haupterkenntnissen:

Vorteilhafte Kategorien: Signifikante Verbesserungen bei Türkategorien (Einzeltür, Doppeltür, Schiebetür), Möbelkategorien (Sofa, Bett, Stuhl) usw.
Herausfordernde Kategorien: Leichte Leistungsabnahme bei Kategorien mit komplexem geometrischem Aussehen und nicht standardisierter Anmerknung wie Erkerfenstern
Gesamttrend: Bessere Leistung bei den meisten Symboltypen, was die Verallgemeinerungsfähigkeit der Methode beweist

Fallstudien

Visualisierungsergebnisse zeigen, dass die vorgeschlagene Methode im Vergleich zu CADTransformer weniger Fehlklassifizierungen in komplexen Bereichen erzeugt und besonders in herausfordernden Bereichen robuster ist, die das Baseline-Modell leicht verwirren.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Textanmerkungen sind eine wichtige semantische Informationsquelle in CAD-Zeichnungen, und die Fusion von Text kann die Leistung der Symbolverfolgung erheblich verbessern
Der typbewusste Aufmerksamkeitsmechanismus kann räumliche Abhängigkeiten zwischen verschiedenen Arten von Primitiven effektiv modellieren
Die gemeinsame Modellierung von Geometrie und Text bietet ein umfassenderes Verständnis von CAD-Zeichnungen

Einschränkungen

Abhängigkeit von Textqualität: Die Methodenleistung hängt von der Qualität und Konsistenz der Textanmerkungen ab
Rechenkomplexität: Das Hinzufügen von Textprimitiven und typbewussten Mechanismen kann den Rechenaufwand erhöhen
Datensatzbeschränkung: Validierung nur auf einem Architektur-Grundriss-Datensatz; die Verallgemeinerung auf andere CAD-Bereiche ist noch zu überprüfen

Zukünftige Richtungen

Erweiterung auf andere CAD-Bereiche (Maschinenbau, Elektronik usw.)
Untersuchung effizienterer multimodaler Fusionsmechanismen
Erforschung von selbstüberwachtem Lernen zur Verringerung der Abhängigkeit von annotierten Daten

Tiefgreifende Bewertung

Stärken

Genaue Problemidentifikation: Genau identifiziert das Schlüsselproblem bestehender Methoden, Textinformationen zu ignorieren
Vernünftige Methodengestaltung: Der typbewusste Aufmerksamkeitsmechanismus ist geschickt konzipiert und kann verschiedene Beziehungstypen explizit modellieren
Umfangreiche Experimente: Bietet umfassende Vergleichsexperimente, Ablationsstudien und Fallstudien
Signifikante Leistungsverbesserung: Erreicht deutliche Verbesserungen auf echten großflächigen Datensätzen
Klare Schreibweise: Klare Papierstruktur und genaue technische Beschreibung

Mängel

Begrenzte Innovation: Die Hauptbeiträge bestehen darin, bestehende Technologien (Transformer + Text) auf neue Bereiche anzuwenden
Fehlende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum Textinformationen wirksam sind
Keine Analyse des Rechenaufwands: Keine Bereitstellung von Rechenkomplexitäts- und Laufzeitanalysen
Unzureichende Verallgemeinerungsvalidierung: Validierung nur auf einem Datensatz; es fehlen bereichsübergreifende Experimente

Auswirkungen

Akademischer Wert: Führt eine multimodale Perspektive in den CAD-Verständigungsbereich ein und kann nachfolgende Forschung inspirieren
Praktischer Wert: Die Methode ist einfach und effektiv und leicht für industrielle Anwendungen einsetzbar
Reproduzierbarkeit: Implementierungsdetails sind detailliert beschrieben und bieten gute Reproduzierbarkeit

Anwendbare Szenarien

Architektur-CAD-Analyse: Besonders geeignet für Architektur-Grundrisse mit umfangreichen Textanmerkungen
Verständnis von Ingenieurzeichnungen: Kann auf andere Ingenieurzeichnungen mit Textanmerkungen erweitert werden
CAD-Automatisierung: Bietet grundlegende technische Unterstützung für CAD-Automatisierung und intelligente Entwurfssysteme

Literaturverzeichnis

Das Papier zitiert 75 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie CAD-Analyse, Computervision und tiefes Lernen abdecken. Die Literaturrecherche ist relativ umfassend. Der Schwerpunkt liegt auf direkt verwandten Arbeiten wie dem FloorPlanCAD-Datensatz und CADTransformer.

Gesamtbewertung: Dies ist ein technisch solides Papier mit klarer Problemdefinition. Obwohl die technische Innovation relativ begrenzt ist, identifiziert es genau praktische Probleme und schlägt effektive Lösungen vor, die auf echten Datensätzen erhebliche Verbesserungen erzielen. Das Papier trägt in gewisser Weise zum CAD-Verständigungsbereich bei, besonders bei der Fusion multimodaler Informationen bietet es wertvolle Erkundungen.