Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
Liu, Gong, Li et al.
With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
academic
Text-Enhanced Panoptic Symbol Spotting in CAD-Zeichnungen
Mit der weit verbreiteten Anwendung von computergestützten Entwurfsprogrammen (CAD) in Ingenieurwesen, Architektur und Industriedesign wird die Fähigkeit zur genauen Interpretation und Analyse dieser Zeichnungen zunehmend wichtiger. Unter verschiedenen Teilaufgaben spielt die panoptische Symbolverfolgung eine entscheidende Rolle bei der Unterstützung von CAD-Automatisierung und Anwendungen wie Entwurfsabruf. Bestehende Methoden konzentrieren sich hauptsächlich auf geometrische Primitive in CAD-Zeichnungen zur Lösung dieser Aufgabe, stoßen jedoch auf zwei Hauptprobleme: Sie ignorieren häufig die umfangreichen Textanmerkungen in CAD-Zeichnungen und es fehlt eine explizite Modellierung der Beziehungen zwischen Primitiven, was zu einem unvollständigen Verständnis der Gesamtzeichnung führt. Um diese Lücke zu schließen, wird in diesem Artikel ein Rahmen zur panoptischen Symbolverfolgung mit Textanmerkungen vorgeschlagen, der durch gemeinsame Modellierung von geometrischen und Textprimitiven eine einheitliche Darstellung konstruiert und ein auf Transformer basierendes Backbone-Netzwerk sowie einen typbewussten Aufmerksamkeitsmechanismus verwendet, um räumliche Abhängigkeiten zwischen verschiedenen Arten von Primitiven explizit zu modellieren.
Das Kernproblem, das in diesem Artikel behandelt wird, ist die Aufgabe der panoptischen Symbolverfolgung (Panoptic Symbol Spotting) in CAD-Zeichnungen, die die Erkennung auf Instanzebene und die semantische Erkennung vereinheitlicht. Sie erfordert sowohl die Erkennung zählbarer "Objekt"-Kategorien (wie Türen, Fenster, Möbel) als auch nicht zählbarer "Material"-Kategorien (wie Wände, Geländer usw.).
Industrielle Anforderungen: CAD-Zeichnungen werden häufig in Maschinenbau, Architektur, Elektronik und Luft- und Raumfahrt verwendet. Eine genaue Symbolverfolgung ist die Grundlage für intelligente Entwurfsinterpretation, automatisierte Modellierung und Zeichnungsabruf
Technische Herausforderungen: Reale CAD-Zeichnungen sind großflächig und strukturell komplex und erfordern das gleichzeitige Verständnis von geometrischen Strukturen und semantischen Informationen
Anwendungswert: Unterstützt CAD-Automatisierung, Entwurfsabruf und andere nachgelagerte Anwendungen
Ignorieren von Textinformationen: Bestehende Methoden konzentrieren sich hauptsächlich auf geometrische Primitive (Linien, Bögen, Kreise usw.) und ignorieren die umfangreichen Textanmerkungen in CAD-Zeichnungen, die wichtige semantische Informationen wie Größenbezeichnungen, Symbolnamen und Funktionsbeschreibungen enthalten
Fehlende Beziehungsmodellierung: Es fehlt eine explizite Modellierung der Beziehungen zwischen verschiedenen Arten von Primitiven, was die Erfassung von Abhängigkeiten auf höherer Ebene verhindert und die Darstellungs- und Modellleistung einschränkt
Textanmerkungen in CAD-Zeichnungen bieten semantische Hinweise, die das geometrische Layout ergänzen, und sind eine wichtige Informationsquelle für das Verständnis von Entwurfsabsichten. Durch die Integration von Textanmerkungen mit geometrischen Primitiven kann eine umfassendere Darstellung konstruiert werden, die die Erkennungsgenauigkeit in komplexen Szenen verbessert.
Erstmalige Integration von Textinformationen in die CAD-Symbolverfolgung: Textanmerkungen werden als wichtige semantische Modalität in die CAD-Symbolverfolgungsaufgabe eingeführt, um durch die Kombination von Text- und geometrischen Primitiven ein umfassenderes Verständnis des Zeichnungsinhalts zu erreichen
Vorschlag eines typbewussten Aufmerksamkeitsmechanismus: Ein typbewusster Aufmerksamkeitsmechanismus wird entwickelt, um räumliche Beziehungen zwischen verschiedenen Arten von Primitiven explizit zu modellieren und die Fähigkeit des Modells zum Verständnis von Layoutstrukturen zu verbessern
Optimale Leistung auf echten Datensätzen: Erreicht hochmoderne Leistung auf dem FloorPlanCAD-Datensatz mit Textanmerkungen und validiert die Praktikabilität und Stabilität der Methode
Die CAD-Zeichnung wird in eine Menge von grundlegenden geometrischen Primitiven D = {pk} zerlegt, einschließlich geometrischer Primitive und Textanmerkungen, die als Knoten im Graphen dienen. Ein Textintegrationsmodul wird eingeführt, um vielfältige Textprimitiven zu verarbeiten und hochwertige Anmerkungen mit aussagekräftiger Semantik beizubehalten.
Textprimitiv-Integration: Erstmalige Einbeziehung von Textanmerkungen als unabhängige Primitivtyp in die Graphstruktur, um semantische Anleitung zu bieten
Typbewusste Modellierung: Explizite Unterscheidung verschiedener Beziehungstypen zwischen Primitivpaaren durch Typindikatoren
Strukturierte Aufmerksamkeit: Integration von Kantenmerkmalen als Bias-Term in die Aufmerksamkeitsberechnung, um die räumliche Beziehungsmodellierung zu verbessern
Herausfordernde Kategorien: Leichte Leistungsabnahme bei Kategorien mit komplexem geometrischem Aussehen und nicht standardisierter Anmerknung wie Erkerfenstern
Gesamttrend: Bessere Leistung bei den meisten Symboltypen, was die Verallgemeinerungsfähigkeit der Methode beweist
Visualisierungsergebnisse zeigen, dass die vorgeschlagene Methode im Vergleich zu CADTransformer weniger Fehlklassifizierungen in komplexen Bereichen erzeugt und besonders in herausfordernden Bereichen robuster ist, die das Baseline-Modell leicht verwirren.
Pixelbasierte Methoden: Behandeln die Symbolverfolgung als Bildaufgabe und verwenden Objekterkennungs- oder Bildsegmentierungstechniken, verlieren aber geometrische Präzision und sind rechnerisch teuer
Primitivbasierte Methoden: Arbeiten direkt mit geometrischen Primitiven und verwenden Graphenneuronale Netze oder Transformer zur Modellierung, bewahren Strukturinformationen, haben aber Schwierigkeiten bei der Modellierung komplexer hierarchischer Beziehungen
Punktwolkenbasierte Methoden: Abstrahieren Primitive als hochdimensionale Punktwolkenstrukturen, erfassen umfangreiche geometrische Informationen, ignorieren aber häufig semantische Hinweise
Dieser Artikel gehört zu primitivbasierten Methoden, innoviert aber durch die Fusion von Textsemantik-Informationen und füllt die Lücke bestehender Methoden in der multimodalen Verständigung.
Textanmerkungen sind eine wichtige semantische Informationsquelle in CAD-Zeichnungen, und die Fusion von Text kann die Leistung der Symbolverfolgung erheblich verbessern
Der typbewusste Aufmerksamkeitsmechanismus kann räumliche Abhängigkeiten zwischen verschiedenen Arten von Primitiven effektiv modellieren
Die gemeinsame Modellierung von Geometrie und Text bietet ein umfassenderes Verständnis von CAD-Zeichnungen
Genaue Problemidentifikation: Genau identifiziert das Schlüsselproblem bestehender Methoden, Textinformationen zu ignorieren
Vernünftige Methodengestaltung: Der typbewusste Aufmerksamkeitsmechanismus ist geschickt konzipiert und kann verschiedene Beziehungstypen explizit modellieren
Umfangreiche Experimente: Bietet umfassende Vergleichsexperimente, Ablationsstudien und Fallstudien
Signifikante Leistungsverbesserung: Erreicht deutliche Verbesserungen auf echten großflächigen Datensätzen
Klare Schreibweise: Klare Papierstruktur und genaue technische Beschreibung
Das Papier zitiert 75 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie CAD-Analyse, Computervision und tiefes Lernen abdecken. Die Literaturrecherche ist relativ umfassend. Der Schwerpunkt liegt auf direkt verwandten Arbeiten wie dem FloorPlanCAD-Datensatz und CADTransformer.
Gesamtbewertung: Dies ist ein technisch solides Papier mit klarer Problemdefinition. Obwohl die technische Innovation relativ begrenzt ist, identifiziert es genau praktische Probleme und schlägt effektive Lösungen vor, die auf echten Datensätzen erhebliche Verbesserungen erzielen. Das Papier trägt in gewisser Weise zum CAD-Verständigungsbereich bei, besonders bei der Fusion multimodaler Informationen bietet es wertvolle Erkundungen.