2025-11-12T05:37:10.018265

Text-Enhanced Panoptic Symbol Spotting in CAD Drawings

Liu, Gong, Li et al.
With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
academic

Text-Enhanced Panoptic Symbol Spotting in CAD-Zeichnungen

Grundinformationen

  • Paper-ID: 2510.11091
  • Titel: Text-Enhanced Panoptic Symbol Spotting in CAD-Zeichnungen
  • Autoren: Xianlin Liu, Yan Gong, Bohao Li, Jiajing Huang, Bowen Du, Junchen Ye, Liyan Xu
  • Klassifizierung: cs.CV cs.AI
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.11091

Zusammenfassung

Mit der weit verbreiteten Anwendung von computergestützten Entwurfsprogrammen (CAD) in Ingenieurwesen, Architektur und Industriedesign wird die Fähigkeit zur genauen Interpretation und Analyse dieser Zeichnungen zunehmend wichtiger. Unter verschiedenen Teilaufgaben spielt die panoptische Symbolverfolgung eine entscheidende Rolle bei der Unterstützung von CAD-Automatisierung und Anwendungen wie Entwurfsabruf. Bestehende Methoden konzentrieren sich hauptsächlich auf geometrische Primitive in CAD-Zeichnungen zur Lösung dieser Aufgabe, stoßen jedoch auf zwei Hauptprobleme: Sie ignorieren häufig die umfangreichen Textanmerkungen in CAD-Zeichnungen und es fehlt eine explizite Modellierung der Beziehungen zwischen Primitiven, was zu einem unvollständigen Verständnis der Gesamtzeichnung führt. Um diese Lücke zu schließen, wird in diesem Artikel ein Rahmen zur panoptischen Symbolverfolgung mit Textanmerkungen vorgeschlagen, der durch gemeinsame Modellierung von geometrischen und Textprimitiven eine einheitliche Darstellung konstruiert und ein auf Transformer basierendes Backbone-Netzwerk sowie einen typbewussten Aufmerksamkeitsmechanismus verwendet, um räumliche Abhängigkeiten zwischen verschiedenen Arten von Primitiven explizit zu modellieren.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem, das in diesem Artikel behandelt wird, ist die Aufgabe der panoptischen Symbolverfolgung (Panoptic Symbol Spotting) in CAD-Zeichnungen, die die Erkennung auf Instanzebene und die semantische Erkennung vereinheitlicht. Sie erfordert sowohl die Erkennung zählbarer "Objekt"-Kategorien (wie Türen, Fenster, Möbel) als auch nicht zählbarer "Material"-Kategorien (wie Wände, Geländer usw.).

Bedeutung des Problems

  1. Industrielle Anforderungen: CAD-Zeichnungen werden häufig in Maschinenbau, Architektur, Elektronik und Luft- und Raumfahrt verwendet. Eine genaue Symbolverfolgung ist die Grundlage für intelligente Entwurfsinterpretation, automatisierte Modellierung und Zeichnungsabruf
  2. Technische Herausforderungen: Reale CAD-Zeichnungen sind großflächig und strukturell komplex und erfordern das gleichzeitige Verständnis von geometrischen Strukturen und semantischen Informationen
  3. Anwendungswert: Unterstützt CAD-Automatisierung, Entwurfsabruf und andere nachgelagerte Anwendungen

Einschränkungen bestehender Methoden

  1. Ignorieren von Textinformationen: Bestehende Methoden konzentrieren sich hauptsächlich auf geometrische Primitive (Linien, Bögen, Kreise usw.) und ignorieren die umfangreichen Textanmerkungen in CAD-Zeichnungen, die wichtige semantische Informationen wie Größenbezeichnungen, Symbolnamen und Funktionsbeschreibungen enthalten
  2. Fehlende Beziehungsmodellierung: Es fehlt eine explizite Modellierung der Beziehungen zwischen verschiedenen Arten von Primitiven, was die Erfassung von Abhängigkeiten auf höherer Ebene verhindert und die Darstellungs- und Modellleistung einschränkt

Forschungsmotivation

Textanmerkungen in CAD-Zeichnungen bieten semantische Hinweise, die das geometrische Layout ergänzen, und sind eine wichtige Informationsquelle für das Verständnis von Entwurfsabsichten. Durch die Integration von Textanmerkungen mit geometrischen Primitiven kann eine umfassendere Darstellung konstruiert werden, die die Erkennungsgenauigkeit in komplexen Szenen verbessert.

Kernbeiträge

  1. Erstmalige Integration von Textinformationen in die CAD-Symbolverfolgung: Textanmerkungen werden als wichtige semantische Modalität in die CAD-Symbolverfolgungsaufgabe eingeführt, um durch die Kombination von Text- und geometrischen Primitiven ein umfassenderes Verständnis des Zeichnungsinhalts zu erreichen
  2. Vorschlag eines typbewussten Aufmerksamkeitsmechanismus: Ein typbewusster Aufmerksamkeitsmechanismus wird entwickelt, um räumliche Beziehungen zwischen verschiedenen Arten von Primitiven explizit zu modellieren und die Fähigkeit des Modells zum Verständnis von Layoutstrukturen zu verbessern
  3. Optimale Leistung auf echten Datensätzen: Erreicht hochmoderne Leistung auf dem FloorPlanCAD-Datensatz mit Textanmerkungen und validiert die Praktikabilität und Stabilität der Methode

Methodische Details

Aufgabendefinition

  • Eingabe: Vektorisierte CAD-Zeichnung D, bestehend aus geometrischen Primitiven (Linien, Bögen, Kreise, Ellipsen) und Textanmerkungen
  • Primitive-Darstellung: Jedes Primitiv ei ist mit einer semantischen Kategorie li und einem Instanzindex zi verknüpft
  • Ausgabe: Vorhersage der semantischen Bezeichnung l̂i und des Instanzindex ẑi für jedes Primitiv

Modellarchitektur

1. Graphkonstruktionsmodul

Die CAD-Zeichnung wird in eine Menge von grundlegenden geometrischen Primitiven D = {pk} zerlegt, einschließlich geometrischer Primitive und Textanmerkungen, die als Knoten im Graphen dienen. Ein Textintegrationsmodul wird eingeführt, um vielfältige Textprimitiven zu verarbeiten und hochwertige Anmerkungen mit aussagekräftiger Semantik beizubehalten.

2. Merkmalsinitialisierung

  • Visuelle Merkmalsextraktion: Verwendung eines vortrainierten CNN (HRNetV2-W48) zur Extraktion von Merkmalskarten F aus rasterisierten CAD-Bildern
  • Primitive-Merkmale: Durch bilineare Interpolation werden anfängliche Merkmaleinbettungen aus der Merkmalskarte gewonnen: f_i^0 = εCNN(F, ci)
  • Kantenmerkmalkonstruktion: Handwerklich konstruierte Kantenmerkmale beschreiben räumliche Beziehungen zwischen verschiedenen Arten von Primitiven

3. Typbewusster Aufmerksamkeitsmechanismus

Kantenmermalcodierung:

  • Typindikator t: Stellt die Knotenpaarklasse dar (Geometrie-Geometrie, Geometrie-Text, Text-Text)
  • Geometrischer Beziehungsvektor e ∈ R^7: Erfasst relative Entfernung, Position und Winkel
  • Vollständiges Kantenmerkmal: E = (t∥e) ∈ R^{N×k×8}

Aufmerksamkeitsberechnung:

Ursprüngliche Aufmerksamkeitswerte: α_ij^l = (q_i^l · k_j^l) / √(d/h)
Multi-Head-Aufmerksamkeit: A^s = Concat(a_ij^1, a_ij^2, ..., a_ij^h)
Strukturelle Einbettung: T^s = MLP(E)
Verbesserte Aufmerksamkeit: f^s = Softmax(A^s + T^s)f^{s-1}

4. Verlustfunktion

Gemeinsame Optimierung der semantischen Klassifizierung und Instanzsegmentierung:

L = λ_sem · L_sem + λ_ins · L_ins
L_ins = (1/Σm_i) Σ_i ∥o_i - (c_i - p_i)∥ · m_i

wobei L_sem der Kreuzentropieverlust und L_ins der Instanzmittelregressionsverlust ist.

Technische Innovationspunkte

  1. Textprimitiv-Integration: Erstmalige Einbeziehung von Textanmerkungen als unabhängige Primitivtyp in die Graphstruktur, um semantische Anleitung zu bieten
  2. Typbewusste Modellierung: Explizite Unterscheidung verschiedener Beziehungstypen zwischen Primitivpaaren durch Typindikatoren
  3. Strukturierte Aufmerksamkeit: Integration von Kantenmerkmalen als Bias-Term in die Aufmerksamkeitsberechnung, um die räumliche Beziehungsmodellierung zu verbessern

Experimentelle Einrichtung

Datensatz

  • FloorPlanCAD-Datensatz: 15.663 CAD-Zeichnungen mit umfangreichen Textanmerkungen
  • Kategorien: 35 Objektkategorien, unterschieden zwischen zählbaren "Objekt"- und nicht zählbaren "Material"-Klassen
  • Anmerkungen: Linienebenen-Anmerkungen, Objektklassen mit Kategoriebezeichnung und Instanzindex, Materialklassen nur mit semantischer Kategorie
  • Aufteilung: Regelmäßige 14m×14m-Blöcke für Training und Bewertung

Bewertungsmetriken

Spezialisierte Bewertungsmetriken für die CAD-Symbolverfolgung:

  • Erkennungsqualität (RQ): RQ = |TP|/(|TP| + 0.5|FP| + 0.5|FN|)
  • Segmentierungsqualität (SQ): SQ = Σ_{(s_p,s_g)∈TP} IoU(s_p,s_g) / |TP|
  • Panoptische Qualität (PQ): PQ = RQ × SQ

Vergleichsmethoden

  • CADTransformer: Transformer-basierte Baseline-Methode
  • CADTransformer + text: Baseline-Variante mit Text

Implementierungsdetails

  • Optimierer: Adam (β1=0.9, β2=0.99, lr=2.5×10^-5)
  • Architektur: 6 Aufmerksamkeitsköpfe, maximal 16 Nachbarn pro Primitiv
  • Training: 50 Epochen, Batch-Größe 2, 2 RTX 3090 GPUs
  • Verlustwichte: λ_sem=1, λ_ins=0.3

Experimentelle Ergebnisse

Hauptergebnisse

MethodePQRQSQF1
CADTransformer0.71520.82980.86190.7754
CADTransformer + text0.73520.84040.87480.7834
Unsere Methode0.73710.83810.87940.7877

Wichtigste Erkenntnisse:

  1. Die Textintegration verbessert PQ von 0.7152 auf 0.7352 und beweist die positive Wirkung semantischer Merkmale
  2. Der typbewusste Aufmerksamkeitsmechanismus verbessert PQ weiter auf 0.7371
  3. Übertrifft die Baseline-Methode bei allen Bewertungsmetriken

Kategorieebenenanalyse

Das Papier bietet eine detaillierte Leistungsanalyse für 32 Kategorien mit folgenden Haupterkenntnissen:

  • Vorteilhafte Kategorien: Signifikante Verbesserungen bei Türkategorien (Einzeltür, Doppeltür, Schiebetür), Möbelkategorien (Sofa, Bett, Stuhl) usw.
  • Herausfordernde Kategorien: Leichte Leistungsabnahme bei Kategorien mit komplexem geometrischem Aussehen und nicht standardisierter Anmerknung wie Erkerfenstern
  • Gesamttrend: Bessere Leistung bei den meisten Symboltypen, was die Verallgemeinerungsfähigkeit der Methode beweist

Fallstudien

Visualisierungsergebnisse zeigen, dass die vorgeschlagene Methode im Vergleich zu CADTransformer weniger Fehlklassifizierungen in komplexen Bereichen erzeugt und besonders in herausfordernden Bereichen robuster ist, die das Baseline-Modell leicht verwirren.

Verwandte Arbeiten

Klassifizierung von CAD-Symbolverfolgungsmethoden

  1. Pixelbasierte Methoden: Behandeln die Symbolverfolgung als Bildaufgabe und verwenden Objekterkennungs- oder Bildsegmentierungstechniken, verlieren aber geometrische Präzision und sind rechnerisch teuer
  2. Primitivbasierte Methoden: Arbeiten direkt mit geometrischen Primitiven und verwenden Graphenneuronale Netze oder Transformer zur Modellierung, bewahren Strukturinformationen, haben aber Schwierigkeiten bei der Modellierung komplexer hierarchischer Beziehungen
  3. Punktwolkenbasierte Methoden: Abstrahieren Primitive als hochdimensionale Punktwolkenstrukturen, erfassen umfangreiche geometrische Informationen, ignorieren aber häufig semantische Hinweise

Positionierung dieses Artikels

Dieser Artikel gehört zu primitivbasierten Methoden, innoviert aber durch die Fusion von Textsemantik-Informationen und füllt die Lücke bestehender Methoden in der multimodalen Verständigung.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Textanmerkungen sind eine wichtige semantische Informationsquelle in CAD-Zeichnungen, und die Fusion von Text kann die Leistung der Symbolverfolgung erheblich verbessern
  2. Der typbewusste Aufmerksamkeitsmechanismus kann räumliche Abhängigkeiten zwischen verschiedenen Arten von Primitiven effektiv modellieren
  3. Die gemeinsame Modellierung von Geometrie und Text bietet ein umfassenderes Verständnis von CAD-Zeichnungen

Einschränkungen

  1. Abhängigkeit von Textqualität: Die Methodenleistung hängt von der Qualität und Konsistenz der Textanmerkungen ab
  2. Rechenkomplexität: Das Hinzufügen von Textprimitiven und typbewussten Mechanismen kann den Rechenaufwand erhöhen
  3. Datensatzbeschränkung: Validierung nur auf einem Architektur-Grundriss-Datensatz; die Verallgemeinerung auf andere CAD-Bereiche ist noch zu überprüfen

Zukünftige Richtungen

  1. Erweiterung auf andere CAD-Bereiche (Maschinenbau, Elektronik usw.)
  2. Untersuchung effizienterer multimodaler Fusionsmechanismen
  3. Erforschung von selbstüberwachtem Lernen zur Verringerung der Abhängigkeit von annotierten Daten

Tiefgreifende Bewertung

Stärken

  1. Genaue Problemidentifikation: Genau identifiziert das Schlüsselproblem bestehender Methoden, Textinformationen zu ignorieren
  2. Vernünftige Methodengestaltung: Der typbewusste Aufmerksamkeitsmechanismus ist geschickt konzipiert und kann verschiedene Beziehungstypen explizit modellieren
  3. Umfangreiche Experimente: Bietet umfassende Vergleichsexperimente, Ablationsstudien und Fallstudien
  4. Signifikante Leistungsverbesserung: Erreicht deutliche Verbesserungen auf echten großflächigen Datensätzen
  5. Klare Schreibweise: Klare Papierstruktur und genaue technische Beschreibung

Mängel

  1. Begrenzte Innovation: Die Hauptbeiträge bestehen darin, bestehende Technologien (Transformer + Text) auf neue Bereiche anzuwenden
  2. Fehlende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum Textinformationen wirksam sind
  3. Keine Analyse des Rechenaufwands: Keine Bereitstellung von Rechenkomplexitäts- und Laufzeitanalysen
  4. Unzureichende Verallgemeinerungsvalidierung: Validierung nur auf einem Datensatz; es fehlen bereichsübergreifende Experimente

Auswirkungen

  1. Akademischer Wert: Führt eine multimodale Perspektive in den CAD-Verständigungsbereich ein und kann nachfolgende Forschung inspirieren
  2. Praktischer Wert: Die Methode ist einfach und effektiv und leicht für industrielle Anwendungen einsetzbar
  3. Reproduzierbarkeit: Implementierungsdetails sind detailliert beschrieben und bieten gute Reproduzierbarkeit

Anwendbare Szenarien

  1. Architektur-CAD-Analyse: Besonders geeignet für Architektur-Grundrisse mit umfangreichen Textanmerkungen
  2. Verständnis von Ingenieurzeichnungen: Kann auf andere Ingenieurzeichnungen mit Textanmerkungen erweitert werden
  3. CAD-Automatisierung: Bietet grundlegende technische Unterstützung für CAD-Automatisierung und intelligente Entwurfssysteme

Literaturverzeichnis

Das Papier zitiert 75 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie CAD-Analyse, Computervision und tiefes Lernen abdecken. Die Literaturrecherche ist relativ umfassend. Der Schwerpunkt liegt auf direkt verwandten Arbeiten wie dem FloorPlanCAD-Datensatz und CADTransformer.


Gesamtbewertung: Dies ist ein technisch solides Papier mit klarer Problemdefinition. Obwohl die technische Innovation relativ begrenzt ist, identifiziert es genau praktische Probleme und schlägt effektive Lösungen vor, die auf echten Datensätzen erhebliche Verbesserungen erzielen. Das Papier trägt in gewisser Weise zum CAD-Verständigungsbereich bei, besonders bei der Fusion multimodaler Informationen bietet es wertvolle Erkundungen.