Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
Liu, Gong, Li et al.
With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
academic
Détection Panoptique de Symboles Améliorée par Texte dans les Dessins CAO
Avec l'application généralisée des dessins de conception assistée par ordinateur (CAO) dans l'ingénierie, l'architecture et la conception industrielle, la capacité à interpréter et analyser avec précision ces dessins devient de plus en plus importante. Parmi les diverses sous-tâches, la détection panoptique de symboles joue un rôle crucial dans le soutien des applications en aval telles que l'automatisation CAO et la recherche de conceptions. Les méthodes existantes se concentrent principalement sur les primitives géométriques dans les dessins CAO pour résoudre cette tâche, mais font face à deux problèmes majeurs : elles ignorent généralement les annotations textuelles riches présentes dans les dessins CAO et manquent de modélisation explicite des relations entre primitives, ce qui entraîne une compréhension incomplète du dessin global. Pour combler cette lacune, cet article propose un cadre de détection panoptique de symboles fusionnant les annotations textuelles, construisant une représentation unifiée par modélisation conjointe des primitives géométriques et textuelles, en utilisant un réseau de base basé sur Transformer et un mécanisme d'attention sensible au type pour modéliser explicitement les dépendances spatiales entre primitives de différents types.
Le problème fondamental abordé dans cet article est la tâche de détection panoptique de symboles (Panoptic Symbol Spotting) dans les dessins CAO, qui unifie la détection de symboles au niveau des instances et la reconnaissance sémantique, nécessitant d'identifier à la fois les catégories d'« objets » dénombrables (tels que portes, fenêtres, mobilier) et les catégories de « matériaux » indénombrables (tels que murs, rampes, etc.).
Demande industrielle: Les dessins CAO sont largement utilisés dans la fabrication mécanique, l'architecture, l'électronique et l'aérospatiale. La reconnaissance précise des symboles constitue la base de l'interprétation intelligente des conceptions, de la modélisation automatisée et de la recherche de dessins
Défis techniques: Les dessins CAO réels sont volumineux et structurellement complexes, nécessitant une compréhension simultanée des structures géométriques et des informations sémantiques
Valeur applicative: Soutient l'automatisation CAO, la recherche de conceptions et autres applications en aval
Ignorance des informations textuelles: Les méthodes existantes se concentrent principalement sur les primitives géométriques (lignes, arcs, cercles, etc.), en ignorant les annotations textuelles riches dans les dessins CAO, qui contiennent des informations sémantiques importantes telles que les étiquettes de dimension, les noms de symboles et les descriptions fonctionnelles
Absence de modélisation des relations: Manque de modélisation explicite des relations entre primitives de différents types, incapacité à capturer les dépendances structurelles de haut niveau, limitant la capacité de représentation et les performances du modèle
Les annotations textuelles dans les dessins CAO fournissent des indices sémantiques qui complètent la disposition géométrique et constituent une source d'information importante pour comprendre l'intention de conception. En intégrant les annotations textuelles avec les primitives géométriques, on peut construire une représentation plus complète et améliorer la précision de reconnaissance dans les scènes complexes.
Première intégration d'informations textuelles dans la reconnaissance de symboles CAO: Introduction des annotations textuelles comme modalité sémantique clé dans la tâche de reconnaissance de symboles CAO, obtenant une compréhension plus riche du contenu des dessins en combinant les primitives textuelles et géométriques
Proposition d'un mécanisme d'attention sensible au type: Conception d'un mécanisme d'attention sensible au type pour modéliser explicitement les relations spatiales entre primitives de différents types, renforçant la capacité du modèle à comprendre les structures de disposition
Réalisation de performances optimales sur des ensembles de données réelles: Obtention de performances de pointe sur l'ensemble de données FloorPlanCAD contenant des annotations textuelles, validant l'utilité pratique et la stabilité de la méthode
Décomposition du dessin CAO en ensemble de primitives graphiques élémentaires D = {pk}, incluant les primitives géométriques et les annotations textuelles, servant de sommets dans le graphe. Introduction d'un module d'intégration textuelle pour traiter les primitives textuelles diversifiées, en conservant les annotations de haute qualité avec une sémantique significative.
Extraction de caractéristiques visuelles: Utilisation d'un CNN pré-entraîné (HRNetV2-W48) pour extraire les cartes de caractéristiques F à partir d'images CAO rastérisées
Caractéristiques des primitives: Obtention des plongements de caractéristiques initiaux par interpolation bilinéaire à partir de la carte de caractéristiques f_i^0 = εCNN(F, ci)
Construction de caractéristiques d'arêtes: Construction manuelle de caractéristiques d'arêtes décrivant les relations spatiales entre primitives de différents types
Intégration des primitives textuelles: Première incorporation des annotations textuelles comme type de primitive indépendant dans la structure de graphe, fournissant une orientation sémantique
Modélisation sensible au type: Distinction explicite des types de relations entre différentes paires de primitives par des indicateurs de type
Attention structurée: Intégration des caractéristiques d'arêtes comme terme de biais dans le calcul de l'attention, renforçant la modélisation des relations spatiales
Ensemble de données FloorPlanCAD: 15 663 dessins CAO contenant des annotations textuelles riches
Catégories: 35 catégories d'objets, distinguant les classes d'« objets » dénombrables et les classes de « matériaux » indénombrables
Annotations: Annotations au niveau des lignes, les classes d'objets ayant des étiquettes de catégorie et des indices d'instance, les classes de matériaux ayant uniquement des catégories sémantiques
Partitionnement: Blocs réguliers de 14m×14m facilitant l'entraînement et l'évaluation
L'article fournit une analyse détaillée des performances sur 32 catégories, avec les résultats principaux suivants:
Catégories avantageuses: Améliorations significatives sur les portes (portes simples, doubles, coulissantes), les meubles (canapés, lits, chaises) et autres catégories
Catégories difficiles: Légère baisse de performance sur les baies vitrées et autres catégories avec géométrie complexe et annotations non standardisées
Tendance générale: Meilleures performances sur la plupart des types de symboles, démontrant la capacité de généralisation de la méthode
Les résultats de visualisation montrent que par rapport à CADTransformer, notre méthode produit moins de mauvaises classifications dans les régions complexes, en particulier une robustesse améliorée dans les zones difficiles où le modèle de base se trompe facilement.
Méthodes basées sur pixels: Traitement de la reconnaissance de symboles comme une tâche d'image, utilisant des techniques de détection d'objets ou de segmentation d'images, mais perdant la précision géométrique et entraînant des coûts de calcul élevés
Méthodes basées sur primitives: Opération directe sur les primitives géométriques, utilisant des réseaux de neurones graphiques ou Transformer pour la modélisation, préservant les informations structurelles mais ayant du mal à modéliser les relations hiérarchiques complexes
Méthodes basées sur nuages de points: Abstraction des primitives en structures de nuages de points de haute dimension, capturant des informations géométriques riches mais ignorant souvent les indices sémantiques
Cet article appartient aux méthodes basées sur primitives, mais innove en fusionnant les informations sémantiques textuelles, comblant le vide des méthodes existantes dans la compréhension multimodale.
Les annotations textuelles constituent une source d'information sémantique importante dans les dessins CAO, et la fusion du texte peut améliorer significativement les performances de reconnaissance de symboles
Le mécanisme d'attention sensible au type peut modéliser efficacement les dépendances spatiales entre primitives de différents types
La modélisation conjointe de la géométrie et du texte fournit une compréhension plus complète des dessins CAO
Dépendance à la qualité du texte: Les performances de la méthode dépendent de la qualité et de la cohérence des annotations textuelles
Complexité de calcul: L'ajout de primitives textuelles et du mécanisme sensible au type peut augmenter les frais généraux de calcul
Limitation des ensembles de données: Validation uniquement sur l'ensemble de données de plans d'étage architecturaux, la généralisation à d'autres domaines CAO reste à vérifier
Identification précise du problème: Identification exacte du problème clé d'ignorance des informations textuelles par les méthodes existantes
Conception de méthode rationnelle: Le mécanisme d'attention sensible au type est ingénieusement conçu et peut modéliser explicitement les relations de différents types
Expériences complètes: Fournit des expériences comparatives, des études d'ablation et des analyses de cas complètes
Améliorations significatives des performances: Améliorations évidentes sur un ensemble de données réel à grande échelle
L'article cite 75 références connexes, couvrant plusieurs domaines tels que l'analyse CAO, la vision par ordinateur et l'apprentissage profond, avec une recherche bibliographique relativement complète. Les références clés incluent l'ensemble de données FloorPlanCAD et les travaux directement connexes comme CADTransformer.
Évaluation Globale: Ceci est un article d'application techniquement solide avec une définition de problème claire. Bien que l'innovation technique soit relativement limitée, il identifie précisément les problèmes pratiques et propose des solutions efficaces, réalisant des améliorations significatives sur des ensembles de données réelles. L'article apporte une certaine contribution au domaine de la compréhension CAO, en particulier en fournissant une exploration précieuse dans la fusion d'informations multimodales.