2025-11-12T05:37:10.018265

Text-Enhanced Panoptic Symbol Spotting in CAD Drawings

Liu, Gong, Li et al.

With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.

academic

Détection Panoptique de Symboles Améliorée par Texte dans les Dessins CAO

Informations Fondamentales

ID de l'article: 2510.11091
Titre: Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
Auteurs: Xianlin Liu, Yan Gong, Bohao Li, Jiajing Huang, Bowen Du, Junchen Ye, Liyan Xu
Classification: cs.CV cs.AI
Date de publication: 13 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.11091

Résumé

Avec l'application généralisée des dessins de conception assistée par ordinateur (CAO) dans l'ingénierie, l'architecture et la conception industrielle, la capacité à interpréter et analyser avec précision ces dessins devient de plus en plus importante. Parmi les diverses sous-tâches, la détection panoptique de symboles joue un rôle crucial dans le soutien des applications en aval telles que l'automatisation CAO et la recherche de conceptions. Les méthodes existantes se concentrent principalement sur les primitives géométriques dans les dessins CAO pour résoudre cette tâche, mais font face à deux problèmes majeurs : elles ignorent généralement les annotations textuelles riches présentes dans les dessins CAO et manquent de modélisation explicite des relations entre primitives, ce qui entraîne une compréhension incomplète du dessin global. Pour combler cette lacune, cet article propose un cadre de détection panoptique de symboles fusionnant les annotations textuelles, construisant une représentation unifiée par modélisation conjointe des primitives géométriques et textuelles, en utilisant un réseau de base basé sur Transformer et un mécanisme d'attention sensible au type pour modéliser explicitement les dépendances spatiales entre primitives de différents types.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental abordé dans cet article est la tâche de détection panoptique de symboles (Panoptic Symbol Spotting) dans les dessins CAO, qui unifie la détection de symboles au niveau des instances et la reconnaissance sémantique, nécessitant d'identifier à la fois les catégories d'« objets » dénombrables (tels que portes, fenêtres, mobilier) et les catégories de « matériaux » indénombrables (tels que murs, rampes, etc.).

Importance du Problème

Demande industrielle: Les dessins CAO sont largement utilisés dans la fabrication mécanique, l'architecture, l'électronique et l'aérospatiale. La reconnaissance précise des symboles constitue la base de l'interprétation intelligente des conceptions, de la modélisation automatisée et de la recherche de dessins
Défis techniques: Les dessins CAO réels sont volumineux et structurellement complexes, nécessitant une compréhension simultanée des structures géométriques et des informations sémantiques
Valeur applicative: Soutient l'automatisation CAO, la recherche de conceptions et autres applications en aval

Limitations des Méthodes Existantes

Ignorance des informations textuelles: Les méthodes existantes se concentrent principalement sur les primitives géométriques (lignes, arcs, cercles, etc.), en ignorant les annotations textuelles riches dans les dessins CAO, qui contiennent des informations sémantiques importantes telles que les étiquettes de dimension, les noms de symboles et les descriptions fonctionnelles
Absence de modélisation des relations: Manque de modélisation explicite des relations entre primitives de différents types, incapacité à capturer les dépendances structurelles de haut niveau, limitant la capacité de représentation et les performances du modèle

Motivation de la Recherche

Les annotations textuelles dans les dessins CAO fournissent des indices sémantiques qui complètent la disposition géométrique et constituent une source d'information importante pour comprendre l'intention de conception. En intégrant les annotations textuelles avec les primitives géométriques, on peut construire une représentation plus complète et améliorer la précision de reconnaissance dans les scènes complexes.

Contributions Fondamentales

Première intégration d'informations textuelles dans la reconnaissance de symboles CAO: Introduction des annotations textuelles comme modalité sémantique clé dans la tâche de reconnaissance de symboles CAO, obtenant une compréhension plus riche du contenu des dessins en combinant les primitives textuelles et géométriques
Proposition d'un mécanisme d'attention sensible au type: Conception d'un mécanisme d'attention sensible au type pour modéliser explicitement les relations spatiales entre primitives de différents types, renforçant la capacité du modèle à comprendre les structures de disposition
Réalisation de performances optimales sur des ensembles de données réelles: Obtention de performances de pointe sur l'ensemble de données FloorPlanCAD contenant des annotations textuelles, validant l'utilité pratique et la stabilité de la méthode

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Dessin CAO vectorisé D, contenant des primitives géométriques (lignes, arcs, cercles, ellipses) et des annotations textuelles
Représentation des primitives: Chaque primitive ei est associée à une catégorie sémantique li et un indice d'instance zi
Sortie: Prédiction de l'étiquette sémantique l̂i et de l'indice d'instance ẑi pour chaque primitive

Architecture du Modèle

1. Module de Construction de Graphe

Décomposition du dessin CAO en ensemble de primitives graphiques élémentaires D = {pk}, incluant les primitives géométriques et les annotations textuelles, servant de sommets dans le graphe. Introduction d'un module d'intégration textuelle pour traiter les primitives textuelles diversifiées, en conservant les annotations de haute qualité avec une sémantique significative.

2. Initialisation des Caractéristiques

Extraction de caractéristiques visuelles: Utilisation d'un CNN pré-entraîné (HRNetV2-W48) pour extraire les cartes de caractéristiques F à partir d'images CAO rastérisées
Caractéristiques des primitives: Obtention des plongements de caractéristiques initiaux par interpolation bilinéaire à partir de la carte de caractéristiques f_i^0 = εCNN(F, ci)
Construction de caractéristiques d'arêtes: Construction manuelle de caractéristiques d'arêtes décrivant les relations spatiales entre primitives de différents types

3. Mécanisme d'Attention Sensible au Type

Codage des caractéristiques d'arêtes:

Indicateur de type t: Représente la catégorie de paires de nœuds (géométrie-géométrie, géométrie-texte, texte-texte)
Vecteur de relation géométrique e ∈ R^7: Capture la distance relative, la position et l'angle
Caractéristiques d'arêtes complètes: E = (t∥e) ∈ R^{N×k×8}

Calcul de l'attention:

Score d'attention brut: α_ij^l = (q_i^l · k_j^l) / √(d/h)
Attention multi-têtes: A^s = Concat(a_ij^1, a_ij^2, ..., a_ij^h)
Plongement structurel: T^s = MLP(E)
Attention améliorée: f^s = Softmax(A^s + T^s)f^{s-1}

4. Fonction de Perte

Optimisation conjointe de la classification sémantique et de la segmentation d'instances:

L = λ_sem · L_sem + λ_ins · L_ins
L_ins = (1/Σm_i) Σ_i ∥o_i - (c_i - p_i)∥ · m_i

où L_sem est la perte d'entropie croisée et L_ins est la perte de régression du centre d'instance.

Points d'Innovation Technique

Intégration des primitives textuelles: Première incorporation des annotations textuelles comme type de primitive indépendant dans la structure de graphe, fournissant une orientation sémantique
Modélisation sensible au type: Distinction explicite des types de relations entre différentes paires de primitives par des indicateurs de type
Attention structurée: Intégration des caractéristiques d'arêtes comme terme de biais dans le calcul de l'attention, renforçant la modélisation des relations spatiales

Configuration Expérimentale

Ensemble de Données

Ensemble de données FloorPlanCAD: 15 663 dessins CAO contenant des annotations textuelles riches
Catégories: 35 catégories d'objets, distinguant les classes d'« objets » dénombrables et les classes de « matériaux » indénombrables
Annotations: Annotations au niveau des lignes, les classes d'objets ayant des étiquettes de catégorie et des indices d'instance, les classes de matériaux ayant uniquement des catégories sémantiques
Partitionnement: Blocs réguliers de 14m×14m facilitant l'entraînement et l'évaluation

Métriques d'Évaluation

Utilisation de métriques d'évaluation spécialisées pour la reconnaissance de symboles CAO:

Qualité de Reconnaissance (RQ): RQ = |TP|/(|TP| + 0.5|FP| + 0.5|FN|)
Qualité de Segmentation (SQ): SQ = Σ_{(s_p,s_g)∈TP} IoU(s_p,s_g) / |TP|
Qualité Panoptique (PQ): PQ = RQ × SQ

Méthodes de Comparaison

CADTransformer: Méthode de base basée sur Transformer
CADTransformer + text: Variante de base avec ajout de texte

Détails d'Implémentation

Optimiseur: Adam (β1=0.9, β2=0.99, lr=2.5×10^-5)
Architecture: 6 têtes d'attention, maximum 16 voisins par primitive
Entraînement: 50 epochs, taille de lot 2, 2 GPU RTX 3090
Poids de perte: λ_sem=1, λ_ins=0.3

Résultats Expérimentaux

Résultats Principaux

Méthode	PQ	RQ	SQ	F1
CADTransformer	0.7152	0.8298	0.8619	0.7754
CADTransformer + text	0.7352	0.8404	0.8748	0.7834
Notre Méthode	0.7371	0.8381	0.8794	0.7877

Résultats Clés:

L'intégration textuelle améliore le PQ de 0.7152 à 0.7352, démontrant l'effet positif des caractéristiques sémantiques
Le mécanisme d'attention sensible au type améliore davantage le PQ à 0.7371
Surpasse les méthodes de base sur tous les indicateurs d'évaluation

Analyse au Niveau des Catégories

L'article fournit une analyse détaillée des performances sur 32 catégories, avec les résultats principaux suivants:

Catégories avantageuses: Améliorations significatives sur les portes (portes simples, doubles, coulissantes), les meubles (canapés, lits, chaises) et autres catégories
Catégories difficiles: Légère baisse de performance sur les baies vitrées et autres catégories avec géométrie complexe et annotations non standardisées
Tendance générale: Meilleures performances sur la plupart des types de symboles, démontrant la capacité de généralisation de la méthode

Analyse de Cas

Les résultats de visualisation montrent que par rapport à CADTransformer, notre méthode produit moins de mauvaises classifications dans les régions complexes, en particulier une robustesse améliorée dans les zones difficiles où le modèle de base se trompe facilement.

Travaux Connexes

Classification des Méthodes de Reconnaissance de Symboles CAO

Méthodes basées sur pixels: Traitement de la reconnaissance de symboles comme une tâche d'image, utilisant des techniques de détection d'objets ou de segmentation d'images, mais perdant la précision géométrique et entraînant des coûts de calcul élevés
Méthodes basées sur primitives: Opération directe sur les primitives géométriques, utilisant des réseaux de neurones graphiques ou Transformer pour la modélisation, préservant les informations structurelles mais ayant du mal à modéliser les relations hiérarchiques complexes
Méthodes basées sur nuages de points: Abstraction des primitives en structures de nuages de points de haute dimension, capturant des informations géométriques riches mais ignorant souvent les indices sémantiques

Positionnement de cet Article

Cet article appartient aux méthodes basées sur primitives, mais innove en fusionnant les informations sémantiques textuelles, comblant le vide des méthodes existantes dans la compréhension multimodale.

Conclusion et Discussion

Conclusions Principales

Les annotations textuelles constituent une source d'information sémantique importante dans les dessins CAO, et la fusion du texte peut améliorer significativement les performances de reconnaissance de symboles
Le mécanisme d'attention sensible au type peut modéliser efficacement les dépendances spatiales entre primitives de différents types
La modélisation conjointe de la géométrie et du texte fournit une compréhension plus complète des dessins CAO

Limitations

Dépendance à la qualité du texte: Les performances de la méthode dépendent de la qualité et de la cohérence des annotations textuelles
Complexité de calcul: L'ajout de primitives textuelles et du mécanisme sensible au type peut augmenter les frais généraux de calcul
Limitation des ensembles de données: Validation uniquement sur l'ensemble de données de plans d'étage architecturaux, la généralisation à d'autres domaines CAO reste à vérifier

Directions Futures

Extension à d'autres domaines CAO (mécanique, électronique, etc.)
Recherche de mécanismes de fusion multimodale plus efficaces
Exploration de l'apprentissage auto-supervisé pour réduire la dépendance aux données annotées

Évaluation Approfondie

Points Forts

Identification précise du problème: Identification exacte du problème clé d'ignorance des informations textuelles par les méthodes existantes
Conception de méthode rationnelle: Le mécanisme d'attention sensible au type est ingénieusement conçu et peut modéliser explicitement les relations de différents types
Expériences complètes: Fournit des expériences comparatives, des études d'ablation et des analyses de cas complètes
Améliorations significatives des performances: Améliorations évidentes sur un ensemble de données réel à grande échelle
Rédaction claire: Structure d'article claire, descriptions techniques précises

Insuffisances

Innovation limitée: Les contributions principales consistent à appliquer les technologies existantes (Transformer + texte) à un nouveau domaine
Manque d'analyse théorique: Absence d'analyse théorique approfondie sur les raisons de l'efficacité des informations textuelles
Absence d'analyse des frais généraux de calcul: Pas d'analyse de la complexité de calcul et du temps d'exécution
Vérification insuffisante de la généralisation: Validation sur un seul ensemble de données, manque d'expériences inter-domaines

Impact

Valeur académique: Introduction d'une perspective multimodale au domaine de la compréhension CAO, pouvant inspirer les recherches ultérieures
Valeur pratique: Méthode simple et efficace, facile à appliquer industriellement
Reproductibilité: Description détaillée des détails d'implémentation, bonne reproductibilité

Scénarios Applicables

Analyse CAO architecturale: Particulièrement adapté aux plans d'étage architecturaux contenant des annotations textuelles riches
Compréhension de dessins techniques: Peut être étendu à d'autres dessins techniques contenant des annotations textuelles
Automatisation CAO: Fournit un support technologique fondamental pour les systèmes d'automatisation CAO et de conception intelligente

Références

L'article cite 75 références connexes, couvrant plusieurs domaines tels que l'analyse CAO, la vision par ordinateur et l'apprentissage profond, avec une recherche bibliographique relativement complète. Les références clés incluent l'ensemble de données FloorPlanCAD et les travaux directement connexes comme CADTransformer.

Évaluation Globale: Ceci est un article d'application techniquement solide avec une définition de problème claire. Bien que l'innovation technique soit relativement limitée, il identifie précisément les problèmes pratiques et propose des solutions efficaces, réalisant des améliorations significatives sur des ensembles de données réelles. L'article apporte une certaine contribution au domaine de la compréhension CAO, en particulier en fournissant une exploration précieuse dans la fusion d'informations multimodales.