Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
Liu, Gong, Li et al.
With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
컴퓨터 보조 설계(CAD) 도면이 공학, 건축 및 산업 설계에 광범위하게 적용됨에 따라, 이러한 도면을 정확하게 해석하고 분석하는 능력이 점점 더 중요해지고 있습니다. 다양한 하위 작업 중에서 전체론적 기호 인식은 CAD 자동화 및 설계 검색 등 하위 응용을 지원하는 데 중요한 역할을 합니다. 기존 방법들은 주로 CAD 도면의 기하학적 기본 요소에 초점을 맞추고 있지만 두 가지 주요 문제에 직면해 있습니다: CAD 도면의 풍부한 텍스트 주석을 무시하는 경향이 있으며, 기본 요소 간의 관계에 대한 명시적 모델링이 부족하여 도면에 대한 포괄적인 이해가 불완전합니다. 이러한 공백을 메우기 위해 본 논문은 텍스트 주석을 융합하는 전체론적 기호 인식 프레임워크를 제안하며, 기하학적 및 텍스트 기본 요소를 공동으로 모델링하여 통합 표현을 구축하고, Transformer 기반 백본 네트워크와 유형 인식 주의 메커니즘을 채택하여 서로 다른 유형의 기본 요소 간 공간 의존성을 명시적으로 모델링합니다.
본 논문이 해결하려는 핵심 문제는 CAD 도면의 전체론적 기호 인식(Panoptic Symbol Spotting) 작업이며, 이는 인스턴스 수준의 기호 감지와 의미론적 인식을 통합하여 가산 가능한 "물체" 범주(예: 문, 창, 가구)와 불가산 "재료" 범주(예: 벽, 난간 등)를 모두 인식해야 합니다.
텍스트 주석은 CAD 도면에서 기하학적 레이아웃을 보완하는 의미론적 단서를 제공하며, 설계 의도를 이해하기 위한 중요한 정보 소스입니다. 텍스트 주석을 기하학적 기본 요소와 통합함으로써 더욱 포괄적인 표현을 구축할 수 있으며, 복잡한 장면에서의 인식 정확도를 향상시킬 수 있습니다.
논문은 75개의 관련 문헌을 인용하며, CAD 분석, 컴퓨터 비전, 심층 학습 등 여러 분야의 중요한 연구를 포괄하고 있어 문헌 조사가 상당히 포괄적입니다. FloorPlanCAD 데이터셋, CADTransformer 등 직접 관련 연구에 중점을 두고 있습니다.
전반적 평가: 이는 기술이 견고하고 문제 정의가 명확한 응용형 논문입니다. 기술적 혁신이 상대적으로 제한적이지만, 실제 문제를 정확하게 식별하고 효과적인 해결책을 제시하며 실제 데이터셋에서 현저한 개선을 달성했습니다. 논문은 특히 다중 양식 정보 융합 측면에서 CAD 이해 분야에 가치 있는 탐색을 제공하며 해당 분야에 일정한 추진력을 갖습니다.