2025-11-12T05:37:10.018265

Text-Enhanced Panoptic Symbol Spotting in CAD Drawings

Liu, Gong, Li et al.
With the widespread adoption of Computer-Aided Design(CAD) drawings in engineering, architecture, and industrial design, the ability to accurately interpret and analyze these drawings has become increasingly critical. Among various subtasks, panoptic symbol spotting plays a vital role in enabling downstream applications such as CAD automation and design retrieval. Existing methods primarily focus on geometric primitives within the CAD drawings to address this task, but they face following major problems: they usually overlook the rich textual annotations present in CAD drawings and they lack explicit modeling of relationships among primitives, resulting in incomprehensive understanding of the holistic drawings. To fill this gap, we propose a panoptic symbol spotting framework that incorporates textual annotations. The framework constructs unified representations by jointly modeling geometric and textual primitives. Then, using visual features extract by pretrained CNN as the initial representations, a Transformer-based backbone is employed, enhanced with a type-aware attention mechanism to explicitly model the different types of spatial dependencies between various primitives. Extensive experiments on the real-world dataset demonstrate that the proposed method outperforms existing approaches on symbol spotting tasks involving textual annotations, and exhibits superior robustness when applied to complex CAD drawings.
academic

CAD 도면의 텍스트 강화 전체론적 기호 인식

기본 정보

  • 논문 ID: 2510.11091
  • 제목: Text-Enhanced Panoptic Symbol Spotting in CAD Drawings
  • 저자: Xianlin Liu, Yan Gong, Bohao Li, Jiajing Huang, Bowen Du, Junchen Ye, Liyan Xu
  • 분류: cs.CV cs.AI
  • 발표 시간: 2025년 10월 13일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.11091

초록

컴퓨터 보조 설계(CAD) 도면이 공학, 건축 및 산업 설계에 광범위하게 적용됨에 따라, 이러한 도면을 정확하게 해석하고 분석하는 능력이 점점 더 중요해지고 있습니다. 다양한 하위 작업 중에서 전체론적 기호 인식은 CAD 자동화 및 설계 검색 등 하위 응용을 지원하는 데 중요한 역할을 합니다. 기존 방법들은 주로 CAD 도면의 기하학적 기본 요소에 초점을 맞추고 있지만 두 가지 주요 문제에 직면해 있습니다: CAD 도면의 풍부한 텍스트 주석을 무시하는 경향이 있으며, 기본 요소 간의 관계에 대한 명시적 모델링이 부족하여 도면에 대한 포괄적인 이해가 불완전합니다. 이러한 공백을 메우기 위해 본 논문은 텍스트 주석을 융합하는 전체론적 기호 인식 프레임워크를 제안하며, 기하학적 및 텍스트 기본 요소를 공동으로 모델링하여 통합 표현을 구축하고, Transformer 기반 백본 네트워크와 유형 인식 주의 메커니즘을 채택하여 서로 다른 유형의 기본 요소 간 공간 의존성을 명시적으로 모델링합니다.

연구 배경 및 동기

문제 정의

본 논문이 해결하려는 핵심 문제는 CAD 도면의 전체론적 기호 인식(Panoptic Symbol Spotting) 작업이며, 이는 인스턴스 수준의 기호 감지와 의미론적 인식을 통합하여 가산 가능한 "물체" 범주(예: 문, 창, 가구)와 불가산 "재료" 범주(예: 벽, 난간 등)를 모두 인식해야 합니다.

문제의 중요성

  1. 산업 수요: CAD 도면은 기계 제조, 건축, 전자 및 항공우주 산업 등에 광범위하게 적용되며, 정확한 기호 인식은 지능형 설계 해석, 자동화 모델링 및 도면 검색을 구현하기 위한 기초입니다.
  2. 기술적 과제: 실제 CAD 도면은 규모가 크고 구조가 복잡하여 기하학적 구조와 의미론적 정보를 동시에 이해해야 합니다.
  3. 응용 가치: CAD 자동화, 설계 검색 등 하위 응용을 지원합니다.

기존 방법의 한계

  1. 텍스트 정보 무시: 기존 방법들은 주로 기하학적 기본 요소(선, 호, 원 등)에 초점을 맞추고 CAD 도면의 풍부한 텍스트 주석을 무시하며, 이러한 텍스트에는 치수 레이블, 기호 이름 및 기능 설명 등 중요한 의미론적 정보가 포함되어 있습니다.
  2. 관계 모델링 부족: 서로 다른 유형의 기본 요소 간 관계에 대한 명시적 모델링이 부족하여 고수준의 구조적 의존성을 포착할 수 없으며, 표현 능력과 모델 성능을 제한합니다.

연구 동기

텍스트 주석은 CAD 도면에서 기하학적 레이아웃을 보완하는 의미론적 단서를 제공하며, 설계 의도를 이해하기 위한 중요한 정보 소스입니다. 텍스트 주석을 기하학적 기본 요소와 통합함으로써 더욱 포괄적인 표현을 구축할 수 있으며, 복잡한 장면에서의 인식 정확도를 향상시킬 수 있습니다.

핵심 기여

  1. 텍스트 정보를 CAD 기호 인식에 처음 통합: 텍스트 주석을 주요 의미론적 양식으로 CAD 기호 인식 작업에 도입하여 텍스트와 기하학적 기본 요소를 결합함으로써 도면 내용에 대한 더욱 풍부한 이해를 획득합니다.
  2. 유형 인식 주의 메커니즘 제안: 서로 다른 유형의 기본 요소 간 공간 관계를 명시적으로 모델링하기 위해 유형 인식 주의 메커니즘을 설계하여 레이아웃 구조에 대한 모델의 이해 능력을 강화합니다.
  3. 실제 데이터셋에서 최적 성능 달성: 텍스트 주석을 포함하는 FloorPlanCAD 데이터셋에서 최첨단 성능을 달성하여 방법의 실용성과 안정성을 검증합니다.

방법 상세 설명

작업 정의

  • 입력: 벡터화된 CAD 도면 D, 기하학적 기본 요소(선, 호, 원, 타원)와 텍스트 주석 포함
  • 기본 요소 표현: 각 기본 요소 ei는 의미론적 범주 li 및 인스턴스 인덱스 zi와 연관됨
  • 출력: 각 기본 요소의 의미론적 레이블 l̂i 및 인스턴스 인덱스 ẑi 예측

모델 아키텍처

1. 그래프 구성 모듈

CAD 도면을 기본 그래픽 기본 요소 집합 D = {pk}로 분해하며, 기하학적 기본 요소와 텍스트 주석을 포함하여 그래프의 정점으로 사용합니다. 다양한 텍스트 기본 요소를 처리하기 위해 텍스트 통합 모듈을 도입하여 의미론적으로 의미 있는 고품질 주석을 보존합니다.

2. 특징 초기화

  • 시각적 특징 추출: 사전 학습된 CNN(HRNetV2-W48)을 사용하여 래스터화된 CAD 이미지에서 특징 맵 F를 추출합니다.
  • 기본 요소 특징: 쌍선형 보간을 통해 특징 맵에서 초기 특징 임베딩 f_i^0 = εCNN(F, ci)을 샘플링합니다.
  • 엣지 특징 구성: 서로 다른 유형의 기본 요소 간 공간 관계를 설명하는 엣지 특징을 수동으로 구성합니다.

3. 유형 인식 주의 메커니즘

엣지 특징 인코딩:

  • 유형 지시자 t: 노드 쌍 범주(기하학-기하학, 기하학-텍스트, 텍스트-텍스트)를 나타냅니다.
  • 기하학적 관계 벡터 e ∈ R^7: 상대 거리, 위치 및 각도를 포착합니다.
  • 완전한 엣지 특징: E = (t∥e) ∈ R^{N×k×8}

주의 계산:

원본 주의 점수: α_ij^l = (q_i^l · k_j^l) / √(d/h)
다중 헤드 주의: A^s = Concat(a_ij^1, a_ij^2, ..., a_ij^h)
구조 임베딩: T^s = MLP(E)
강화된 주의: f^s = Softmax(A^s + T^s)f^{s-1}

4. 손실 함수

의미론적 분류 및 인스턴스 분할을 공동으로 최적화합니다:

L = λ_sem · L_sem + λ_ins · L_ins
L_ins = (1/Σm_i) Σ_i ∥o_i - (c_i - p_i)∥ · m_i

여기서 L_sem은 교차 엔트로피 손실이고, L_ins는 인스턴스 중심 회귀 손실입니다.

기술적 혁신 포인트

  1. 텍스트 기본 요소 통합: 텍스트 주석을 독립적인 기본 요소 유형으로 그래프 구조에 처음 포함시켜 의미론적 지도를 제공합니다.
  2. 유형 인식 모델링: 유형 지시자를 통해 서로 다른 기본 요소 쌍의 관계 유형을 명시적으로 구분합니다.
  3. 구조화된 주의: 엣지 특징을 편향 항으로 주의 계산에 통합하여 공간 관계 모델링을 강화합니다.

실험 설정

데이터셋

  • FloorPlanCAD 데이터셋: 15,663개의 CAD 도면, 풍부한 텍스트 주석 포함
  • 범주: 35개의 물체 범주, 가산 가능한 "물체" 클래스와 불가산 "재료" 클래스 구분
  • 주석: 선 수준 주석, 물체 클래스는 범주 레이블 및 인스턴스 인덱스 포함, 재료 클래스는 의미론적 범주만 포함
  • 분할: 14m×14m 규칙 블록으로 훈련 및 평가 용이

평가 지표

CAD 기호 인식을 위한 전문 평가 지표를 채택합니다:

  • 인식 품질(RQ): RQ = |TP|/(|TP| + 0.5|FP| + 0.5|FN|)
  • 분할 품질(SQ): SQ = Σ_{(s_p,s_g)∈TP} IoU(s_p,s_g) / |TP|
  • 전체론적 품질(PQ): PQ = RQ × SQ

비교 방법

  • CADTransformer: Transformer 기반 기준 방법
  • CADTransformer + text: 텍스트를 추가한 기준 변형

구현 세부사항

  • 최적화기: Adam (β1=0.9, β2=0.99, lr=2.5×10^-5)
  • 아키텍처: 6개의 주의 헤드, 각 기본 요소당 최대 16개의 이웃
  • 훈련: 50개 에포크, 배치 크기 2, 2개의 RTX 3090 GPU
  • 손실 가중치: λ_sem=1, λ_ins=0.3

실험 결과

주요 결과

방법PQRQSQF1
CADTransformer0.71520.82980.86190.7754
CADTransformer + text0.73520.84040.87480.7834
본 방법0.73710.83810.87940.7877

주요 발견:

  1. 텍스트 통합으로 PQ가 0.7152에서 0.7352로 향상되어 의미론적 특징의 긍정적 역할을 증명합니다.
  2. 유형 인식 주의 메커니즘이 PQ를 0.7371로 추가 향상시킵니다.
  3. 모든 평가 지표에서 기준 방법을 능가합니다.

범주별 분석

논문은 32개 범주의 상세한 성능 분석을 제공하며, 주요 발견은 다음과 같습니다:

  • 우수 범주: 문 범주(단일문, 이중문, 슬라이딩 문), 가구 범주(소파, 침대, 의자) 등에서 현저한 향상
  • 도전 범주: 기하학적 외형이 복잡하고 주석이 표준화되지 않은 베이 윈도우 등 범주에서 성능이 약간 저하
  • 전반적 추세: 대부분의 기호 유형에서 더 나은 성능을 보여 방법의 일반화 능력을 증명합니다.

사례 분석

시각화 결과는 CADTransformer와 비교하여 본 방법이 복잡한 영역에서 더 적은 오분류를 생성하며, 특히 기준 모델을 혼동하기 쉬운 도전적 영역에서 더욱 견고한 성능을 보여줍니다.

관련 연구

CAD 기호 인식 방법 분류

  1. 픽셀 기반 방법: 기호 인식을 이미지 작업으로 취급하여 객체 감지 또는 이미지 분할 기술을 사용하지만 기하학적 정확도를 손실하고 계산 비용이 높습니다.
  2. 기본 요소 기반 방법: 기하학적 기본 요소를 직접 조작하여 그래프 신경망 또는 Transformer를 사용하여 모델링하며, 구조 정보를 유지하지만 복잡한 계층적 관계를 모델링하기 어렵습니다.
  3. 포인트 클라우드 기반 방법: 기본 요소를 고차원 포인트 클라우드 구조로 추상화하여 풍부한 기하학적 정보를 포착하지만 의미론적 단서를 무시하는 경향이 있습니다.

본 논문의 위치

본 논문은 기본 요소 기반 방법에 속하지만 혁신적으로 텍스트 의미론적 정보를 융합하여 기존 방법의 다중 양식 이해 측면의 공백을 메웁니다.

결론 및 논의

주요 결론

  1. 텍스트 주석은 CAD 도면의 중요한 의미론적 정보 소스이며, 텍스트를 융합하면 기호 인식 성능을 현저히 향상시킬 수 있습니다.
  2. 유형 인식 주의 메커니즘은 서로 다른 유형의 기본 요소 간 공간 의존성을 효과적으로 모델링할 수 있습니다.
  3. 기하학적 및 텍스트 모델링의 공동 수행은 CAD 도면에 대한 더욱 포괄적인 이해를 제공합니다.

한계

  1. 텍스트 품질 의존성: 방법의 성능은 텍스트 주석의 품질과 일관성에 의존합니다.
  2. 계산 복잡도: 텍스트 기본 요소 및 유형 인식 메커니즘 추가로 인한 계산 오버헤드 증가 가능성
  3. 데이터셋 제한: 건축 평면도 데이터셋에서만 검증되었으며, 다른 CAD 분야의 일반화 능력은 미검증 상태입니다.

향후 방향

  1. 다른 CAD 분야(기계, 전자 등)로 확장
  2. 더욱 효율적인 다중 양식 융합 메커니즘 연구
  3. 표시된 데이터에 대한 의존성을 줄이기 위한 자기 감독 학습 탐색

심층 평가

장점

  1. 문제 식별 정확성: 기존 방법이 텍스트 정보를 무시하는 핵심 문제를 정확하게 식별합니다.
  2. 방법 설계의 합리성: 유형 인식 주의 메커니즘 설계가 정교하며 서로 다른 유형의 관계를 명시적으로 모델링할 수 있습니다.
  3. 충분한 실험: 포괄적인 비교 실험, 소거 실험 및 사례 분석을 제공합니다.
  4. 성능 향상이 현저함: 실제 대규모 데이터셋에서 명백한 개선을 달성합니다.
  5. 명확한 작문: 논문 구조가 명확하고 기술 설명이 정확합니다.

부족한 점

  1. 제한된 혁신: 주요 기여는 기존 기술(Transformer + 텍스트)을 새로운 분야에 적용하는 것입니다.
  2. 이론적 분석 부족: 텍스트 정보가 효과적인 이유에 대한 심층적인 이론적 분석이 부족합니다.
  3. 계산 오버헤드 미분석: 계산 복잡도 및 실행 시간 분석이 제공되지 않습니다.
  4. 일반화 검증 부족: 단일 데이터셋에서만 검증되었으며 교차 도메인 실험이 부족합니다.

영향력

  1. 학술적 가치: CAD 이해 분야에 다중 양식 관점을 도입하여 후속 연구에 영감을 줄 수 있습니다.
  2. 실용적 가치: 방법이 간단하고 효과적이며 산업 응용이 용이합니다.
  3. 재현성: 구현 세부사항이 상세하게 설명되어 있어 우수한 재현성을 갖습니다.

적용 시나리오

  1. 건축 CAD 분석: 특히 풍부한 텍스트 주석을 포함하는 건축 평면도에 적합합니다.
  2. 공학 도면 이해: 다른 텍스트 표시가 있는 공학 도면으로 확장 가능합니다.
  3. CAD 자동화: CAD 자동화 및 지능형 설계 시스템을 위한 기초 기술 지원을 제공합니다.

참고 문헌

논문은 75개의 관련 문헌을 인용하며, CAD 분석, 컴퓨터 비전, 심층 학습 등 여러 분야의 중요한 연구를 포괄하고 있어 문헌 조사가 상당히 포괄적입니다. FloorPlanCAD 데이터셋, CADTransformer 등 직접 관련 연구에 중점을 두고 있습니다.


전반적 평가: 이는 기술이 견고하고 문제 정의가 명확한 응용형 논문입니다. 기술적 혁신이 상대적으로 제한적이지만, 실제 문제를 정확하게 식별하고 효과적인 해결책을 제시하며 실제 데이터셋에서 현저한 개선을 달성했습니다. 논문은 특히 다중 양식 정보 융합 측면에서 CAD 이해 분야에 가치 있는 탐색을 제공하며 해당 분야에 일정한 추진력을 갖습니다.