2025-11-14T21:10:11.633482

Layout-Independent License Plate Recognition via Integrated Vision and Language Models

Shabaninia, Asadi-zeydabadi, Nezamabadi-pour

This work presents a pattern-aware framework for automatic license plate recognition (ALPR), designed to operate reliably across diverse plate layouts and challenging real-world conditions. The proposed system consists of a modern, high-precision detection network followed by a recognition stage that integrates a transformer-based vision model with an iterative language modelling mechanism. This unified recognition stage performs character identification and post-OCR refinement in a seamless process, learning the structural patterns and formatting rules specific to license plates without relying on explicit heuristic corrections or manual layout classification. Through this design, the system jointly optimizes visual and linguistic cues, enables iterative refinement to improve OCR accuracy under noise, distortion, and unconventional fonts, and achieves layout-independent recognition across multiple international datasets (IR-LPR, UFPR-ALPR, AOLP). Experimental results demonstrate superior accuracy and robustness compared to recent segmentation-free approaches, highlighting how embedding pattern analysis within the recognition stage bridges computer vision and language modelling for enhanced adaptability in intelligent transportation and surveillance applications.

academic

레이아웃 독립적 번호판 인식: 통합 비전 및 언어 모델을 통한 접근

기본 정보

논문 ID: 2510.10533
제목: Layout-Independent License Plate Recognition via Integrated Vision and Language Models
저자: Elham Shabaninia, Fatemeh Asadi-zeydabadi, Hossein Nezamabadi-pour
분류: cs.CV (컴퓨터 비전)
기관: Graduate University of Advanced Technology & Shahid Bahonar University of Kerman, Iran
논문 링크: https://arxiv.org/abs/2510.10533

초록

본 연구는 다양한 번호판 레이아웃과 도전적인 실제 환경 조건에서 안정적으로 작동하는 패턴 인식 자동 번호판 인식(ALPR) 프레임워크를 제안한다. 본 시스템은 현대적 고정밀 검출 네트워크와 통합 트랜스포머 비전 모델 및 반복적 언어 모델링 메커니즘으로 구성된 인식 단계로 이루어진다. 이 통합 인식 단계는 원활한 프로세스에서 문자 인식과 OCR 후처리 정제를 수행하며, 명시적 휴리스틱 보정이나 수동 레이아웃 분류에 의존하지 않고 번호판 특유의 구조 패턴과 형식 규칙을 학습한다. 이러한 설계를 통해 시스템은 비전과 언어 단서를 공동으로 최적화하여 반복적 정제를 실현하고, 노이즈, 왜곡 및 비정상적 폰트 조건에서 OCR 정확도를 향상시키며, 여러 국제 데이터셋에서 레이아웃 독립적 인식을 달성한다.

연구 배경 및 동기

문제 정의

전통적인 자동 번호판 인식(ALPR) 시스템은 다음과 같은 핵심 과제에 직면해 있다:

다단계 오류 누적: 전통적 ALPR 시스템은 번호판 검출(LPD), 문자 분할(CS) 및 광학 문자 인식(OCR)의 세 가지 독립적 모듈로 구성되며, 각 단계의 오류가 다음 단계로 전파된다
레이아웃 의존성: 기존 시스템은 일반적으로 특정 지역의 번호판 형식에 대한 수동 규칙 설계 및 후처리 보정이 필요하다
국제 적응성 부족: 서로 다른 국가 및 지역의 번호판 형식, 문자 집합, 번호 체계에는 거대한 차이가 존재한다(예: 미국 각 주의 서로 다른 형식("1ABC234" vs "ABC-1234"), 영국의 흰색 앞배경 노란색 뒷배경 등)

연구 동기

지능형 교통 시스템(ITS)의 급속한 발전은 ALPR 시스템에 더 높은 요구사항을 제시한다:

더 복잡한 실제 환경 시나리오(폐색, 불균일한 조명, 회전, 흐림) 처리 필요
시스템이 지역 간, 언어 간 일반화 능력을 갖춰야 함
높은 수요의 교통 모니터링 애플리케이션을 지원하기 위한 실시간 성능 필요

기존 방법의 한계

분할 기반 방법: 문자 분할 품질에 의존하며, 노이즈와 변형에 쉽게 영향을 받는다
분할 없는 방법: 분할 문제를 회피하지만, 여전히 특정 레이아웃에 대한 휴리스틱 후처리 규칙이 필요하다
통합 프레임워크 부재: 비전 인식과 언어 보정은 일반적으로 분리된 모듈이며, 공동 최적화가 불가능하다

핵심 기여

레이아웃 독립적 인식 아키텍처: 구조 패턴 분석을 인식 프로세스에 내장하여 수동 특성 공학이나 레이아웃 특정 휴리스틱 규칙이 필요 없다
반복적 정제 메커니즘: 비전-언어 단서의 공동 최적화를 활용하여 도전적 조건에서 OCR 결과를 향상시킨다
교차 데이터셋 검증: IR-LPR, UFPR-ALPR 및 AOLP 세 가지 국제 데이터셋에서 확장성을 검증했다
분할 없는 작동: 전통적 ALPR의 병목을 제거하면서 정확도와 견고성을 향상시킨다

방법론 상세 설명

작업 정의

입력: 번호판을 포함하는 차량 이미지 출력: 번호판 영역의 정확한 문자 시퀀스 제약: 서로 다른 번호판 레이아웃, 폰트, 언어 및 환경 조건 처리 필요

모델 아키텍처

전체 프레임워크

시스템은 2단계 설계를 채택한다:

번호판 검출 단계: YOLOv9를 사용한 고정밀 목표 검출
번호판 인식 단계: 비전 모델(VM)과 언어 모델(LM)을 통합한 통합 인식 프레임워크

1. 번호판 검출 네트워크 (YOLOv9)

YOLOv9 선택의 주요 장점:

향상된 백본 네트워크: 우수한 특성 추출을 위한 최적화된 합성곱 신경망 아키텍처 채택
개선된 검출 헤드: 경계 상자의 정밀도 및 재현율 향상
경로 집계 네트워크(PANet): 다양한 스케일 간 정보 흐름 개선
고급 후처리: 비극대값 억제(NMS) 및 최적화된 IoU 임계값 사용

2. 번호판 인식 네트워크

비전 모델(VM):

합성곱 트랜스포머(CvT) 아키텍처 채택

초기 특성 추출을 위한 ResNet45 합성곱 백본:

F_b = B(x) ∈ R^(h×w×d)
F_m = M(F_b) ∈ R^(h×w×d)

트랜스포머 위치 주의 메커니즘:

Q = PE(t) ∈ R^(h×w×d)
K = g(F_m) ∈ R^(h×w×d)  
V = H(F_m) ∈ R^(h×w×d)
F_v = Softmax(QK^T/√D)V

언어 모델(LM):

양방향 완형 채우기 네트워크(BCN) 채택
수정된 L층 트랜스포머 디코더
주요 설계 특징:
- 문자 벡터를 다중 헤드 주의 블록에 직접 입력
- 자기참조 방지를 위한 주의 마스크 사용:
```
M_ij = {0, i≠j; -∞, i=j}
```
- M회 반복 실행으로 비전 모델 예측을 점진적으로 정제

기술 혁신점

패턴 인식 설계: 번호판의 구조 패턴과 형식 제약 학습을 인식 루프에 내장
비전-언어 공동 최적화: 통합 인식 단계가 문자 인식과 출력 정제를 동시에 수행
반복적 정제 메커니즘: 언어 모델이 여러 반복을 통해 비전 인식 결과를 점진적으로 개선
레이아웃 자적응: 관련 이미지로 재훈련하기만 하면 새로운 번호판 레이아웃에 적응 가능

실험 설정

데이터셋

데이터셋	연도	이미지 수량	해상도	번호판 레이아웃	평가 프로토콜
IR-LPR	2022	20967 차량 이미지 48712 번호판 이미지	1280×1280	이란	예
UFPR-ALPR	2018	4500 차량 이미지	1920×1080	브라질	예
AOLP	2013	2049 차량 이미지	다양함	대만	아니오