2025-11-14T21:10:11.633482

Layout-Independent License Plate Recognition via Integrated Vision and Language Models

Shabaninia, Asadi-zeydabadi, Nezamabadi-pour

This work presents a pattern-aware framework for automatic license plate recognition (ALPR), designed to operate reliably across diverse plate layouts and challenging real-world conditions. The proposed system consists of a modern, high-precision detection network followed by a recognition stage that integrates a transformer-based vision model with an iterative language modelling mechanism. This unified recognition stage performs character identification and post-OCR refinement in a seamless process, learning the structural patterns and formatting rules specific to license plates without relying on explicit heuristic corrections or manual layout classification. Through this design, the system jointly optimizes visual and linguistic cues, enables iterative refinement to improve OCR accuracy under noise, distortion, and unconventional fonts, and achieves layout-independent recognition across multiple international datasets (IR-LPR, UFPR-ALPR, AOLP). Experimental results demonstrate superior accuracy and robustness compared to recent segmentation-free approaches, highlighting how embedding pattern analysis within the recognition stage bridges computer vision and language modelling for enhanced adaptability in intelligent transportation and surveillance applications.

academic

Распознавание номерных знаков, независимое от макета, с использованием интегрированных моделей зрения и языка

Основная информация

ID статьи: 2510.10533
Название: Layout-Independent License Plate Recognition via Integrated Vision and Language Models
Авторы: Elham Shabaninia, Fatemeh Asadi-zeydabadi, Hossein Nezamabadi-pour
Классификация: cs.CV (Компьютерное зрение)
Учреждения: Graduate University of Advanced Technology & Shahid Bahonar University of Kerman, Иран
Ссылка на статью: https://arxiv.org/abs/2510.10533

Аннотация

В данном исследовании предлагается структурно-осведомленная система автоматического распознавания номерных знаков (ALPR), предназначенная для надежной работы при разнообразных макетах номерных знаков и сложных условиях реального мира. Система состоит из современной высокоточной сети обнаружения и этапа распознавания, интегрирующего трансформер-модель зрения с итеративным механизмом языкового моделирования. Этот унифицированный этап распознавания выполняет распознавание символов и уточнение после OCR в едином процессе, изучая структурные закономерности и правила форматирования, специфичные для номерных знаков, без необходимости в явных эвристических коррекциях или ручной классификации макетов. Благодаря такому дизайну система совместно оптимизирует визуальные и языковые сигналы, обеспечивая итеративное уточнение для повышения точности OCR при наличии шума, искажений и нестандартных шрифтов, достигая распознавания, независимого от макета, на нескольких международных наборах данных.

Исследовательский контекст и мотивация

Определение проблемы

Традиционные системы автоматического распознавания номерных знаков (ALPR) сталкиваются со следующими основными вызовами:

Накопление ошибок на нескольких этапах: Традиционные системы ALPR состоят из трех независимых модулей — обнаружения номерного знака (LPD), сегментации символов (CS) и оптического распознавания символов (OCR), где ошибки на каждом этапе распространяются на следующий
Зависимость от макета: Существующие системы обычно требуют ручного проектирования правил и постобработки для конкретных региональных форматов номерных знаков
Плохая международная адаптивность: Различные страны и регионы имеют огромные различия в форматах номерных знаков, наборах символов и системах нумерации, например, различные форматы в американских штатах ("1ABC234" vs "ABC-1234"), белый передний и желтый задний фон в Великобритании и т.д.

Исследовательская мотивация

Быстрое развитие интеллектуальных транспортных систем (ITS) предъявляет повышенные требования к системам ALPR:

Необходимость обработки более сложных сценариев реального мира (окклюзия, неравномерное освещение, поворот, размытие)
Требование к системе обладать способностью к обобщению между регионами и языками
Необходимость в производительности в реальном времени для поддержки высокотребовательных приложений дорожного мониторинга

Ограничения существующих методов

Методы на основе сегментации: Зависят от качества сегментации символов, подвержены влиянию шума и деформации
Методы без сегментации: Хотя избегают проблем сегментации, все еще требуют эвристических правил постобработки для конкретных макетов
Отсутствие унифицированной структуры: Визуальное распознавание и языковая коррекция обычно являются отдельными модулями и не могут быть совместно оптимизированы

Основные вклады

Архитектура распознавания, независимая от макета: Встраивание анализа структурных закономерностей в процесс распознавания без необходимости в ручной разработке признаков или макет-специфичных эвристических правилах
Механизм итеративного уточнения: Совместная оптимизация визуальных и языковых сигналов для улучшения результатов OCR в сложных условиях
Проверка на нескольких наборах данных: Валидация масштабируемости на трех международных наборах данных — IR-LPR, UFPR-ALPR и AOLP
Операция без сегментации: Устранение узкого места традиционного ALPR при одновременном повышении точности и надежности

Подробное описание методологии

Определение задачи

Входные данные: Изображение транспортного средства, содержащее номерный знак Выходные данные: Точная последовательность символов в области номерного знака Ограничения: Необходимость обработки различных макетов номерных знаков, шрифтов, языков и условий окружающей среды

Архитектура модели

Общая структура

Система использует двухэтапный дизайн:

Этап обнаружения номерного знака: Использование YOLOv9 для высокоточного обнаружения объектов
Этап распознавания номерного знака: Унифицированная структура распознавания, интегрирующая визуальную модель (VM) и языковую модель (LM)

1. Сеть обнаружения номерных знаков (YOLOv9)

Ключевые преимущества выбора YOLOv9:

Улучшенная магистральная сеть: Использование оптимизированной архитектуры сверточной нейронной сети для превосходного извлечения признаков
Улучшенная голова обнаружения: Повышение точности и полноты ограничивающих рамок
Сеть агрегации пути (PANet): Улучшение потока информации между различными масштабами
Продвинутая постобработка: Использование подавления немаксимальных значений (NMS) и оптимизированных порогов IoU

2. Сеть распознавания номерных знаков

Визуальная модель (VM):

Использование архитектуры сверточного трансформера (CvT)
Магистраль ResNet45 для начального извлечения признаков:
```
F_b = B(x) ∈ R^(h×w×d)
F_m = M(F_b) ∈ R^(h×w×d)
```

Механизм позиционного внимания трансформера:

Q = PE(t) ∈ R^(h×w×d)
K = g(F_m) ∈ R^(h×w×d)  
V = H(F_m) ∈ R^(h×w×d)
F_v = Softmax(QK^T/√D)V

Языковая модель (LM):

Использование двунаправленной сети заполнения пропусков (BCN)
Модифицированный L-слойный декодер трансформера
Ключевые особенности дизайна:
- Прямой ввод векторов символов в блоки многоголового внимания
- Использование маски внимания для предотвращения самоссылок:
```
M_ij = {0, i≠j; -∞, i=j}
```
- Итеративное выполнение M раз для постепенного уточнения предсказаний визуальной модели

Технические инновации

Структурно-осведомленный дизайн: Встраивание обучения структурных закономерностей и ограничений формата номерных знаков в цикл распознавания
Совместная оптимизация визуального и языкового компонентов: Унифицированный этап распознавания одновременно выполняет распознавание символов и уточнение выходных данных
Механизм итеративного уточнения: Языковая модель постепенно улучшает результаты визуального распознавания через несколько итераций
Адаптивность к макету: Адаптация к новым макетам номерных знаков требует только переобучения на соответствующих изображениях

Экспериментальная установка

Наборы данных

Набор данных	Год	Количество изображений	Разрешение	Макет номерного знака	Протокол оценки
IR-LPR	2022	20967 изображений транспортных средств 48712 изображений номерных знаков	1280×1280	Иранский	Да
UFPR-ALPR	2018	4500 изображений транспортных средств	1920×1080	Бразильский	Да
AOLP	2013	2049 изображений транспортных средств	Разнообразное	Тайваньский	Нет

Характеристики наборов данных:

IR-LPR: Содержит разнообразные условия окружающей среды (парковки, различные времена суток, условия освещения), расстояние 1-10 метров
UFPR-ALPR: Бразильский набор данных, 300 автомобилей, снимки движущихся транспортных средств, сложный фон
AOLP: Три подмножества (AC контролируемые условия, LE дорожный мониторинг, RP придорожный патруль)

Метрики оценки

Метрики обнаружения:

Точность (Precision) = TP/(TP+FP)
Полнота (Recall) = TP/(TP+FN)
F1-мера = 2×(Precision×Recall)/(Precision+Recall)
Средняя точность mAP@0.5

Метрики распознавания:

Точность (Accuracy) = Количество правильно распознанных номерных знаков/Общее количество номерных знаков

Детали реализации

Конфигурация оборудования: Intel i9-10900k CPU, 32GB RAM, NVIDIA RTX 3070 GPU
Стратегия обучения: Настройка гиперпараметров (размер пакета, скорость обучения и т.д.) в зависимости от сложности набора данных

Результаты экспериментов

Основные результаты

Производительность обнаружения:

Набор данных	Точность (%)	Полнота (%)	F1-мера	mAP@0.5
IR-LPR	100	97	98.48	97.4
UFPR-ALPR	100	100	100	98.5
AOLP	100	100	100	99.1

Производительность распознавания:

Набор данных	Обучение	Валидация	Тестирование
IR-LPR	99.97%	97.03%	97.12%
UFPR-ALPR	99.99%	99.9%	99.93%
AOLP	100%	99.99%	99.4%

Сквозная производительность:

Набор данных	Сквозная точность
IR-LPR	94.77%
UFPR-ALPR	99.99%
AOLP	97.56%

Сравнение с передовыми методами

Сравнение точности распознавания:

Метод	IR-LPR	AOLP	UFPR-ALPR
Hao et al. 2024	94.9%	-	-
Laroca et al. 2021	-	99.2%	97.57%
Silva et al. 2018	-	98.36%	-
Предлагаемый метод	97.12%	99.4%	99.93%

Вычислительная эффективность

Среднее время обработки: 55.565 миллисекунд/изображение
Вычислительные требования: 198.0 GFLOPs, 95×10^6 параметров
Производительность в реальном времени: Соответствует требованиям приложений реального времени

Производительность при ночном распознавании

Тестирование на 889 ночных изображениях из набора данных IR-LPR:

Сквозная точность при ночном освещении: 94.60%
Демонстрирует надежность системы в условиях низкой освещенности

Связанные работы

Методы обнаружения номерных знаков

Традиционные детекторы объектов: Faster R-CNN, YOLO, SSD и другие широко применяются
Специализированные методы обнаружения: Гибридные каскадные структуры, локализация с усилением RNN и т.д.
Развитие серии YOLO: Непрерывные улучшения от YOLOv1 до YOLOv9

Методы распознавания номерных знаков

Методы на основе сегментации:

Зависят от цветовых различий между символами и фоном
Получение границ символов через горизонтальную проекцию пикселей
Точность сильно зависит от качества сегментации

Методы без сегментации:

Прямая обработка символов номерного знака как последовательности
Использование структуры CNN+RNN+CTC
Все еще требуют эвристических правил для постобработки

Заключение и обсуждение

Основные выводы

Независимость от макета: Достижение истинного распознавания, независимого от макета, путем встраивания анализа закономерностей в процесс распознавания
Превосходная производительность: Достижение передовой производительности на всех трех международных наборах данных
Практическая ценность: Время обработки 55.565 миллисекунд соответствует требованиям приложений реального времени
Надежность: Сохранение высокой точности в сложных условиях, таких как ночное освещение

Ограничения

Размер набора данных: Наборы данных AOLP и UFPR-ALPR имеют ограниченное количество образцов, что может недостаточно продемонстрировать преимущества метода
Путаница символов: В некоторых случаях все еще существуют ошибки распознавания символов (например, распознавание "8" как "B")
Ограничения языковой модели: Для комбинаций символов без явных правил языковой модели сложно выполнить эффективную коррекцию

Будущие направления

Системы ALPR на основе видео: Расширение на полные системы ALPR на основе видео
Оптимизация для граничных устройств: Сохранение эффективности в реальном времени на ограниченных граничных устройствах
Поддержка нескольких письменностей: Оптимизация языковой модели для одновременной обработки номерных знаков с несколькими письменностями (например, латиница и персидский язык)

Глубокая оценка

Преимущества

Высокая инновационность: Первое эффективное интегрирование визуально-языковых моделей в ALPR, достижение распознавания, независимого от макета
Полные эксперименты: Всесторонняя валидация на трех международных наборах данных с различными языками и форматами
Превосходная производительность: Достижение передовой производительности на всех тестовых наборах данных
Сильная практичность: Скорость обработки соответствует требованиям приложений реального времени, дизайн системы учитывает практическое развертывание

Недостатки

Недостаточный теоретический анализ: Отсутствие глубокого теоретического анализа причин эффективности метода
Ограниченные абляционные исследования: Недостаточный анализ независимого вклада каждого компонента (визуальная модель, языковая модель, механизм итерации)
Валидация обобщаемости: Необходимость валидации способности кросс-доменного обобщения на более разнообразных наборах данных

Влияние

Академический вклад: Предоставление новой парадигмы визуально-языковой интеграции для области ALPR
Практическая ценность: Прямое применение в интеллектуальных транспортных системах и приложениях мониторинга
Воспроизводимость: Четкое описание метода, использование открытых наборов данных, хорошая воспроизводимость

Применимые сценарии

Интеллектуальные транспортные системы: Сбор платежей на автомагистралях, дорожный мониторинг
Мониторинг безопасности: Управление парковками, пограничный контроль
Правоохранительные приложения: Обнаружение нарушений, отслеживание украденных транспортных средств
Международные приложения: Сценарии, требующие обработки различных форматов номерных знаков

Библиография

Статья цитирует 67 связанных работ, охватывающих важные исследования в нескольких областях, включая ALPR, обнаружение объектов и распознавание текста, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная статья в области компьютерного зрения, предлагающая инновационную структуру визуально-языковой интеграции в области автоматического распознавания номерных знаков. Метод является новаторским, эксперименты полными, результаты убедительными, имеет важное академическое значение и практическую ценность.