2025-11-14T21:10:11.633482

Layout-Independent License Plate Recognition via Integrated Vision and Language Models

Shabaninia, Asadi-zeydabadi, Nezamabadi-pour

This work presents a pattern-aware framework for automatic license plate recognition (ALPR), designed to operate reliably across diverse plate layouts and challenging real-world conditions. The proposed system consists of a modern, high-precision detection network followed by a recognition stage that integrates a transformer-based vision model with an iterative language modelling mechanism. This unified recognition stage performs character identification and post-OCR refinement in a seamless process, learning the structural patterns and formatting rules specific to license plates without relying on explicit heuristic corrections or manual layout classification. Through this design, the system jointly optimizes visual and linguistic cues, enables iterative refinement to improve OCR accuracy under noise, distortion, and unconventional fonts, and achieves layout-independent recognition across multiple international datasets (IR-LPR, UFPR-ALPR, AOLP). Experimental results demonstrate superior accuracy and robustness compared to recent segmentation-free approaches, highlighting how embedding pattern analysis within the recognition stage bridges computer vision and language modelling for enhanced adaptability in intelligent transportation and surveillance applications.

academic

Reconnaissance de Plaques d'Immatriculation Indépendante de la Mise en Page via Modèles de Vision et de Langage Intégrés

Informations Fondamentales

ID de l'article : 2510.10533
Titre : Layout-Independent License Plate Recognition via Integrated Vision and Language Models
Auteurs : Elham Shabaninia, Fatemeh Asadi-zeydabadi, Hossein Nezamabadi-pour
Classification : cs.CV (Vision par Ordinateur)
Institutions : Graduate University of Advanced Technology & Shahid Bahonar University of Kerman, Iran
Lien de l'article : https://arxiv.org/abs/2510.10533

Résumé

Cette étude propose un cadre de reconnaissance automatique de plaques d'immatriculation (ALPR) sensible aux motifs, conçu pour fonctionner de manière fiable sur des mises en page de plaques diversifiées et dans des conditions réelles difficiles. Le système comprend un réseau de détection moderne de haute précision et une phase de reconnaissance intégrant un modèle de vision transformer avec un mécanisme de modélisation linguistique itérative. Cette phase de reconnaissance unifiée effectue la reconnaissance de caractères et l'affinage post-OCR dans un processus transparent, en apprenant les motifs structurels et les règles de format spécifiques aux plaques d'immatriculation sans dépendre de corrections heuristiques explicites ou de classification manuelle de mise en page. Grâce à cette conception, le système optimise conjointement les indices visuels et linguistiques, réalisant un affinage itératif pour améliorer la précision de l'OCR dans les conditions bruyantes, déformées et avec des polices non conventionnelles, et atteint une reconnaissance indépendante de la mise en page sur plusieurs ensembles de données internationaux.

Contexte de Recherche et Motivation

Définition du Problème

Les systèmes traditionnels de reconnaissance automatique de plaques d'immatriculation (ALPR) font face aux défis fondamentaux suivants :

Accumulation d'erreurs multi-étapes : Les systèmes ALPR traditionnels comprennent trois modules indépendants : détection de plaques (LPD), segmentation de caractères (CS) et reconnaissance optique de caractères (OCR), les erreurs de chaque étape se propageant à l'étape suivante
Dépendance à la mise en page : Les systèmes existants nécessitent généralement la conception manuelle de règles et des corrections post-traitement spécifiques aux formats de plaques d'une région donnée
Faible adaptabilité internationale : Les formats de plaques, les ensembles de caractères et les systèmes de numérotation varient considérablement d'un pays à l'autre, comme les différents formats des États américains (« 1ABC234 » vs « ABC-1234 »), les fonds blanc antérieur et jaune postérieur au Royaume-Uni, etc.

Motivation de la Recherche

Le développement rapide des systèmes de transport intelligents (ITS) impose des exigences plus élevées aux systèmes ALPR :

Nécessité de traiter des scènes du monde réel plus complexes (occlusion, éclairage non uniforme, rotation, flou)
Exigence que le système possède une capacité de généralisation inter-régions et inter-langues
Besoin de performances en temps réel pour soutenir les applications de surveillance du trafic à forte demande

Limitations des Méthodes Existantes

Méthodes basées sur la segmentation : Dépendent de la qualité de la segmentation des caractères, facilement affectées par le bruit et la déformation
Méthodes sans segmentation : Bien qu'elles évitent les problèmes de segmentation, elles nécessitent toujours des règles heuristiques post-traitement spécifiques à la mise en page
Absence de cadre unifié : La reconnaissance visuelle et la correction linguistique sont généralement des modules séparés, ne pouvant pas être optimisés conjointement

Contributions Principales

Architecture de reconnaissance indépendante de la mise en page : Intègre l'analyse des motifs structurels dans le processus de reconnaissance, sans nécessiter d'ingénierie des caractéristiques manuelle ou de règles heuristiques spécifiques à la mise en page
Mécanisme d'affinage itératif : Utilise l'optimisation conjointe des indices vision-langage pour améliorer les résultats de l'OCR dans des conditions difficiles
Validation inter-ensembles de données : Vérifie l'évolutivité sur trois ensembles de données internationaux : IR-LPR, UFPR-ALPR et AOLP
Opération sans segmentation : Élimine le goulot d'étranglement de l'ALPR traditionnel tout en améliorant la précision et la robustesse

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Image de véhicule contenant une plaque d'immatriculation Sortie : Séquence de caractères précise de la région de la plaque Contraintes : Nécessité de traiter différentes mises en page de plaques, polices, langues et conditions environnementales

Architecture du Modèle

Cadre Global

Le système adopte une conception en deux étapes :

Phase de détection de plaques : Utilise YOLOv9 pour la détection d'objets de haute précision
Phase de reconnaissance de plaques : Cadre de reconnaissance unifié intégrant le modèle de vision (VM) et le modèle de langage (LM)

1. Réseau de Détection de Plaques (YOLOv9)

Avantages clés du choix de YOLOv9 :

Réseau de base amélioré : Adopte une architecture de réseau neuronal convolutif optimisée pour une extraction de caractéristiques supérieure
Tête de détection améliorée : Améliore la précision et le rappel des boîtes englobantes
Réseau d'agrégation de chemins (PANet) : Améliore le flux d'information entre différentes échelles
Post-traitement avancé : Utilise la suppression non-maximale (NMS) et des seuils IoU optimisés

2. Réseau de Reconnaissance de Plaques

Modèle de Vision (VM) :

Adopte l'architecture Convolutional Transformer (CvT)
Réseau de base convolutif ResNet45 pour l'extraction initiale de caractéristiques :
```
F_b = B(x) ∈ R^(h×w×d)
F_m = M(F_b) ∈ R^(h×w×d)
```

Mécanisme d'attention positionnelle du Transformer :

Q = PE(t) ∈ R^(h×w×d)
K = g(F_m) ∈ R^(h×w×d)  
V = H(F_m) ∈ R^(h×w×d)
F_v = Softmax(QK^T/√D)V

Modèle de Langage (LM) :

Adopte un réseau de complétion bidirectionnel (BCN)
Décodeur Transformer modifié à L couches
Points de conception clés :
- Entrée directe des vecteurs de caractères dans les blocs d'attention multi-têtes
- Utilisation de masques d'attention pour prévenir l'auto-référence :
```
M_ij = {0, i≠j; -∞, i=j}
```
- Exécution itérative M fois, affinant progressivement les prédictions du modèle de vision

Points d'Innovation Technique

Conception sensible aux motifs : Intègre l'apprentissage des motifs structurels et des contraintes de format des plaques dans la boucle de reconnaissance
Optimisation conjointe vision-langage : La phase de reconnaissance unifiée effectue simultanément la reconnaissance de caractères et l'affinage de la sortie
Mécanisme d'affinage itératif : Le modèle de langage améliore progressivement les résultats de reconnaissance visuelle par plusieurs itérations
Adaptation à la mise en page : Ne nécessite que le réentraînement avec des images pertinentes pour s'adapter à de nouvelles mises en page de plaques

Configuration Expérimentale

Ensembles de Données

Ensemble de Données	Année	Nombre d'Images	Résolution	Mise en Page de Plaques	Protocole d'Évaluation
IR-LPR	2022	20967 images de véhicules 48712 images de plaques	1280×1280	Iran	Oui
UFPR-ALPR	2018	4500 images de véhicules	1920×1080	Brésil	Oui
AOLP	2013	2049 images de véhicules	Diversifiée	Taïwan	Non

Caractéristiques des ensembles de données :

IR-LPR : Contient des environnements diversifiés (parkings, différentes heures, conditions d'éclairage), distance 1-10 mètres
UFPR-ALPR : Ensemble de données brésilien, 300 véhicules, photographies de véhicules en mouvement, arrière-plans complexes
AOLP : Trois sous-ensembles (AC conditions contrôlées, LE surveillance routière, RP patrouille en bordure de route)

Métriques d'Évaluation

Métriques de Détection :

Précision = VP/(VP+FP)
Rappel = VP/(VP+FN)
Score F1 = 2×(Précision×Rappel)/(Précision+Rappel)
Précision moyenne mAP@0.5

Métriques de Reconnaissance :

Précision = Nombre de plaques correctement reconnues/Nombre total de plaques

Détails d'Implémentation

Configuration matérielle : CPU Intel i9-10900k, RAM 32 Go, GPU NVIDIA RTX 3070
Stratégie d'entraînement : Ajustement des hyperparamètres (taille de lot, taux d'apprentissage, etc.) selon la complexité de l'ensemble de données

Résultats Expérimentaux

Résultats Principaux

Performance de Détection :

Ensemble de Données	Précision (%)	Rappel (%)	Score F1	mAP@0.5
IR-LPR	100	97	98.48	97.4
UFPR-ALPR	100	100	100	98.5
AOLP	100	100	100	99.1

Performance de Reconnaissance :

Ensemble de Données	Entraînement	Validation	Test
IR-LPR	99.97%	97.03%	97.12%
UFPR-ALPR	99.99%	99.9%	99.93%
AOLP	100%	99.99%	99.4%

Performance Bout en Bout :

Ensemble de Données	Précision Bout en Bout
IR-LPR	94.77%
UFPR-ALPR	99.99%
AOLP	97.56%

Comparaison avec les Méthodes Avancées

Comparaison de la Précision de Reconnaissance :

Méthode	IR-LPR	AOLP	UFPR-ALPR
Hao et al. 2024	94.9%	-	-
Laroca et al. 2021	-	99.2%	97.57%
Silva et al. 2018	-	98.36%	-
Méthode Proposée	97.12%	99.4%	99.93%

Efficacité Computationnelle

Temps de traitement moyen : 55.565 millisecondes/image
Besoins computationnels : 198.0 GFLOPs, 95×10^6 paramètres
Performance en temps réel : Satisfait les exigences des applications en temps réel

Performance de Reconnaissance Nocturne

Test sur 889 images nocturnes de l'ensemble de données IR-LPR :

Précision Bout en Bout Nocturne : 94.60%
Démontre la robustesse du système dans les conditions de faible luminosité

Travaux Connexes

Méthodes de Détection de Plaques

Détecteurs d'objets traditionnels : Faster R-CNN, YOLO, SSD largement appliqués
Techniques de détection spécialisées : Structures en cascade hybride, localisation améliorée par RNN, etc.
Évolution de la série YOLO : Améliorations continues de YOLOv1 à YOLOv9

Méthodes de Reconnaissance de Plaques

Méthodes basées sur la segmentation :

Dépendent de la différence de couleur entre les caractères et l'arrière-plan
Obtiennent les limites des caractères via projection de pixels horizontaux
La précision dépend fortement de la qualité de la segmentation

Méthodes sans segmentation :

Traitent directement les caractères de plaques comme une séquence
Utilisent la structure CNN+RNN+CTC
Nécessitent toujours des règles heuristiques pour le post-traitement

Conclusion et Discussion

Conclusions Principales

Indépendance de la mise en page : Réalise une reconnaissance véritablement indépendante de la mise en page en intégrant l'analyse des motifs dans le processus de reconnaissance
Performance exceptionnelle : Atteint les performances les plus avancées sur les trois ensembles de données internationaux
Valeur pratique : Le temps de traitement de 55.565 millisecondes satisfait les exigences des applications en temps réel
Robustesse : Maintient une haute précision dans les conditions difficiles comme la nuit

Limitations

Taille des ensembles de données : Les ensembles de données AOLP et UFPR-ALPR ont des échantillons limités, ce qui peut ne pas montrer pleinement les avantages de la méthode
Confusion de caractères : Il existe toujours des cas de mésidentification de caractères (par exemple, « 8 » reconnu comme « B »)
Limitations du modèle de langage : Pour les combinaisons de caractères sans règles claires, le modèle de langage a du mal à effectuer une correction efficace

Directions Futures

Système ALPR vidéo : Extension vers un système ALPR complet basé sur la vidéo
Optimisation pour appareils périphériques : Maintien de l'efficacité en temps réel sur les appareils périphériques limités
Support multi-scripts : Optimisation du modèle de langage pour traiter simultanément les plaques multi-scripts (par exemple, latin et persan)

Évaluation Approfondie

Points Forts

Forte innovativité : Première intégration efficace de modèles vision-langage dans l'ALPR, réalisant une reconnaissance indépendante de la mise en page
Expérimentation complète : Validation complète sur trois ensembles de données internationaux avec différentes langues et formats
Performance exceptionnelle : Atteint les performances les plus avancées sur tous les ensembles de données testés
Forte praticité : La vitesse de traitement satisfait les exigences des applications en temps réel, la conception du système considère le déploiement pratique

Insuffisances

Analyse théorique insuffisante : Manque d'analyse théorique approfondie sur les raisons de l'efficacité de cette méthode
Expériences d'ablation limitées : N'analyse pas suffisamment les contributions indépendantes de chaque composant (modèle de vision, modèle de langage, mécanisme itératif)
Vérification de la généralisation : Nécessite une vérification de la capacité de généralisation inter-domaines sur des ensembles de données plus diversifiés

Impact

Contribution académique : Fournit un nouveau paradigme d'intégration vision-langage pour le domaine de l'ALPR
Valeur pratique : Peut être directement appliqué aux systèmes de transport intelligents et aux applications de surveillance
Reproductibilité : Description de méthode claire, utilisation d'ensembles de données publics, bonne reproductibilité

Scénarios d'Application

Systèmes de transport intelligents : Péage sur autoroute, surveillance du trafic
Surveillance de sécurité : Gestion des parkings, contrôle aux frontières
Applications d'application de la loi : Détection des infractions, suivi des véhicules volés
Applications internationales : Scénarios nécessitant le traitement de multiples formats de plaques

Références Bibliographiques

L'article cite 67 références pertinentes, couvrant plusieurs domaines importants incluant l'ALPR, la détection d'objets, la reconnaissance de texte, etc., fournissant une base théorique solide pour la recherche.

Évaluation Globale : Cet article est un travail de haute qualité en vision par ordinateur qui propose un cadre innovant d'intégration vision-langage dans le domaine de la reconnaissance automatique de plaques d'immatriculation. La méthode est novatrice, l'expérimentation complète, les résultats convaincants, avec une importance académique et une valeur pratique significatives.