2025-11-14T21:10:11.633482

Layout-Independent License Plate Recognition via Integrated Vision and Language Models

Shabaninia, Asadi-zeydabadi, Nezamabadi-pour
This work presents a pattern-aware framework for automatic license plate recognition (ALPR), designed to operate reliably across diverse plate layouts and challenging real-world conditions. The proposed system consists of a modern, high-precision detection network followed by a recognition stage that integrates a transformer-based vision model with an iterative language modelling mechanism. This unified recognition stage performs character identification and post-OCR refinement in a seamless process, learning the structural patterns and formatting rules specific to license plates without relying on explicit heuristic corrections or manual layout classification. Through this design, the system jointly optimizes visual and linguistic cues, enables iterative refinement to improve OCR accuracy under noise, distortion, and unconventional fonts, and achieves layout-independent recognition across multiple international datasets (IR-LPR, UFPR-ALPR, AOLP). Experimental results demonstrate superior accuracy and robustness compared to recent segmentation-free approaches, highlighting how embedding pattern analysis within the recognition stage bridges computer vision and language modelling for enhanced adaptability in intelligent transportation and surveillance applications.
academic

Reconnaissance de Plaques d'Immatriculation Indépendante de la Mise en Page via Modèles de Vision et de Langage Intégrés

Informations Fondamentales

  • ID de l'article : 2510.10533
  • Titre : Layout-Independent License Plate Recognition via Integrated Vision and Language Models
  • Auteurs : Elham Shabaninia, Fatemeh Asadi-zeydabadi, Hossein Nezamabadi-pour
  • Classification : cs.CV (Vision par Ordinateur)
  • Institutions : Graduate University of Advanced Technology & Shahid Bahonar University of Kerman, Iran
  • Lien de l'article : https://arxiv.org/abs/2510.10533

Résumé

Cette étude propose un cadre de reconnaissance automatique de plaques d'immatriculation (ALPR) sensible aux motifs, conçu pour fonctionner de manière fiable sur des mises en page de plaques diversifiées et dans des conditions réelles difficiles. Le système comprend un réseau de détection moderne de haute précision et une phase de reconnaissance intégrant un modèle de vision transformer avec un mécanisme de modélisation linguistique itérative. Cette phase de reconnaissance unifiée effectue la reconnaissance de caractères et l'affinage post-OCR dans un processus transparent, en apprenant les motifs structurels et les règles de format spécifiques aux plaques d'immatriculation sans dépendre de corrections heuristiques explicites ou de classification manuelle de mise en page. Grâce à cette conception, le système optimise conjointement les indices visuels et linguistiques, réalisant un affinage itératif pour améliorer la précision de l'OCR dans les conditions bruyantes, déformées et avec des polices non conventionnelles, et atteint une reconnaissance indépendante de la mise en page sur plusieurs ensembles de données internationaux.

Contexte de Recherche et Motivation

Définition du Problème

Les systèmes traditionnels de reconnaissance automatique de plaques d'immatriculation (ALPR) font face aux défis fondamentaux suivants :

  1. Accumulation d'erreurs multi-étapes : Les systèmes ALPR traditionnels comprennent trois modules indépendants : détection de plaques (LPD), segmentation de caractères (CS) et reconnaissance optique de caractères (OCR), les erreurs de chaque étape se propageant à l'étape suivante
  2. Dépendance à la mise en page : Les systèmes existants nécessitent généralement la conception manuelle de règles et des corrections post-traitement spécifiques aux formats de plaques d'une région donnée
  3. Faible adaptabilité internationale : Les formats de plaques, les ensembles de caractères et les systèmes de numérotation varient considérablement d'un pays à l'autre, comme les différents formats des États américains (« 1ABC234 » vs « ABC-1234 »), les fonds blanc antérieur et jaune postérieur au Royaume-Uni, etc.

Motivation de la Recherche

Le développement rapide des systèmes de transport intelligents (ITS) impose des exigences plus élevées aux systèmes ALPR :

  • Nécessité de traiter des scènes du monde réel plus complexes (occlusion, éclairage non uniforme, rotation, flou)
  • Exigence que le système possède une capacité de généralisation inter-régions et inter-langues
  • Besoin de performances en temps réel pour soutenir les applications de surveillance du trafic à forte demande

Limitations des Méthodes Existantes

  1. Méthodes basées sur la segmentation : Dépendent de la qualité de la segmentation des caractères, facilement affectées par le bruit et la déformation
  2. Méthodes sans segmentation : Bien qu'elles évitent les problèmes de segmentation, elles nécessitent toujours des règles heuristiques post-traitement spécifiques à la mise en page
  3. Absence de cadre unifié : La reconnaissance visuelle et la correction linguistique sont généralement des modules séparés, ne pouvant pas être optimisés conjointement

Contributions Principales

  1. Architecture de reconnaissance indépendante de la mise en page : Intègre l'analyse des motifs structurels dans le processus de reconnaissance, sans nécessiter d'ingénierie des caractéristiques manuelle ou de règles heuristiques spécifiques à la mise en page
  2. Mécanisme d'affinage itératif : Utilise l'optimisation conjointe des indices vision-langage pour améliorer les résultats de l'OCR dans des conditions difficiles
  3. Validation inter-ensembles de données : Vérifie l'évolutivité sur trois ensembles de données internationaux : IR-LPR, UFPR-ALPR et AOLP
  4. Opération sans segmentation : Élimine le goulot d'étranglement de l'ALPR traditionnel tout en améliorant la précision et la robustesse

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Image de véhicule contenant une plaque d'immatriculation Sortie : Séquence de caractères précise de la région de la plaque Contraintes : Nécessité de traiter différentes mises en page de plaques, polices, langues et conditions environnementales

Architecture du Modèle

Cadre Global

Le système adopte une conception en deux étapes :

  1. Phase de détection de plaques : Utilise YOLOv9 pour la détection d'objets de haute précision
  2. Phase de reconnaissance de plaques : Cadre de reconnaissance unifié intégrant le modèle de vision (VM) et le modèle de langage (LM)

1. Réseau de Détection de Plaques (YOLOv9)

Avantages clés du choix de YOLOv9 :

  • Réseau de base amélioré : Adopte une architecture de réseau neuronal convolutif optimisée pour une extraction de caractéristiques supérieure
  • Tête de détection améliorée : Améliore la précision et le rappel des boîtes englobantes
  • Réseau d'agrégation de chemins (PANet) : Améliore le flux d'information entre différentes échelles
  • Post-traitement avancé : Utilise la suppression non-maximale (NMS) et des seuils IoU optimisés

2. Réseau de Reconnaissance de Plaques

Modèle de Vision (VM) :

  • Adopte l'architecture Convolutional Transformer (CvT)
  • Réseau de base convolutif ResNet45 pour l'extraction initiale de caractéristiques :
    F_b = B(x) ∈ R^(h×w×d)
    F_m = M(F_b) ∈ R^(h×w×d)
    
  • Mécanisme d'attention positionnelle du Transformer :
    Q = PE(t) ∈ R^(h×w×d)
    K = g(F_m) ∈ R^(h×w×d)  
    V = H(F_m) ∈ R^(h×w×d)
    F_v = Softmax(QK^T/√D)V
    

Modèle de Langage (LM) :

  • Adopte un réseau de complétion bidirectionnel (BCN)
  • Décodeur Transformer modifié à L couches
  • Points de conception clés :
    • Entrée directe des vecteurs de caractères dans les blocs d'attention multi-têtes
    • Utilisation de masques d'attention pour prévenir l'auto-référence :
      M_ij = {0, i≠j; -∞, i=j}
      
    • Exécution itérative M fois, affinant progressivement les prédictions du modèle de vision

Points d'Innovation Technique

  1. Conception sensible aux motifs : Intègre l'apprentissage des motifs structurels et des contraintes de format des plaques dans la boucle de reconnaissance
  2. Optimisation conjointe vision-langage : La phase de reconnaissance unifiée effectue simultanément la reconnaissance de caractères et l'affinage de la sortie
  3. Mécanisme d'affinage itératif : Le modèle de langage améliore progressivement les résultats de reconnaissance visuelle par plusieurs itérations
  4. Adaptation à la mise en page : Ne nécessite que le réentraînement avec des images pertinentes pour s'adapter à de nouvelles mises en page de plaques

Configuration Expérimentale

Ensembles de Données

Ensemble de DonnéesAnnéeNombre d'ImagesRésolutionMise en Page de PlaquesProtocole d'Évaluation
IR-LPR202220967 images de véhicules
48712 images de plaques
1280×1280IranOui
UFPR-ALPR20184500 images de véhicules1920×1080BrésilOui
AOLP20132049 images de véhiculesDiversifiéeTaïwanNon

Caractéristiques des ensembles de données :

  • IR-LPR : Contient des environnements diversifiés (parkings, différentes heures, conditions d'éclairage), distance 1-10 mètres
  • UFPR-ALPR : Ensemble de données brésilien, 300 véhicules, photographies de véhicules en mouvement, arrière-plans complexes
  • AOLP : Trois sous-ensembles (AC conditions contrôlées, LE surveillance routière, RP patrouille en bordure de route)

Métriques d'Évaluation

Métriques de Détection :

  • Précision = VP/(VP+FP)
  • Rappel = VP/(VP+FN)
  • Score F1 = 2×(Précision×Rappel)/(Précision+Rappel)
  • Précision moyenne mAP@0.5

Métriques de Reconnaissance :

  • Précision = Nombre de plaques correctement reconnues/Nombre total de plaques

Détails d'Implémentation

  • Configuration matérielle : CPU Intel i9-10900k, RAM 32 Go, GPU NVIDIA RTX 3070
  • Stratégie d'entraînement : Ajustement des hyperparamètres (taille de lot, taux d'apprentissage, etc.) selon la complexité de l'ensemble de données

Résultats Expérimentaux

Résultats Principaux

Performance de Détection :

Ensemble de DonnéesPrécision (%)Rappel (%)Score F1mAP@0.5
IR-LPR1009798.4897.4
UFPR-ALPR10010010098.5
AOLP10010010099.1

Performance de Reconnaissance :

Ensemble de DonnéesEntraînementValidationTest
IR-LPR99.97%97.03%97.12%
UFPR-ALPR99.99%99.9%99.93%
AOLP100%99.99%99.4%

Performance Bout en Bout :

Ensemble de DonnéesPrécision Bout en Bout
IR-LPR94.77%
UFPR-ALPR99.99%
AOLP97.56%

Comparaison avec les Méthodes Avancées

Comparaison de la Précision de Reconnaissance :

MéthodeIR-LPRAOLPUFPR-ALPR
Hao et al. 202494.9%--
Laroca et al. 2021-99.2%97.57%
Silva et al. 2018-98.36%-
Méthode Proposée97.12%99.4%99.93%

Efficacité Computationnelle

  • Temps de traitement moyen : 55.565 millisecondes/image
  • Besoins computationnels : 198.0 GFLOPs, 95×10^6 paramètres
  • Performance en temps réel : Satisfait les exigences des applications en temps réel

Performance de Reconnaissance Nocturne

Test sur 889 images nocturnes de l'ensemble de données IR-LPR :

  • Précision Bout en Bout Nocturne : 94.60%
  • Démontre la robustesse du système dans les conditions de faible luminosité

Travaux Connexes

Méthodes de Détection de Plaques

  1. Détecteurs d'objets traditionnels : Faster R-CNN, YOLO, SSD largement appliqués
  2. Techniques de détection spécialisées : Structures en cascade hybride, localisation améliorée par RNN, etc.
  3. Évolution de la série YOLO : Améliorations continues de YOLOv1 à YOLOv9

Méthodes de Reconnaissance de Plaques

Méthodes basées sur la segmentation :

  • Dépendent de la différence de couleur entre les caractères et l'arrière-plan
  • Obtiennent les limites des caractères via projection de pixels horizontaux
  • La précision dépend fortement de la qualité de la segmentation

Méthodes sans segmentation :

  • Traitent directement les caractères de plaques comme une séquence
  • Utilisent la structure CNN+RNN+CTC
  • Nécessitent toujours des règles heuristiques pour le post-traitement

Conclusion et Discussion

Conclusions Principales

  1. Indépendance de la mise en page : Réalise une reconnaissance véritablement indépendante de la mise en page en intégrant l'analyse des motifs dans le processus de reconnaissance
  2. Performance exceptionnelle : Atteint les performances les plus avancées sur les trois ensembles de données internationaux
  3. Valeur pratique : Le temps de traitement de 55.565 millisecondes satisfait les exigences des applications en temps réel
  4. Robustesse : Maintient une haute précision dans les conditions difficiles comme la nuit

Limitations

  1. Taille des ensembles de données : Les ensembles de données AOLP et UFPR-ALPR ont des échantillons limités, ce qui peut ne pas montrer pleinement les avantages de la méthode
  2. Confusion de caractères : Il existe toujours des cas de mésidentification de caractères (par exemple, « 8 » reconnu comme « B »)
  3. Limitations du modèle de langage : Pour les combinaisons de caractères sans règles claires, le modèle de langage a du mal à effectuer une correction efficace

Directions Futures

  1. Système ALPR vidéo : Extension vers un système ALPR complet basé sur la vidéo
  2. Optimisation pour appareils périphériques : Maintien de l'efficacité en temps réel sur les appareils périphériques limités
  3. Support multi-scripts : Optimisation du modèle de langage pour traiter simultanément les plaques multi-scripts (par exemple, latin et persan)

Évaluation Approfondie

Points Forts

  1. Forte innovativité : Première intégration efficace de modèles vision-langage dans l'ALPR, réalisant une reconnaissance indépendante de la mise en page
  2. Expérimentation complète : Validation complète sur trois ensembles de données internationaux avec différentes langues et formats
  3. Performance exceptionnelle : Atteint les performances les plus avancées sur tous les ensembles de données testés
  4. Forte praticité : La vitesse de traitement satisfait les exigences des applications en temps réel, la conception du système considère le déploiement pratique

Insuffisances

  1. Analyse théorique insuffisante : Manque d'analyse théorique approfondie sur les raisons de l'efficacité de cette méthode
  2. Expériences d'ablation limitées : N'analyse pas suffisamment les contributions indépendantes de chaque composant (modèle de vision, modèle de langage, mécanisme itératif)
  3. Vérification de la généralisation : Nécessite une vérification de la capacité de généralisation inter-domaines sur des ensembles de données plus diversifiés

Impact

  1. Contribution académique : Fournit un nouveau paradigme d'intégration vision-langage pour le domaine de l'ALPR
  2. Valeur pratique : Peut être directement appliqué aux systèmes de transport intelligents et aux applications de surveillance
  3. Reproductibilité : Description de méthode claire, utilisation d'ensembles de données publics, bonne reproductibilité

Scénarios d'Application

  1. Systèmes de transport intelligents : Péage sur autoroute, surveillance du trafic
  2. Surveillance de sécurité : Gestion des parkings, contrôle aux frontières
  3. Applications d'application de la loi : Détection des infractions, suivi des véhicules volés
  4. Applications internationales : Scénarios nécessitant le traitement de multiples formats de plaques

Références Bibliographiques

L'article cite 67 références pertinentes, couvrant plusieurs domaines importants incluant l'ALPR, la détection d'objets, la reconnaissance de texte, etc., fournissant une base théorique solide pour la recherche.


Évaluation Globale : Cet article est un travail de haute qualité en vision par ordinateur qui propose un cadre innovant d'intégration vision-langage dans le domaine de la reconnaissance automatique de plaques d'immatriculation. La méthode est novatrice, l'expérimentation complète, les résultats convaincants, avec une importance académique et une valeur pratique significatives.