2025-11-14T21:10:11.633482

Layout-Independent License Plate Recognition via Integrated Vision and Language Models

Shabaninia, Asadi-zeydabadi, Nezamabadi-pour
This work presents a pattern-aware framework for automatic license plate recognition (ALPR), designed to operate reliably across diverse plate layouts and challenging real-world conditions. The proposed system consists of a modern, high-precision detection network followed by a recognition stage that integrates a transformer-based vision model with an iterative language modelling mechanism. This unified recognition stage performs character identification and post-OCR refinement in a seamless process, learning the structural patterns and formatting rules specific to license plates without relying on explicit heuristic corrections or manual layout classification. Through this design, the system jointly optimizes visual and linguistic cues, enables iterative refinement to improve OCR accuracy under noise, distortion, and unconventional fonts, and achieves layout-independent recognition across multiple international datasets (IR-LPR, UFPR-ALPR, AOLP). Experimental results demonstrate superior accuracy and robustness compared to recent segmentation-free approaches, highlighting how embedding pattern analysis within the recognition stage bridges computer vision and language modelling for enhanced adaptability in intelligent transportation and surveillance applications.
academic

लेआउट-स्वतंत्र लाइसेंस प्लेट पहचान एकीकृत दृष्टि और भाषा मॉडल के माध्यम से

बुनियादी जानकारी

  • पेपर आईडी: 2510.10533
  • शीर्षक: Layout-Independent License Plate Recognition via Integrated Vision and Language Models
  • लेखक: Elham Shabaninia, Fatemeh Asadi-zeydabadi, Hossein Nezamabadi-pour
  • वर्गीकरण: cs.CV (कंप्यूटर विजन)
  • संस्थान: Graduate University of Advanced Technology & Shahid Bahonar University of Kerman, Iran
  • पेपर लिंक: https://arxiv.org/abs/2510.10533

सारांश

यह अनुसंधान एक पैटर्न-जागरूक स्वचालित वाहन पंजीकरण पहचान (ALPR) ढांचा प्रस्तावित करता है, जो विविध वाहन पंजीकरण लेआउट और चुनौतीपूर्ण वास्तविक-विश्व स्थितियों में विश्वसनीय संचालन के लिए डिज़ाइन किया गया है। यह प्रणाली आधुनिक उच्च-सटीकता पहचान नेटवर्क और एकीकृत ट्रांसफॉर्मर दृष्टि मॉडल के साथ पुनरावृत्तिमूलक भाषा मॉडलिंग तंत्र से युक्त एक पहचान चरण से बना है। यह एकीकृत पहचान चरण एक निर्बाध प्रक्रिया में वर्ण पहचान और OCR के बाद परिशोधन करता है, वाहन पंजीकरण-विशिष्ट संरचनात्मक पैटर्न और प्रारूप नियमों को सीखता है, बिना स्पष्ट अनुमानी सुधार या मैनुअल लेआउट वर्गीकरण पर निर्भर रहे। इस डिज़ाइन के माध्यम से, सिस्टम दृष्टि और भाषा संकेतों को संयुक्त रूप से अनुकूलित करता है, शोर, विरूपण और अपरंपरागत फ़ॉन्ट के तहत OCR सटीकता में सुधार के लिए पुनरावृत्तिमूलक परिशोधन प्राप्त करता है, और कई अंतर्राष्ट्रीय डेटासेट पर लेआउट-स्वतंत्र पहचान प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पारंपरिक स्वचालित वाहन पंजीकरण पहचान (ALPR) प्रणालियों को निम्नलिखित मुख्य चुनौतियों का सामना करना पड़ता है:

  1. बहु-चरणीय त्रुटि संचय: पारंपरिक ALPR प्रणालियों में वाहन पंजीकरण पहचान (LPD), वर्ण विभाजन (CS) और ऑप्टिकल वर्ण पहचान (OCR) के तीन स्वतंत्र मॉड्यूल होते हैं, प्रत्येक चरण की त्रुटियां अगले चरण में प्रसारित होती हैं
  2. लेआउट निर्भरता: मौजूदा प्रणालियों को आमतौर पर विशिष्ट क्षेत्रों के वाहन पंजीकरण प्रारूपों के लिए मैनुअल नियम डिज़ाइन और पोस्ट-प्रोसेसिंग सुधार की आवश्यकता होती है
  3. अंतर्राष्ट्रीय अनुकूलन में कमी: विभिन्न देशों और क्षेत्रों के वाहन पंजीकरण प्रारूप, वर्ण सेट, और संख्या प्रणालियों में विशाल अंतर होते हैं, जैसे अमेरिकी राज्यों के विभिन्न प्रारूप ("1ABC234" बनाम "ABC-1234"), ब्रिटिश सफेद-पीछे-पीले पृष्ठभूमि आदि

अनुसंधान प्रेरणा

बुद्धिमान परिवहन प्रणालियों (ITS) के तीव्र विकास ने ALPR प्रणालियों पर उच्च मांग रखी है:

  • अधिक जटिल वास्तविक-विश्व परिदृश्यों (अवरोध, असमान प्रकाश, घुमाव, धुंधलापन) को संभालने की आवश्यकता
  • प्रणाली को क्षेत्र-पार, भाषा-पार सामान्यीकरण क्षमता की आवश्यकता
  • उच्च-मांग वाली यातायात निगरानी अनुप्रयोगों का समर्थन करने के लिए वास्तविक समय के प्रदर्शन की आवश्यकता

मौजूदा विधियों की सीमाएं

  1. विभाजन-आधारित विधियां: वर्ण विभाजन गुणवत्ता पर निर्भर, शोर और विरूपण से आसानी से प्रभावित
  2. विभाजन-रहित विधियां: विभाजन समस्याओं से बचती हैं, लेकिन फिर भी विशिष्ट लेआउट के लिए अनुमानी पोस्ट-प्रोसेसिंग नियमों की आवश्यकता होती है
  3. एकीकृत ढांचे की कमी: दृष्टि पहचान और भाषा सुधार आमतौर पर अलग-अलग मॉड्यूल होते हैं, संयुक्त अनुकूलन के लिए असमर्थ

मुख्य योगदान

  1. लेआउट-स्वतंत्र पहचान आर्किटेक्चर: संरचनात्मक पैटर्न विश्लेषण को पहचान प्रक्रिया में एम्बेड करता है, मैनुअल विशेषता इंजीनियरिंग या लेआउट-विशिष्ट अनुमानी नियमों की आवश्यकता नहीं
  2. पुनरावृत्तिमूलक परिशोधन तंत्र: दृष्टि-भाषा संकेतों के संयुक्त अनुकूलन का उपयोग करके, चुनौतीपूर्ण स्थितियों में OCR परिणामों को बढ़ाता है
  3. क्रॉस-डेटासेट सत्यापन: IR-LPR, UFPR-ALPR और AOLP तीन अंतर्राष्ट्रीय डेटासेट पर स्केलेबिलिटी को सत्यापित किया
  4. विभाजन-रहित संचालन: पारंपरिक ALPR की बाधा को समाप्त करता है, साथ ही सटीकता और मजबूती में सुधार करता है

विधि विवरण

कार्य परिभाषा

इनपुट: वाहन पंजीकरण युक्त वाहन छवि आउटपुट: वाहन पंजीकरण क्षेत्र का सटीक वर्ण अनुक्रम बाधाएं: विभिन्न वाहन पंजीकरण लेआउट, फ़ॉन्ट, भाषाएं और पर्यावरणीय स्थितियों को संभालने की आवश्यकता

मॉडल आर्किटेक्चर

समग्र ढांचा

प्रणाली दो-चरणीय डिज़ाइन अपनाती है:

  1. वाहन पंजीकरण पहचान चरण: उच्च-सटीकता वस्तु पहचान के लिए YOLOv9 का उपयोग
  2. वाहन पंजीकरण पहचान चरण: दृष्टि मॉडल (VM) और भाषा मॉडल (LM) के एकीकृत पहचान ढांचे

1. वाहन पंजीकरण पहचान नेटवर्क (YOLOv9)

YOLOv9 चुनने के मुख्य लाभ:

  • बढ़ी हुई बैकबोन नेटवर्क: उच्च विशेषता निष्कर्षण के लिए अनुकूलित कनवल्शनल न्यूरल नेटवर्क आर्किटेक्चर
  • सुधारा हुआ पहचान हेड: सीमा बॉक्स की सटीकता और रिकॉल में सुधार
  • पथ एकत्रीकरण नेटवर्क (PANet): विभिन्न पैमानों के बीच सूचना प्रवाह में सुधार
  • उन्नत पोस्ट-प्रोसेसिंग: गैर-अधिकतम दमन (NMS) और अनुकूलित IoU थ्रेसहोल्ड का उपयोग

2. वाहन पंजीकरण पहचान नेटवर्क

दृष्टि मॉडल (VM):

  • कनवल्शनल ट्रांसफॉर्मर (CvT) आर्किटेक्चर को अपनाता है
  • प्रारंभिक विशेषता निष्कर्षण के लिए ResNet45 कनवल्शनल बैकबोन:
    F_b = B(x) ∈ R^(h×w×d)
    F_m = M(F_b) ∈ R^(h×w×d)
    
  • ट्रांसफॉर्मर स्थिति ध्यान तंत्र:
    Q = PE(t) ∈ R^(h×w×d)
    K = g(F_m) ∈ R^(h×w×d)  
    V = H(F_m) ∈ R^(h×w×d)
    F_v = Softmax(QK^T/√D)V
    

भाषा मॉडल (LM):

  • द्विदिश पूर्ण-रूप नेटवर्क (BCN) को अपनाता है
  • संशोधित L-परत ट्रांसफॉर्मर डिकोडर
  • मुख्य डिज़ाइन विशेषताएं:
    • वर्ण वेक्टर को सीधे मल्टी-हेड ध्यान ब्लॉक में इनपुट करता है
    • स्व-संदर्भ को रोकने के लिए ध्यान मुखौटा का उपयोग:
      M_ij = {0, i≠j; -∞, i=j}
      
    • दृष्टि मॉडल भविष्यवाणियों को क्रमिक रूप से परिशोधित करने के लिए M बार निष्पादित

तकनीकी नवाचार बिंदु

  1. पैटर्न-जागरूक डिज़ाइन: वाहन पंजीकरण की संरचनात्मक पैटर्न और प्रारूप बाधाओं को पहचान लूप में सीखना
  2. दृष्टि-भाषा संयुक्त अनुकूलन: एकीकृत पहचान चरण एक साथ वर्ण पहचान और आउटपुट परिशोधन करता है
  3. पुनरावृत्तिमूलक परिशोधन तंत्र: भाषा मॉडल कई पुनरावृत्तियों के माध्यम से दृष्टि पहचान परिणामों में क्रमिक सुधार करता है
  4. लेआउट अनुकूलन: संबंधित छवियों के साथ पुनः प्रशिक्षण के माध्यम से नए वाहन पंजीकरण लेआउट के अनुकूल हो सकता है

प्रयोगात्मक सेटअप

डेटासेट

डेटासेटवर्षछवि संख्यारिज़ॉल्यूशनवाहन पंजीकरण लेआउटमूल्यांकन प्रोटोकॉल
IR-LPR202220967 वाहन छवियां
48712 वाहन पंजीकरण छवियां
1280×1280ईरानीहां
UFPR-ALPR20184500 वाहन छवियां1920×1080ब्राजीलियाईहां
AOLP20132049 वाहन छवियांविविधताइवानीनहीं

डेटासेट विशेषताएं:

  • IR-LPR: विविध पर्यावरण (पार्किंग स्थल, विभिन्न समय, प्रकाश स्थितियां), 1-10 मीटर की दूरी
  • UFPR-ALPR: ब्राजीलियाई डेटासेट, 300 वाहन, गतिशील वाहन शूटिंग, जटिल पृष्ठभूमि
  • AOLP: तीन उप-सेट (AC नियंत्रित स्थितियां, LE सड़क निगरानी, RP सड़क किनारे गश्त)

मूल्यांकन मेट्रिक्स

पहचान मेट्रिक्स:

  • सटीकता (Precision) = TP/(TP+FP)
  • रिकॉल (Recall) = TP/(TP+FN)
  • F1 स्कोर = 2×(Precision×Recall)/(Precision+Recall)
  • औसत सटीकता mAP@0.5

पहचान मेट्रिक्स:

  • सटीकता (Accuracy) = सही पहचाने गए वाहन पंजीकरण की संख्या / कुल वाहन पंजीकरण संख्या

कार्यान्वयन विवरण

  • हार्डवेयर कॉन्फ़िगरेशन: Intel i9-10900k CPU, 32GB RAM, NVIDIA RTX 3070 GPU
  • प्रशिक्षण रणनीति: डेटासेट जटिलता के अनुसार बैच आकार, सीखने की दर आदि हाइपरपैरामीटर को समायोजित करना

प्रयोगात्मक परिणाम

मुख्य परिणाम

पहचान प्रदर्शन:

डेटासेटसटीकता (%)रिकॉल (%)F1 स्कोरmAP@0.5
IR-LPR1009798.4897.4
UFPR-ALPR10010010098.5
AOLP10010010099.1

पहचान प्रदर्शन:

डेटासेटप्रशिक्षणसत्यापनपरीक्षण
IR-LPR99.97%97.03%97.12%
UFPR-ALPR99.99%99.9%99.93%
AOLP100%99.99%99.4%

अंत-से-अंत प्रदर्शन:

डेटासेटअंत-से-अंत सटीकता
IR-LPR94.77%
UFPR-ALPR99.99%
AOLP97.56%

उन्नत विधियों के साथ तुलना

पहचान सटीकता तुलना:

विधिIR-LPRAOLPUFPR-ALPR
Hao et al.202494.9%--
Laroca et al.2021-99.2%97.57%
Silva et al.2018-98.36%-
यह विधि97.12%99.4%99.93%

कम्प्यूटेशनल दक्षता

  • औसत प्रसंस्करण समय: 55.565 मिलीसेकंड/छवि
  • कम्प्यूटेशनल आवश्यकता: 198.0 GFLOPs, 95×10^6 पैरामीटर
  • वास्तविक समय प्रदर्शन: वास्तविक समय अनुप्रयोग आवश्यकताओं को पूरा करता है

रात्रिकालीन पहचान प्रदर्शन

IR-LPR डेटासेट की 889 रात्रिकालीन छवियों पर परीक्षण:

  • रात्रिकालीन अंत-से-अंत सटीकता: 94.60%
  • कम प्रकाश स्थितियों में प्रणाली की मजबूती को प्रमाणित करता है

संबंधित कार्य

वाहन पंजीकरण पहचान विधियां

  1. पारंपरिक वस्तु पहचान: Faster R-CNN, YOLO, SSD आदि व्यापक रूप से लागू
  2. विशेष पहचान तकनीकें: हाइब्रिड कैस्केड संरचना, RNN-बढ़ी हुई स्थिति निर्धारण आदि
  3. YOLO श्रृंखला विकास: YOLOv1 से YOLOv9 तक निरंतर सुधार

वाहन पंजीकरण पहचान विधियां

विभाजन-आधारित विधियां:

  • वर्ण और पृष्ठभूमि के रंग अंतर पर निर्भर
  • क्षैतिज पिक्सेल प्रक्षेपण के माध्यम से वर्ण सीमाएं प्राप्त करना
  • सटीकता विभाजन गुणवत्ता पर गंभीर रूप से निर्भर

विभाजन-रहित विधियां:

  • वाहन पंजीकरण वर्णों को अनुक्रम के रूप में सीधे संभालना
  • CNN+RNN+CTC संरचना का उपयोग
  • अभी भी पोस्ट-प्रोसेसिंग के लिए अनुमानी नियमों की आवश्यकता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. लेआउट स्वतंत्रता: पैटर्न विश्लेषण को पहचान प्रक्रिया में एम्बेड करके, वास्तविक लेआउट-स्वतंत्र पहचान प्राप्त की
  2. उत्कृष्ट प्रदर्शन: तीन अंतर्राष्ट्रीय डेटासेट पर अत्याधुनिक प्रदर्शन प्राप्त किया
  3. व्यावहारिक मूल्य: 55.565 मिलीसेकंड की प्रसंस्करण समय वास्तविक समय अनुप्रयोग आवश्यकताओं को पूरा करती है
  4. मजबूती: रात्रिकालीन जैसी चुनौतीपूर्ण स्थितियों में भी उच्च सटीकता बनाए रखता है

सीमाएं

  1. डेटासेट आकार: AOLP और UFPR-ALPR डेटासेट में सीमित नमूने हो सकते हैं, विधि के लाभों को पूरी तरह प्रदर्शित नहीं कर सकते
  2. वर्ण भ्रम: कुछ मामलों में अभी भी वर्ण गलत पहचान मौजूद है ("8" को "B" के रूप में पहचाना जाना)
  3. भाषा मॉडल सीमाएं: स्पष्ट नियमों के बिना वर्ण संयोजनों के लिए, भाषा मॉडल प्रभावी सुधार करने में कठिनाई होती है

भविष्य की दिशाएं

  1. वीडियो ALPR प्रणाली: पूर्ण वीडियो-आधारित ALPR प्रणाली में विस्तार
  2. एज डिवाइस अनुकूलन: सीमित एज डिवाइस पर वास्तविक समय दक्षता बनाए रखना
  3. बहु-लिपि समर्थन: भाषा मॉडल को बहु-लिपि वाहन पंजीकरण (जैसे लैटिन और फारसी) को एक साथ संभालने के लिए अनुकूलित करना

गहन मूल्यांकन

लाभ

  1. मजबूत नवाचार: पहली बार दृष्टि-भाषा मॉडल को ALPR में प्रभावी रूप से एकीकृत किया, लेआउट-स्वतंत्र पहचान प्राप्त की
  2. व्यापक प्रयोग: तीन विभिन्न भाषाओं और प्रारूपों के अंतर्राष्ट्रीय डेटासेट पर व्यापक सत्यापन
  3. उत्कृष्ट प्रदर्शन: सभी परीक्षण डेटासेट पर अत्याधुनिक प्रदर्शन प्राप्त किया
  4. मजबूत व्यावहारिकता: प्रसंस्करण गति वास्तविक समय अनुप्रयोग आवश्यकताओं को पूरा करती है, प्रणाली डिज़ाइन व्यावहारिक तैनाती पर विचार करता है

कमियां

  1. अपर्याप्त सैद्धांतिक विश्लेषण: इस बात की गहन सैद्धांतिक व्याख्या की कमी कि यह विधि प्रभावी क्यों है
  2. सीमित विलोपन प्रयोग: प्रत्येक घटक (दृष्टि मॉडल, भाषा मॉडल, पुनरावृत्तिमूलक तंत्र) के स्वतंत्र योगदान का अपर्याप्त विश्लेषण
  3. सामान्यीकरण सत्यापन: अधिक विविध डेटासेट पर क्रॉस-डोमेन सामान्यीकरण क्षमता को सत्यापित करने की आवश्यकता

प्रभाव

  1. शैक्षणिक योगदान: ALPR क्षेत्र के लिए नया दृष्टि-भाषा एकीकरण प्रतिमान प्रदान करता है
  2. व्यावहारिक मूल्य: बुद्धिमान परिवहन प्रणालियों और निगरानी अनुप्रयोगों में सीधे लागू किया जा सकता है
  3. पुनरुत्पादनशीलता: विधि विवरण स्पष्ट, सार्वजनिक डेटासेट का उपयोग, अच्छी पुनरुत्पादनशीलता

लागू परिदृश्य

  1. बुद्धिमान परिवहन प्रणालियां: राजमार्ग टोल, यातायात निगरानी
  2. सुरक्षा निगरानी: पार्किंग स्थल प्रबंधन, सीमा नियंत्रण
  3. प्रवर्तन अनुप्रयोग: उल्लंघन पहचान, चोरी वाहन ट्रैकिंग
  4. अंतर्राष्ट्रीय अनुप्रयोग: कई वाहन पंजीकरण प्रारूपों को संभालने की आवश्यकता वाले अंतर्राष्ट्रीय परिदृश्य

संदर्भ

पेपर में 67 संबंधित संदर्भ उद्धृत किए गए हैं, जो ALPR, वस्तु पहचान, पाठ पहचान आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।


समग्र मूल्यांकन: यह कंप्यूटर विजन क्षेत्र में एक उच्च-गुणवत्ता वाला पेपर है, जो स्वचालित वाहन पंजीकरण पहचान क्षेत्र में एक नवीन दृष्टि-भाषा एकीकरण ढांचा प्रस्तावित करता है। विधि नवीन, प्रयोग व्यापक, परिणाम विश्वसनीय, महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक महत्व के साथ।