Layout-Independent License Plate Recognition via Integrated Vision and Language Models
Shabaninia, Asadi-zeydabadi, Nezamabadi-pour
This work presents a pattern-aware framework for automatic license plate recognition (ALPR), designed to operate reliably across diverse plate layouts and challenging real-world conditions. The proposed system consists of a modern, high-precision detection network followed by a recognition stage that integrates a transformer-based vision model with an iterative language modelling mechanism. This unified recognition stage performs character identification and post-OCR refinement in a seamless process, learning the structural patterns and formatting rules specific to license plates without relying on explicit heuristic corrections or manual layout classification. Through this design, the system jointly optimizes visual and linguistic cues, enables iterative refinement to improve OCR accuracy under noise, distortion, and unconventional fonts, and achieves layout-independent recognition across multiple international datasets (IR-LPR, UFPR-ALPR, AOLP). Experimental results demonstrate superior accuracy and robustness compared to recent segmentation-free approaches, highlighting how embedding pattern analysis within the recognition stage bridges computer vision and language modelling for enhanced adaptability in intelligent transportation and surveillance applications.
academic
लेआउट-स्वतंत्र लाइसेंस प्लेट पहचान एकीकृत दृष्टि और भाषा मॉडल के माध्यम से
यह अनुसंधान एक पैटर्न-जागरूक स्वचालित वाहन पंजीकरण पहचान (ALPR) ढांचा प्रस्तावित करता है, जो विविध वाहन पंजीकरण लेआउट और चुनौतीपूर्ण वास्तविक-विश्व स्थितियों में विश्वसनीय संचालन के लिए डिज़ाइन किया गया है। यह प्रणाली आधुनिक उच्च-सटीकता पहचान नेटवर्क और एकीकृत ट्रांसफॉर्मर दृष्टि मॉडल के साथ पुनरावृत्तिमूलक भाषा मॉडलिंग तंत्र से युक्त एक पहचान चरण से बना है। यह एकीकृत पहचान चरण एक निर्बाध प्रक्रिया में वर्ण पहचान और OCR के बाद परिशोधन करता है, वाहन पंजीकरण-विशिष्ट संरचनात्मक पैटर्न और प्रारूप नियमों को सीखता है, बिना स्पष्ट अनुमानी सुधार या मैनुअल लेआउट वर्गीकरण पर निर्भर रहे। इस डिज़ाइन के माध्यम से, सिस्टम दृष्टि और भाषा संकेतों को संयुक्त रूप से अनुकूलित करता है, शोर, विरूपण और अपरंपरागत फ़ॉन्ट के तहत OCR सटीकता में सुधार के लिए पुनरावृत्तिमूलक परिशोधन प्राप्त करता है, और कई अंतर्राष्ट्रीय डेटासेट पर लेआउट-स्वतंत्र पहचान प्राप्त करता है।
पारंपरिक स्वचालित वाहन पंजीकरण पहचान (ALPR) प्रणालियों को निम्नलिखित मुख्य चुनौतियों का सामना करना पड़ता है:
बहु-चरणीय त्रुटि संचय: पारंपरिक ALPR प्रणालियों में वाहन पंजीकरण पहचान (LPD), वर्ण विभाजन (CS) और ऑप्टिकल वर्ण पहचान (OCR) के तीन स्वतंत्र मॉड्यूल होते हैं, प्रत्येक चरण की त्रुटियां अगले चरण में प्रसारित होती हैं
लेआउट निर्भरता: मौजूदा प्रणालियों को आमतौर पर विशिष्ट क्षेत्रों के वाहन पंजीकरण प्रारूपों के लिए मैनुअल नियम डिज़ाइन और पोस्ट-प्रोसेसिंग सुधार की आवश्यकता होती है
अंतर्राष्ट्रीय अनुकूलन में कमी: विभिन्न देशों और क्षेत्रों के वाहन पंजीकरण प्रारूप, वर्ण सेट, और संख्या प्रणालियों में विशाल अंतर होते हैं, जैसे अमेरिकी राज्यों के विभिन्न प्रारूप ("1ABC234" बनाम "ABC-1234"), ब्रिटिश सफेद-पीछे-पीले पृष्ठभूमि आदि
लेआउट-स्वतंत्र पहचान आर्किटेक्चर: संरचनात्मक पैटर्न विश्लेषण को पहचान प्रक्रिया में एम्बेड करता है, मैनुअल विशेषता इंजीनियरिंग या लेआउट-विशिष्ट अनुमानी नियमों की आवश्यकता नहीं
पुनरावृत्तिमूलक परिशोधन तंत्र: दृष्टि-भाषा संकेतों के संयुक्त अनुकूलन का उपयोग करके, चुनौतीपूर्ण स्थितियों में OCR परिणामों को बढ़ाता है
क्रॉस-डेटासेट सत्यापन: IR-LPR, UFPR-ALPR और AOLP तीन अंतर्राष्ट्रीय डेटासेट पर स्केलेबिलिटी को सत्यापित किया
विभाजन-रहित संचालन: पारंपरिक ALPR की बाधा को समाप्त करता है, साथ ही सटीकता और मजबूती में सुधार करता है
इनपुट: वाहन पंजीकरण युक्त वाहन छवि
आउटपुट: वाहन पंजीकरण क्षेत्र का सटीक वर्ण अनुक्रम
बाधाएं: विभिन्न वाहन पंजीकरण लेआउट, फ़ॉन्ट, भाषाएं और पर्यावरणीय स्थितियों को संभालने की आवश्यकता
पेपर में 67 संबंधित संदर्भ उद्धृत किए गए हैं, जो ALPR, वस्तु पहचान, पाठ पहचान आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।
समग्र मूल्यांकन: यह कंप्यूटर विजन क्षेत्र में एक उच्च-गुणवत्ता वाला पेपर है, जो स्वचालित वाहन पंजीकरण पहचान क्षेत्र में एक नवीन दृष्टि-भाषा एकीकरण ढांचा प्रस्तावित करता है। विधि नवीन, प्रयोग व्यापक, परिणाम विश्वसनीय, महत्वपूर्ण शैक्षणिक मूल्य और व्यावहारिक महत्व के साथ।