Layout-Independent License Plate Recognition via Integrated Vision and Language Models
Shabaninia, Asadi-zeydabadi, Nezamabadi-pour
This work presents a pattern-aware framework for automatic license plate recognition (ALPR), designed to operate reliably across diverse plate layouts and challenging real-world conditions. The proposed system consists of a modern, high-precision detection network followed by a recognition stage that integrates a transformer-based vision model with an iterative language modelling mechanism. This unified recognition stage performs character identification and post-OCR refinement in a seamless process, learning the structural patterns and formatting rules specific to license plates without relying on explicit heuristic corrections or manual layout classification. Through this design, the system jointly optimizes visual and linguistic cues, enables iterative refinement to improve OCR accuracy under noise, distortion, and unconventional fonts, and achieves layout-independent recognition across multiple international datasets (IR-LPR, UFPR-ALPR, AOLP). Experimental results demonstrate superior accuracy and robustness compared to recent segmentation-free approaches, highlighting how embedding pattern analysis within the recognition stage bridges computer vision and language modelling for enhanced adaptability in intelligent transportation and surveillance applications.
academic
التعرف على لوحات الترخيص المستقل عن التخطيط من خلال نماذج الرؤية واللغة المتكاملة
تقدم هذه الدراسة إطار عمل للتعرف التلقائي على لوحات الترخيص (ALPR) يدرك الأنماط، بهدف العمل بشكل موثوق عبر تخطيطات لوحات ترخيص متنوعة وظروف العالم الحقيقي الصعبة. يتكون النظام من شبكة كشف حديثة عالية الدقة ومرحلة تعرف تدمج نموذج رؤية محول مع آلية نمذجة لغوية تكرارية. تنفذ مرحلة التعرف الموحدة هذه التعرف على الأحرف وتحسين ما بعد المعالجة البصرية في عملية سلسة، مع تعلم أنماط البنية والقواعد الصيغية الخاصة بلوحات الترخيص، دون الاعتماد على تصحيحات استكشافية صريحة أو تصنيف تخطيط يدوي. من خلال هذا التصميم، يحسّن النظام بشكل مشترك إشارات الرؤية واللغة، مما يحقق تحسيناً تكرارياً لزيادة دقة المعالجة البصرية في ظل الضوضاء والتشويه والخطوط غير التقليدية، وتحقيق التعرف المستقل عن التخطيط عبر مجموعات بيانات دولية متعددة.
تواجه أنظمة التعرف التلقائي على لوحات الترخيص التقليدية (ALPR) التحديات الأساسية التالية:
تراكم الأخطاء متعدد المراحل: تتضمن أنظمة ALPR التقليدية ثلاث وحدات مستقلة: كشف لوحة الترخيص (LPD)، وتقسيم الأحرف (CS)، والتعرف البصري على الأحرف (OCR)، حيث تنتشر أخطاء كل مرحلة إلى المرحلة التالية
الاعتماد على التخطيط: تتطلب الأنظمة الموجودة عادة تصميم قواعد يدوية وتصحيح لاحق خاص بتنسيقات لوحات الترخيص لمناطق معينة
ضعف التكيف الدولي: توجد اختلافات ضخمة في تنسيقات لوحات الترخيص والمجموعات الحرفية وأنظمة الترقيم بين الدول والمناطق المختلفة، مثل التنسيقات المختلفة في الولايات الأمريكية ("1ABC234" مقابل "ABC-1234")، والخلفيات البيضاء والصفراء في المملكة المتحدة
الإدخال: صور المركبات التي تحتوي على لوحات ترخيص
الإخراج: تسلسل أحرف دقيق لمنطقة لوحة الترخيص
القيود: الحاجة إلى التعامل مع تخطيطات لوحات ترخيص مختلفة وخطوط ولغات وظروف بيئية
تستشهد الورقة بـ 67 مرجعاً ذا صلة، تغطي مجالات متعددة بما في ذلك ALPR والكشف عن الأهداف والتعرف على النصوص، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال رؤية الحاسوب، تقدم إطار عمل مبتكراً متكاملاً للرؤية واللغة في مجال التعرف التلقائي على لوحات الترخيص. الطريقة مبتكرة، والتجارب شاملة، والنتائج مقنعة، وتتمتع بقيمة أكاديمية وعملية مهمة.