2025-11-14T21:10:11.633482

Layout-Independent License Plate Recognition via Integrated Vision and Language Models

Shabaninia, Asadi-zeydabadi, Nezamabadi-pour

This work presents a pattern-aware framework for automatic license plate recognition (ALPR), designed to operate reliably across diverse plate layouts and challenging real-world conditions. The proposed system consists of a modern, high-precision detection network followed by a recognition stage that integrates a transformer-based vision model with an iterative language modelling mechanism. This unified recognition stage performs character identification and post-OCR refinement in a seamless process, learning the structural patterns and formatting rules specific to license plates without relying on explicit heuristic corrections or manual layout classification. Through this design, the system jointly optimizes visual and linguistic cues, enables iterative refinement to improve OCR accuracy under noise, distortion, and unconventional fonts, and achieves layout-independent recognition across multiple international datasets (IR-LPR, UFPR-ALPR, AOLP). Experimental results demonstrate superior accuracy and robustness compared to recent segmentation-free approaches, highlighting how embedding pattern analysis within the recognition stage bridges computer vision and language modelling for enhanced adaptability in intelligent transportation and surveillance applications.

academic

التعرف على لوحات الترخيص المستقل عن التخطيط من خلال نماذج الرؤية واللغة المتكاملة

المعلومات الأساسية

معرّف الورقة: 2510.10533
العنوان: التعرف على لوحات الترخيص المستقل عن التخطيط من خلال نماذج الرؤية واللغة المتكاملة
المؤلفون: إلهام شعبانينيا، فاطمة أسدي-زيدابادي، حسين نظام‌آبادي‌پور
التصنيف: cs.CV (رؤية الحاسوب)
المؤسسات: جامعة التكنولوجيا المتقدمة للدراسات العليا وجامعة شهيد باهونار بكرمان، إيران
رابط الورقة: https://arxiv.org/abs/2510.10533

الملخص

تقدم هذه الدراسة إطار عمل للتعرف التلقائي على لوحات الترخيص (ALPR) يدرك الأنماط، بهدف العمل بشكل موثوق عبر تخطيطات لوحات ترخيص متنوعة وظروف العالم الحقيقي الصعبة. يتكون النظام من شبكة كشف حديثة عالية الدقة ومرحلة تعرف تدمج نموذج رؤية محول مع آلية نمذجة لغوية تكرارية. تنفذ مرحلة التعرف الموحدة هذه التعرف على الأحرف وتحسين ما بعد المعالجة البصرية في عملية سلسة، مع تعلم أنماط البنية والقواعد الصيغية الخاصة بلوحات الترخيص، دون الاعتماد على تصحيحات استكشافية صريحة أو تصنيف تخطيط يدوي. من خلال هذا التصميم، يحسّن النظام بشكل مشترك إشارات الرؤية واللغة، مما يحقق تحسيناً تكرارياً لزيادة دقة المعالجة البصرية في ظل الضوضاء والتشويه والخطوط غير التقليدية، وتحقيق التعرف المستقل عن التخطيط عبر مجموعات بيانات دولية متعددة.

خلفية البحث والدافع

تعريف المشكلة

تواجه أنظمة التعرف التلقائي على لوحات الترخيص التقليدية (ALPR) التحديات الأساسية التالية:

تراكم الأخطاء متعدد المراحل: تتضمن أنظمة ALPR التقليدية ثلاث وحدات مستقلة: كشف لوحة الترخيص (LPD)، وتقسيم الأحرف (CS)، والتعرف البصري على الأحرف (OCR)، حيث تنتشر أخطاء كل مرحلة إلى المرحلة التالية
الاعتماد على التخطيط: تتطلب الأنظمة الموجودة عادة تصميم قواعد يدوية وتصحيح لاحق خاص بتنسيقات لوحات الترخيص لمناطق معينة
ضعف التكيف الدولي: توجد اختلافات ضخمة في تنسيقات لوحات الترخيص والمجموعات الحرفية وأنظمة الترقيم بين الدول والمناطق المختلفة، مثل التنسيقات المختلفة في الولايات الأمريكية ("1ABC234" مقابل "ABC-1234")، والخلفيات البيضاء والصفراء في المملكة المتحدة

دافع البحث

يفرض التطور السريع لأنظمة النقل الذكية (ITS) متطلبات أعلى على أنظمة ALPR:

الحاجة إلى التعامل مع سيناريوهات عالم حقيقي أكثر تعقيداً (الانسداد، الإضاءة غير المنتظمة، الدوران، عدم الوضوح)
تتطلب الأنظمة القدرة على التعميم عبر المناطق واللغات
الحاجة إلى الأداء في الوقت الفعلي لدعم تطبيقات المراقبة المرورية عالية الطلب

قيود الطرق الموجودة

الطرق القائمة على التقسيم: تعتمد على جودة تقسيم الأحرف، وتتأثر بسهولة بالضوضاء والتشويه
الطرق بدون تقسيم: على الرغم من تجنب مشاكل التقسيم، لا تزال تتطلب قواعد استكشافية لاحقة خاصة بتخطيط معين
غياب إطار عمل موحد: عادة ما يتم فصل التعرف البصري والتصحيح اللغوي عن بعضهما، مما يمنع التحسين المشترك

المساهمات الأساسية

معمارية التعرف المستقلة عن التخطيط: تدمج تحليل الأنماط البنيوية في عملية التعرف، دون الحاجة إلى هندسة ميزات يدوية أو قواعد استكشافية خاصة بتخطيط معين
آلية التحسين التكراري: تستفيد من التحسين المشترك لإشارات الرؤية واللغة، لتحسين نتائج المعالجة البصرية في الظروف الصعبة
التحقق عبر مجموعات البيانات: تم التحقق من قابلية التوسع على ثلاث مجموعات بيانات دولية: IR-LPR و UFPR-ALPR و AOLP
عملية خالية من التقسيم: تزيل اختناق ALPR التقليدي مع تحسين الدقة والقوة

شرح الطريقة

تعريف المهمة

الإدخال: صور المركبات التي تحتوي على لوحات ترخيص الإخراج: تسلسل أحرف دقيق لمنطقة لوحة الترخيص القيود: الحاجة إلى التعامل مع تخطيطات لوحات ترخيص مختلفة وخطوط ولغات وظروف بيئية

معمارية النموذج

الإطار العام

يعتمد النظام على تصميم ثنائي المراحل:

مرحلة كشف لوحة الترخيص: استخدام YOLOv9 للكشف عن الأهداف عالي الدقة
مرحلة التعرف على لوحة الترخيص: إطار عمل تعرف موحد يدمج نموذج الرؤية (VM) ونموذج اللغة (LM)

1. شبكة كشف لوحة الترخيص (YOLOv9)

المزايا الرئيسية لاختيار YOLOv9:

العمود الفقري المحسّن: يستخدم معمارية شبكة عصبية تلافيفية محسّنة لاستخراج ميزات متفوق
رأس الكشف المحسّن: يحسّن دقة وتذكر صناديق الحدود
شبكة تجميع المسار (PANet): يحسّن تدفق المعلومات عبر مقاييس مختلفة
المعالجة اللاحقة المتقدمة: استخدام قمع القيم القصوى غير الأعظمية (NMS) وعتبات IoU محسّنة

2. شبكة التعرف على لوحة الترخيص

نموذج الرؤية (VM):

يستخدم معمارية محول تلافيفي (CvT)
العمود الفقري التلافيفي ResNet45 لاستخراج الميزات الأولية:
```
F_b = B(x) ∈ R^(h×w×d)
F_m = M(F_b) ∈ R^(h×w×d)
```

آلية الانتباه الموضعي للمحول:

Q = PE(t) ∈ R^(h×w×d)
K = g(F_m) ∈ R^(h×w×d)  
V = H(F_m) ∈ R^(h×w×d)
F_v = Softmax(QK^T/√D)V

نموذج اللغة (LM):

يستخدم شبكة الملء ثنائية الاتجاه (BCN)
فك تشفير محول معدل بـ L طبقة
نقاط التصميم الرئيسية:
- إدخال متجهات الأحرف مباشرة إلى كتل الانتباه متعدد الرؤوس
- استخدام قناع الانتباه لمنع الإشارة الذاتية:
```
M_ij = {0, i≠j; -∞, i=j}
```
- التنفيذ التكراري M مرات، مع تحسين تنبؤات نموذج الرؤية بشكل تدريجي

نقاط الابتكار التقني

التصميم الذي يدرك الأنماط: تدمج تعلم أنماط البنية والقيود الصيغية الخاصة بلوحات الترخيص في حلقة التعرف
التحسين المشترك للرؤية واللغة: تنفذ مرحلة التعرف الموحدة التعرف على الأحرف وتحسين الإخراج في نفس الوقت
آلية التحسين التكراري: يحسّن نموذج اللغة نتائج التعرف البصري بشكل تدريجي من خلال تكرارات متعددة
التكيف المستقل عن التخطيط: يمكن التكيف مع تخطيطات لوحات ترخيص جديدة من خلال إعادة التدريب على الصور ذات الصلة فقط

إعداد التجارب

مجموعات البيانات

مجموعة البيانات	السنة	عدد الصور	الدقة	تخطيط لوحة الترخيص	بروتوكول التقييم
IR-LPR	2022	20967 صورة مركبة 48712 صورة لوحة ترخيص	1280×1280	إيرانية	نعم
UFPR-ALPR	2018	4500 صورة مركبة	1920×1080	برازيلية	نعم
AOLP	2013	2049 صورة مركبة	متنوعة	تايوانية	لا

خصائص مجموعات البيانات:

IR-LPR: تتضمن بيئات متنوعة (مواقف السيارات، أوقات مختلفة، ظروف إضاءة)، مسافة 1-10 أمتار
UFPR-ALPR: مجموعة بيانات برازيلية، 300 سيارة، تصوير المركبات المتحركة، خلفيات معقدة
AOLP: ثلاث مجموعات فرعية (AC الظروف المضبوطة، LE المراقبة على الطريق، RP دوريات الطرق)

مؤشرات التقييم

مؤشرات الكشف:

الدقة (Precision) = TP/(TP+FP)
الاستدعاء (Recall) = TP/(TP+FN)
درجة F1 = 2×(Precision×Recall)/(Precision+Recall)
متوسط الدقة mAP@0.5

مؤشرات التعرف:

الدقة (Accuracy) = عدد لوحات الترخيص المعترف بها بشكل صحيح / إجمالي عدد لوحات الترخيص

تفاصيل التنفيذ

تكوين الأجهزة: معالج Intel i9-10900k، ذاكرة 32GB، بطاقة رسومات NVIDIA RTX 3070
استراتيجية التدريب: تعديل حجم الدفعة ومعدل التعلم والمعاملات الفائقة الأخرى وفقاً لتعقيد مجموعة البيانات

نتائج التجارب

النتائج الرئيسية

أداء الكشف:

مجموعة البيانات	الدقة (%)	الاستدعاء (%)	درجة F1	mAP@0.5
IR-LPR	100	97	98.48	97.4
UFPR-ALPR	100	100	100	98.5
AOLP	100	100	100	99.1

أداء التعرف:

مجموعة البيانات	التدريب	التحقق	الاختبار
IR-LPR	99.97%	97.03%	97.12%
UFPR-ALPR	99.99%	99.9%	99.93%
AOLP	100%	99.99%	99.4%

الأداء من طرف إلى طرف:

مجموعة البيانات	دقة من طرف إلى طرف
IR-LPR	94.77%
UFPR-ALPR	99.99%
AOLP	97.56%

المقارنة مع الطرق المتقدمة

مقارنة دقة التعرف:

الطريقة	IR-LPR	AOLP	UFPR-ALPR
Hao et al.2024	94.9%	-	-
Laroca et al.2021	-	99.2%	97.57%
Silva et al.2018	-	98.36%	-
الطريقة المقترحة	97.12%	99.4%	99.93%

الكفاءة الحسابية

متوسط وقت المعالجة: 55.565 ميلي ثانية / صورة
متطلبات الحساب: 198.0 GFLOPs، 95×10^6 معامل
الأداء في الوقت الفعلي: يلبي متطلبات التطبيقات في الوقت الفعلي

أداء التعرف الليلي

اختبار على 889 صورة ليلية من مجموعة بيانات IR-LPR:

دقة من طرف إلى طرف في الليل: 94.60%
يثبت قوة النظام في ظروف الإضاءة المنخفضة

الأعمال ذات الصلة

طرق كشف لوحات الترخيص

كاشفات الأهداف التقليدية: يتم تطبيق Faster R-CNN و YOLO و SSD على نطاق واسع
تقنيات الكشف المتخصصة: هياكل الكسكيد الهجينة، تحديد الموقع المحسّن بـ RNN وغيرها
تطور سلسلة YOLO: التحسينات المستمرة من YOLOv1 إلى YOLOv9

طرق التعرف على لوحات الترخيص

الطرق القائمة على التقسيم:

تعتمد على الفرق اللوني بين الأحرف والخلفية
الحصول على حدود الأحرف من خلال إسقاط البكسل الأفقي
تعتمد الدقة بشكل كبير على جودة التقسيم

الطرق بدون تقسيم:

معالجة أحرف لوحة الترخيص كتسلسل مباشرة
استخدام بنية CNN+RNN+CTC
لا تزال تتطلب قواعد استكشافية لإجراء معالجة لاحقة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

الاستقلالية عن التخطيط: من خلال تضمين تحليل الأنماط في عملية التعرف، تحقق التعرف الحقيقي المستقل عن التخطيط
الأداء الممتاز: حققت أداء متقدمة على جميع مجموعات البيانات الدولية الثلاث
القيمة العملية: وقت المعالجة 55.565 ميلي ثانية يلبي متطلبات التطبيقات في الوقت الفعلي
القوة: تحافظ على دقة عالية في الظروف الصعبة مثل الليل

القيود

حجم مجموعة البيانات: قد تكون مجموعات بيانات AOLP و UFPR-ALPR محدودة العينات، مما قد لا يعرض بشكل كامل مزايا الطريقة
التباس الأحرف: لا تزال توجد حالات من الأخطاء في التعرف على الأحرف (مثل التعرف على "8" كـ "B")
قيود نموذج اللغة: يصعب على نموذج اللغة إجراء تصحيح فعال للتركيبات الحرفية التي لا توجد قواعد واضحة لها

الاتجاهات المستقبلية

أنظمة ALPR القائمة على الفيديو: التوسع إلى نظام ALPR كامل قائم على الفيديو
تحسين الأجهزة المحدودة: الحفاظ على الكفاءة في الوقت الفعلي على أجهزة محدودة الموارد
دعم النصوص المتعددة: تحسين نموذج اللغة للتعامل المتزامن مع لوحات ترخيص متعددة النصوص (مثل اللاتينية والفارسية)

التقييم المتعمق

المزايا

ابتكار قوي: أول تكامل فعال لنماذج الرؤية واللغة في ALPR، مما يحقق التعرف المستقل عن التخطيط
تجارب شاملة: تم إجراء التحقق الشامل على ثلاث مجموعات بيانات دولية بلغات وتنسيقات مختلفة
أداء ممتازة: حققت أداء متقدمة على جميع مجموعات البيانات المختبرة
قوة عملية: يأخذ تصميم النظام في الاعتبار النشر الفعلي، مع سرعة معالجة تلبي متطلبات التطبيقات الفعلية

أوجه القصور

نقص التحليل النظري: يفتقر إلى تحليل نظري متعمق حول سبب فعالية هذه الطريقة
تجارب الاستئصال محدودة: لم يتم تحليل المساهمة المستقلة لكل مكون (نموذج الرؤية، نموذج اللغة، آلية التحسين التكراري) بشكل كافٍ
التحقق من القابلية للتعميم: يتطلب التحقق من قابلية التعميم عبر المجالات على مجموعات بيانات أكثر تنوعاً

التأثير

المساهمة الأكاديمية: توفر نموذج تكامل جديد للرؤية واللغة لمجال ALPR
القيمة العملية: يمكن تطبيقها مباشرة على أنظمة النقل الذكية وتطبيقات المراقبة
قابلية الاستنساخ: وصف الطريقة واضح، استخدام مجموعات بيانات عامة، قابلية استنساخ جيدة

السيناريوهات المعمول بها

أنظمة النقل الذكية: رسوم الطرق السريعة، المراقبة المرورية
المراقبة الأمنية: إدارة مواقف السيارات، التحكم الحدودي
تطبيقات الإنفاذ: كشف المخالفات، تتبع السيارات المسروقة
التطبيقات الدولية: السيناريوهات التي تتطلب التعامل مع تنسيقات لوحات ترخيص متعددة

المراجع

تستشهد الورقة بـ 67 مرجعاً ذا صلة، تغطي مجالات متعددة بما في ذلك ALPR والكشف عن الأهداف والتعرف على النصوص، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال رؤية الحاسوب، تقدم إطار عمل مبتكراً متكاملاً للرؤية واللغة في مجال التعرف التلقائي على لوحات الترخيص. الطريقة مبتكرة، والتجارب شاملة، والنتائج مقنعة، وتتمتع بقيمة أكاديمية وعملية مهمة.