2025-11-17T14:19:12.162044

Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices

Chakraborty, Asrar, Sengupta et al.

5G networks enable diverse services such as eMBB, URLLC, and mMTC through network slicing, necessitating intelligent admission control and resource allocation to meet stringent QoS requirements while maximizing Network Service Provider (NSP) profits. However, existing Deep Reinforcement Learning (DRL) frameworks focus primarily on profit optimization without explicitly accounting for service delay, potentially leading to QoS violations for latency-sensitive slices. Moreover, commonly used epsilon-greedy exploration of DRL often results in unstable convergence and suboptimal policy learning. To address these gaps, we propose DePSAC -- a Delay and Profit-aware Slice Admission Control scheme. Our DRL-based approach incorporates a delay-aware reward function, where penalties due to service delay incentivize the prioritization of latency-critical slices such as URLLC. Additionally, we employ Boltzmann exploration to achieve smoother and faster convergence. We implement and evaluate DePSAC on a simulated 5G core network substrate with realistic Network Slice Request (NSLR) arrival patterns. Experimental results demonstrate that our method outperforms the DSARA baseline in terms of overall profit, reduced URLLC slice delays, improved acceptance rates, and improved resource consumption. These findings validate the effectiveness of the proposed DePSAC in achieving better QoS-profit trade-offs for practical 5G network slicing scenarios.

academic

أولويات الكمون مع الربح: التحكم في القبول القائم على التعلم العميق بالتعزيز لشرائح شبكات الجيل الخامس

المعلومات الأساسية

معرّف الورقة: 2510.08769
العنوان: أولويات الكمون مع الربح: التحكم في القبول القائم على التعلم العميق بالتعزيز لشرائح شبكات الجيل الخامس
المؤلفون: Proggya Chakraborty, Aaquib Asrar, Jayasree Sengupta, Sipra Das Bit
التصنيف: cs.NI (هندسة الشبكات والإنترنت)، cs.LG (التعلم الآلي)، cs.PF (الأداء)
تاريخ النشر: تم تقديمه إلى arXiv في 9 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.08769v1

الملخص

تقترح هذه الورقة حلاً يُسمى DePSAC (التحكم في القبول في الشرائح مع الوعي بالكمون والربح) لمعالجة مشكلة التحكم في القبول في شرائح شبكات الجيل الخامس. يعتمد الحل على إطار عمل التعلم العميق بالتعزيز، ويوازن بين تعظيم ربح مزودي خدمات الشبكة وإعطاء الأولوية للكمون، خاصة لشرائح الاتصالات الموثوقة للغاية منخفضة الكمون (URLLC). يستخدم الحل دالة مكافأة واعية بالكمون واستراتيجية استكشاف بولتسمان، وقد تم التحقق من فعاليته على شبكة نواة الجيل الخامس المحاكاة، حيث أظهر تحسنًا مقارنة بطريقة DSARA الأساسية من حيث الربح والكمون ومعدل القبول واستهلاك الموارد.

خلفية البحث والدافع

تعريف المشكلة

تدعم شبكات الجيل الخامس خدمات متنوعة من خلال تقنية تقسيم الشبكة، بما في ذلك النطاق الترددي المحسّن للهاتف المحمول (eMBB)، والاتصالات الموثوقة للغاية منخفضة الكمون (URLLC)، والاتصالات الضخمة من نوع الآلة (mMTC). تتطلب هذه الخدمات متطلبات جودة خدمة (QoS) غير متجانسة، مما يستدعي استراتيجيات تحكم قبول وتخصيص موارد ذكية لموازنة متطلبات جودة الخدمة الصارمة مع ربحية مزودي خدمات الشبكة (NSP).

أهمية المشكلة

تحديات تنوع الخدمات: تتطلب أنواع الشرائح المختلفة متطلبات مختلفة من حيث الكمون والموثوقية وعرض النطاق الترددي
احتياجات تحسين الموارد: يجب توزيع الموارد الفيزيائية المحدودة بكفاءة بين شبكات افتراضية متعددة
الجدوى التجارية: يحتاج مزودو الخدمات إلى ضمان الربحية مع تلبية متطلبات جودة الخدمة

حدود الطرق الموجودة

تجاهل عامل الكمون: تركز أطر عمل التعلم العميق بالتعزيز الموجودة بشكل أساسي على تحسين الربح، دون الأخذ في الاعتبار الكمون بشكل صريح
عدم استقرار استراتيجيات الاستكشاف: تؤدي استراتيجية الاستكشاف epsilon-greedy إلى عدم استقرار التقارب والتعلم دون الأمثل
خطر انتهاك جودة الخدمة: قد تحدث انتهاكات لجودة الخدمة في الخدمات الحساسة للكمون (مثل URLLC)

الدافع للبحث

على الرغم من أن طريقة DSARA الأساسية يمكنها تعظيم الربح بشكل فعال، إلا أنها لا تأخذ في الاعتبار الاختلافات في الكمون بين أنواع الشرائح المختلفة، مما قد يؤدي إلى انتهاكات جودة الخدمة. تهدف هذه الورقة إلى تطوير حل للتحكم في قبول الشرائح يأخذ في الاعتبار الكمون والربح معًا.

المساهمات الأساسية

دالة مكافأة واعية بالكمون: تقترح صيغة مكافأة واعية بالربح والكمون توازن بين متطلبات جودة الخدمة وربحية مزودي الخدمات
استراتيجية استكشاف بولتسمان: تدمج استكشاف بولتسمان في وكيل التعلم العميق بالتعزيز، مما يحسن استقرار التعلم ويتجنب مشكلة الحد الأدنى المحلي في طريقة epsilon-greedy
تقييم تجريبي شامل: تطبيق DePSAC على شبكة نواة الجيل الخامس المحاكاة، مع استخدام أنماط وصول طلبات شرائح الشبكة الواقعية
التحقق من تحسن الأداء: تؤكد نتائج التجارب على تحسن DePSAC في موازنة الربح وجودة الخدمة، مع تحقيق كمون خدمة أقصر ومعدل قبول أعلى واستهلاك نطاق ترددي أقل

شرح الطريقة

تعريف المهمة

الإدخال: تدفق طلبات شرائح الشبكة (NSLR)، يتضمن نوع الشريحة ومتطلبات الموارد ووقت التشغيل الإخراج: قرارات القبول واستراتيجية تخصيص الموارد الهدف: تعظيم ربح مزودي الخدمات مع تقليل كمون الخدمة، خاصة كمون شرائح URLLC

معمارية النموذج

معمارية النظام

تعتمد على معمارية إطار عمل DeepSARA، وتتضمن أربع وحدات رئيسية:

وحدة التحكم في القبول (ACM): تستخدم وكيل التعلم العميق بالتعزيز لتخصيص أوزان الأولوية لأنواع الشرائح
وحدة تخصيص الموارد (RAM): تعيين الوظائف الشبكية الافتراضية (VNF) إلى العقد بناءً على التوفر وقيود جودة الخدمة
وحدة المراقبة: جمع بيانات حالة الموارد بشكل مستمر
وحدة دورة الحياة: إنشاء مثيل من الشرائح المقبولة وتحرير الموارد عند انتهاء صلاحيتها

ركيزة شبكة نواة الجيل الخامس

يتم نمذجتها كبنية تحتية للوظائف الشبكية الافتراضية (NFVI)، تتضمن عقد النواة (سعة عالية) وعقد الحافة (كمون منخفض)
يتم تمثيلها كرسم بياني موجه مرجح SN = {N,L}، حيث تتمتع العقد N بسعة وحدة المعالجة المركزية والروابط L بعرض النطاق الترددي

دالة المكافأة الواعية بالكمون

الابتكار الأساسي في DePSAC هو دالة المكافأة الواعية بالكمون:

penaltyi = priorityi × delayi                    (1a)
profiti = (revenuei - costi) × To               (1b)
reward(nsli) = profiti - penaltyi               (1c)
R = Σ(i=0 to k) reward(nsli) / maxProfit(SN,T) (1d)

حيث:

priorityi: الأولوية المحددة بناءً على نوع الشريحة (URLLC > eMBB > mMTC)
delayi: الفاصل الزمني من وصول طلب NSL إلى خدمته
To: وقت تشغيل الشريحة
revenuei و costi: الإيرادات والتكاليف التشغيلية

استراتيجية استكشاف بولتسمان

بدلاً من epsilon-greedy، يتم استخدام استكشاف بولتسمان:

P(a) = e^(Q[s,a]/τ) × Q[s,a] / Σ(a) e^(Q[s,a]/τ)   (2)

حيث τ هو معامل درجة الحرارة، الذي ينظم تنوع الاستكشاف. تشجع درجة الحرارة العالية الاستكشاف، بينما تعزز درجة الحرارة المنخفضة الاستغلال.

نقاط الابتكار التقني

آلية عقوبة الكمون: من خلال إدراج حد عقوبة الكمون في دالة المكافأة، يتم تحفيز الوكيل على إعطاء الأولوية لمعالجة الشرائح الحساسة للكمون
استراتيجية استكشاف سلسة: يختار استكشاف بولتسمان الإجراءات بناءً على توزيع احتمالي لقيم Q، مما يتجنب السلوك العشوائي البحت أو الجشع
تحسين متعدد الأهداف: يأخذ في الاعتبار تعظيم الربح وتقليل الكمون معًا، مما يحقق موازنة أفضل بين جودة الخدمة والربح

إعداد التجارب

مجموعة البيانات

شبكة الركيزة: طوبولوجيا Barabási-Albert بـ 64 عقدة، تلتقط الخصائص الخالية من المقياس للبنية التحتية الحقيقية للجيل الخامس
طلبات الشرائح: طلبات NSLR المولدة ديناميكيًا، تتضمن ثلاثة أنواع خدمات (eMBB و URLLC و mMTC)
نمط الوصول: نمط وصول طلبات شرائح الشبكة الواقعي

مؤشرات التقييم

الربح (Profit): إجمالي الإيرادات التي يحصل عليها مزود الخدمة من خلال خدمة طلبات شرائح الشبكة مطروحًا منها التكاليف التشغيلية
معدل القبول (AR): نسبة طلبات NSLR المقبولة بنجاح، AR = req_a / req_t
الكمون (Delay): وقت الخدمة بعد وصول الطلب، Delay = T_finished - T_arrival
استهلاك الموارد (C): نسبة موارد المعالجة وعرض النطاق الترددي المخصصة للشرائح المقبولة

طرق المقارنة

الأساس: طريقة DSARA، إطار عمل التحكم في القبول وتخصيص الموارد المشترك القائم على التعلم العميق بالتعزيز

تفاصيل التطبيق

بيئة التطوير: Python 3، تصميم موجه للكائنات معياري
منصة الأجهزة: معالج AMD Ryzen 5، 16 جيجابايت من ذاكرة الوصول العشوائي، Windows 11
معالجة الرسوم البيانية: مكتبة NetworkX لإدارة الشبكة الأساسية وتمثيل الرسم البياني لـ NSLR
المحاكي: محاكي الأحداث المنفصلة المدمج مع وكيل التعلم العميق بالتعزيز الواعي بالكمون

نتائج التجارب

النتائج الرئيسية

أداء الربح

الربح الإجمالي: يكون DePSAC أقل قليلاً من DSARA في المراحل الأولى من التدريب بسبب الاستكشاف، لكنه يتفوق على الأساس بشكل مستمر مع تقدم التدريب
الربح حسب الفئة: يحدث تحسن في الربح لجميع أنواع الخدمات (eMBB و URLLC و mMTC)، مع تحسن الأكثر وضوحًا في URLLC

أداء الكمون

الكمون الإجمالي: يحقق DePSAC كمونًا متوسطًا أقل مقارنة بـ DSARA
كمون URLLC: انخفاض كبير في الكمون مقارنة بـ DSARA، مما يتحقق من معالجة الأولوية الفعالة للشرائح الحساسة للوقت
أنواع الخدمات الأخرى: ينخفض كمون mMTC بشكل معتدل لكن مستمر، بينما يتقارب كمون eMBB إلى قيمة أقل من الأساس بعد فترة الاستكشاف

أداء معدل القبول

معدل القبول الإجمالي: يتفوق DePSAC في النهاية على DSARA، من خلال تحرير الموارد بشكل أسرع للطلبات، مما يسمح بقبول المزيد من الطلبات
معدل قبول URLLC: تحسن كبير، مما يعكس تعلم الوكيل لأولويات الطلبات الحساسة للكمون
معدل قبول eMBB: تحسن معتدل
معدل قبول mMTC: انخفاض طفيف لكن ضمن نطاق مقبول

أداء استهلاك الموارد

الاستهلاك الإجمالي: يظهر DePSAC انخفاضًا طفيفًا في استهلاك الموارد في المراحل اللاحقة من التدريب
كفاءة عرض النطاق الترددي: ينخفض استخدام عرض النطاق الترددي الإجمالي بسبب معالجة شرائح URLLC ذات متطلبات الموارد المنخفضة بالأولوية
استخدام وحدة المعالجة المركزية: يبقى ثابتًا أو يتحسن بشكل طفيف

تجارب الاستئصال

تتحقق الورقة من فعالية دالة المكافأة الواعية بالكمون واستكشاف بولتسمان من خلال المقارنة مع DSARA، لكنها لا توفر تحليل استئصال تفصيلي على مستوى المكونات.

النتائج التجريبية

موازنة الكمون والربح: لا تضر عقوبة الكمون بالربحية؛ يتعلم الوكيل موازنة فعالة بل وتحسين تعظيم الإيرادات لمزودي الخدمات
تمايز الخدمات: تحقيق ناجح لمعالجة الأولوية للخدمات الحساسة للكمون مع الحفاظ على أداء أنواع الخدمات الأخرى
كفاءة الموارد: تحقيق تضمين أكثر إحكاما وكفاءة من حيث الكمون من خلال قرارات قبول ذكية
استقرار التقارب: يعزز استكشاف بولتسمان تقاربًا أكثر سلاسة واستقرارًا

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

طرق التقسيم القائمة على نظرية الطوابير: اقترح Han وآخرون طريقة تقسيم متعددة الخدمات مدفوعة بالفائدة
التنبؤ بتحليل البيانات الضخمة: استخدم Raza وآخرون التنبؤ بحركة المرور لتحسين ربح مزودي الخدمات
تحسين وضع الوظائف الشبكية الافتراضية: قدم Zhang وآخرون طريقة وضع الوظائف الشبكية الافتراضية الاستكشافية
طرق التعلم المعزز: اقترح William وآخرون نماذج SARA و DSARA

مزايا هذه الورقة

بالمقارنة مع الأعمال الموجودة، تأخذ هذه الورقة في الاعتبار الكمون والربح معًا بشكل صريح في إطار عمل التعلم العميق بالتعزيز لأول مرة، وتستخدم استراتيجية استكشاف أكثر استقرارًا.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يحقق DePSAC من خلال تصميم مكافأة واعية بالكمون موازنة فعالة بين أهداف الربحية وجودة الخدمة لوكيل التعلم العميق بالتعزيز
يحقق استكشاف بولتسمان تقاربًا أكثر سلاسة واستقرارًا مقارنة باستراتيجية epsilon-greedy
يتفوق بشكل مستمر على طريقة DSARA الأساسية في مؤشرات الأداء المتعددة

القيود

قيود بيئة المحاكاة: تم التحقق فقط في بيئة محاكاة، مع نقص التحقق من النشر على شبكات حقيقية
حساسية المعاملات: لم يتم تحليل حساسية معامل درجة الحرارة τ وأوزان الأولوية بشكل كافٍ
تحليل قابلية التوسع: لم يتم تقييم الأداء في الشبكات الأكبر حجمًا
القدرة على التكيف الديناميكي: القدرة على التكيف مع ظروف الشبكة والأنماط المرورية المتغيرة ديناميكيًا محدودة

الاتجاهات المستقبلية

معمارية الجيل الخامس الموحدة: توسيع DePSAC لدعم معمارية الجيل الخامس الموحدة
تقييم الحمل الديناميكي: تقييم الاستقرار تحت أحمال حركة مرور ديناميكية
دعم الحركة: تقييم سيناريوهات الحركة باستخدام مسارات النشر الحقيقية
التحقق من النشر الفعلي: التحقق من فعالية الطريقة في شبكات الجيل الخامس الحقيقية

التقييم المتعمق

المزايا

قوة استهداف المشكلة: تحديد واضح للمشكلة الرئيسية المتمثلة في تجاهل عامل الكمون في الطرق الموجودة
معقولية الابتكار في الطريقة: تصميم دالة المكافأة الواعية بالكمون بديهي وفعال
أساس كافٍ للتحسينات التقنية: اعتماد استكشاف بولتسمان له أساس نظري كافٍ
تصميم تجريبي شامل: مؤشرات تقييم متعددة الأبعاد، التحقق الشامل من فعالية الطريقة
قوة إقناع النتائج: تظهر تحسنًا في جميع مؤشرات الأداء الرئيسية

أوجه القصور

نقص التحليل النظري: غياب الضمانات النظرية للتقارب والأمثلية
غياب التوجيه في ضبط المعاملات: عدم توفير إرشادات لاختيار معامل درجة الحرارة وأوزان الأولوية
غياب تحليل التعقيد الحسابي: عدم تحليل النفقات الحسابية مقارنة بطريقة الأساس
التحقق من الاستقرار غير كافٍ: عدم اختبار الأداء تحت حركة مرور غير عادية أو أعطال الشبكة
نقص الاعتبارات العملية للنشر: غياب النقاش حول التحديات المحتملة في النشر الفعلي

التأثير

المساهمة الأكاديمية: توفير أفكار جديدة للتحسين متعدد الأهداف في تقسيم شبكات الجيل الخامس
القيمة العملية: تتمتع الطريقة بإمكانية تطبيق عملي قوية
قابلية التكرار: توفير تفاصيل تطبيق كافية لتسهيل التكرار
قابلية التعميم: يمكن تعميم فكرة الوعي بالكمون على مشاكل تحسين الشبكات الأخرى

السيناريوهات المعمول بها

مشغلو شبكات الجيل الخامس: يحتاجون إلى إدارة شرائح شبكة توازن بين جودة الخدمة والربح
بيئات الحوسبة الطرفية: نشر الخدمات الحساسة للكمون وتخصيص الموارد
بيئات الشبكات متعددة المستأجرين: بيئات الشبكات الافتراضية التي تتطلب تمايز الخدمات
دعم التطبيقات في الوقت الفعلي: تطبيقات إنترنت الأشياء الصناعية والسيارات ذاتية القيادة وغيرها من التطبيقات الحساسة للكمون

المراجع

تستشهد الورقة بـ 12 مرجعًا ذا صلة، تغطي الأعمال المهمة في مجالات تقسيم شبكات الجيل الخامس والتعلم العميق بالتعزيز وتخصيص الموارد، مما يوفر أساسًا نظريًا كافيًا ومعايير مقارنة للبحث.

التقييم الإجمالي: تقترح هذه الورقة حلاً مبتكرًا وعمليًا لمشكلة موازنة الكمون والربح في التحكم في قبول شرائح شبكات الجيل الخامس. يتمتع تصميم الطريقة بمعقولية جيدة والتحقق التجريبي شامل، مما يوفر قيمة أكاديمية وآفاق تطبيق جيدة في هذا المجال. يتمثل القصور الرئيسي في أن هناك مجالًا للتحسن في جوانب التحليل النظري والاعتبارات العملية للنشر الفعلي.