5G networks enable diverse services such as eMBB, URLLC, and mMTC through network slicing, necessitating intelligent admission control and resource allocation to meet stringent QoS requirements while maximizing Network Service Provider (NSP) profits. However, existing Deep Reinforcement Learning (DRL) frameworks focus primarily on profit optimization without explicitly accounting for service delay, potentially leading to QoS violations for latency-sensitive slices. Moreover, commonly used epsilon-greedy exploration of DRL often results in unstable convergence and suboptimal policy learning. To address these gaps, we propose DePSAC -- a Delay and Profit-aware Slice Admission Control scheme. Our DRL-based approach incorporates a delay-aware reward function, where penalties due to service delay incentivize the prioritization of latency-critical slices such as URLLC. Additionally, we employ Boltzmann exploration to achieve smoother and faster convergence. We implement and evaluate DePSAC on a simulated 5G core network substrate with realistic Network Slice Request (NSLR) arrival patterns. Experimental results demonstrate that our method outperforms the DSARA baseline in terms of overall profit, reduced URLLC slice delays, improved acceptance rates, and improved resource consumption. These findings validate the effectiveness of the proposed DePSAC in achieving better QoS-profit trade-offs for practical 5G network slicing scenarios.
論文ID : 2510.08769タイトル : Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices著者 : Proggya Chakraborty、Aaquib Asrar、Jayasree Sengupta、Sipra Das Bit分類 : cs.NI(ネットワークとインターネットアーキテクチャ)、cs.LG(機械学習)、cs.PF(性能)投稿日時 : 2025年10月9日にarXivに投稿論文リンク : https://arxiv.org/abs/2510.08769v1 本論文は5Gネットワークスライスの準入制御問題に対して、DePSAC(遅延と利益を考慮したスライス準入制御)スキームを提案しています。このスキームは深層強化学習フレームワークを通じて、ネットワークサービスプロバイダ(NSP)の利益を最大化しながら、サービス遅延を明示的に考慮し、特に遅延に敏感なURLLC スライスの優先度処理を行います。遅延認識報酬関数とボルツマン探索戦略を採用し、シミュレートされた5Gコアネットワーク上で、ベースラインDSARA方法と比較して利益、遅延、受け入れ率、リソース消費などの面での改善を検証しました。
5Gネットワークはネットワークスライシング技術を通じて多様なサービスをサポートしており、拡張モバイルブロードバンド(eMBB)、超信頼性低遅延通信(URLLC)、および大規模機械型通信(mMTC)を含みます。これらのサービスは異種のQoS要件を持ち、厳格なQoS要件とNSPの収益性のバランスを取るための知的な準入制御とリソース割り当て戦略が必要です。
サービス多様性の課題 :異なるスライスタイプは遅延、信頼性、帯域幅に対して異なる要件を持つリソース最適化の必要性 :限定された物理リソースは複数の仮想ネットワーク間で効率的に割り当てられる必要がある商業的実行可能性 :NSPはQoSを満たしながら同時に収益性を確保する必要がある遅延要因の無視 :既存のDRLフレームワークは主に利益最適化に焦点を当てており、サービス遅延を明示的に考慮していない探索戦略の不安定性 :epsilon-greedy探索戦略は収束の不安定性と準最適ポリシー学習をもたらすQoS違反のリスク :遅延に敏感なサービス(URLLC など)ではQoS違反が発生する可能性があるベースラインDSARA方法は利益を効果的に最大化できますが、異なるスライスタイプの遅延差を考慮していないため、QoS違反をもたらす可能性があります。本論文は遅延と利益の両方を考慮するスライス準入制御スキームを開発することを目指しています。
遅延認識報酬関数 :QoS要件とNSP収益性のバランスを取る利益-遅延認識報酬公式を提案ボルツマン探索戦略 :DRL エージェントにボルツマン探索を統合し、学習の安定性を向上させ、epsilon-greedy 方法の局所最適問題を回避包括的な実験評価 :シミュレートされた5Gコアネットワーク上でDePSACを実装し、現実的なネットワークスライスリクエスト到着パターンを使用して評価性能改善の検証 :実験結果がDePSACの利益-QoS トレードオフにおける改善を検証し、より短いサービス遅延、より高い受け入れ率、より低い帯域幅利用率を実現入力 :ネットワークスライスリクエスト(NSLR)ストリーム。スライスタイプ、リソース要件、実行時間を含む
出力 :準入決定とリソース割り当てポリシー
目標 :NSP利益を最大化しながらサービス遅延を最小化する。特にURLLCスライスの遅延
DeepSARA フレームワークのシステムアーキテクチャを採用し、4つの主要モジュールを含みます:
準入制御モジュール(ACM) :DRL エージェントを使用してスライスタイプに優先度重みを割り当てるリソース割り当てモジュール(RAM) :可用性とQoS制約に基づいてVNFをノードにマッピング監視モジュール :リソース状態データを継続的に収集ライフサイクルモジュール :受け入れられたスライスをインスタンス化し、有効期限時にリソースを解放NFV インフラストラクチャ(NFVI)としてモデル化。コアノード(高容量)とエッジノード(低遅延)を含む 加重無向グラフ SN = {N,L} として表現。ノード N は CPU 容量を持ち、リンク L は帯域幅を持つ DePSACの核心的な革新は遅延認識報酬関数です:
penaltyi = priorityi × delayi (1a)
profiti = (revenuei - costi) × To (1b)
reward(nsli) = profiti - penaltyi (1c)
R = Σ(i=0 to k) reward(nsli) / maxProfit(SN,T) (1d)
ここで:
priorityi:スライスタイプに基づいて決定される優先度(URLLC > eMBB > mMTC)delayi:NSL リクエスト i の到着からサービスまでの時間間隔To:スライス実行時間revenuei と costi:収入と運営コストepsilon-greedy の代わりにボルツマン探索を採用:
P(a) = e^(Q[s,a]/τ) × Q[s,a] / Σ(a) e^(Q[s,a]/τ) (2)
ここで τ は温度パラメータで、探索の多様性を調整します。高い τ は探索を促進し、低い τ は活用を促進します。
遅延ペナルティメカニズム :報酬関数に遅延ペナルティ項を導入することで、エージェントが遅延に敏感なスライスを優先的に処理するよう促すスムーズな探索戦略 :ボルツマン探索はQ値の確率分布に基づいてアクションを選択し、純粋なランダムまたは貪欲な行動を回避多目的最適化 :利益最大化と遅延最小化を同時に考慮し、より良いQoS-利益トレードオフを実現基板ネットワーク :64ノードのBarabási-Albert トポロジ。実際の5Gインフラストラクチャのスケールフリー特性をキャプチャスライスリクエスト :動的に生成されたNSLR。3つのサービスタイプ(eMBB、URLLC、mMTC)を含む到着パターン :現実的なネットワークスライスリクエスト到着パターン利益(Profit) :NSPがネットワークスライスリクエストをサービスすることで得られた総収入から運営コストを差し引いたもの受け入れ率(AR) :成功した準入のNSLR比率。AR = req_a / req_t遅延(Delay) :リクエスト到着後のサービス時間。Delay = T_finished - T_arrivalリソース消費(C) :受け入れられたスライスに割り当てられた処理および帯域幅リソースの比率ベースライン :DSARA 方法。DRL ベースの統合準入制御とリソース割り当てフレームワーク開発環境 :Python 3。モジュール化されたオブジェクト指向設計ハードウェアプラットフォーム :AMD Ryzen 5 プロセッサ、16GB RAM、Windows 11グラフ処理 :NetworkX ライブラリで基板ネットワークとNSLRのグラフ表現を管理シミュレータ :遅延認識DRL エージェントを統合した離散イベントシミュレータ全体的な利益 :DePSACは訓練初期段階では探索のためにDSARAより若干低いが、訓練の進行に伴い継続的にベースラインを上回る分類別利益 :すべてのサービスタイプ(eMBB、URLLC、mMTC)の利益が向上し、URLLCが最も顕著な改善を達成全体的な遅延 :DePSACはDSARAと比較してより低い平均遅延を実現URLLC遅延 :DSARAと比較して大幅な遅延削減を実現し、時間関連スライスへの効果的な優先度処理を検証その他のサービスタイプ :mMTC遅延は適度だが継続的に削減。eMBB遅延は探索期間後、ベースラインより低い値に収束全体的な受け入れ率 :DePSACは最終的にDSARAを上回り、より高速なリクエストサービスを通じてリソースを解放し、より多くのリクエストの受け入れを可能にするURLLC受け入れ率 :大幅に改善。エージェントが学習した遅延に敏感なリクエストの優先度を反映eMBB受け入れ率 :適度に向上mMTC受け入れ率 :わずかに低下するが許容範囲内全体的な消費 :DePSACは後期訓練段階でわずかなリソース消費削減を示す帯域幅効率 :リソース要件が低いURLLCスライスを優先的に処理するため、全体的な帯域幅使用量が削減CPU利用率 :一貫性を保つか、わずかな改善を示す論文はDSARAとの比較を通じて遅延認識報酬関数とボルツマン探索の有効性を検証していますが、コンポーネントレベルの詳細なアブレーション分析は提供していません。
遅延-利益バランス :遅延ペナルティは収益性を損なわず。エージェントはNSP収入最大化を効果的にバランスさせ、さらに改善することを学習サービス差別化 :遅延に敏感なサービスの優先度処理を成功裏に実現しながら、他のサービスタイプのパフォーマンスを維持リソース効率 :知的な準入決定を通じてより緊密で遅延効率的な埋め込みを実現収束安定性 :ボルツマン探索はより滑らかで安定した収束を促進キューイング理論ベースのスライシング方法 :Han等が効用駆動型マルチサービススライシング方法を提案ビッグデータ分析予測 :Raza等がトラフィック予測を利用してプロバイダ利益を改善VNF配置最適化 :Zhang等がヒューリスティックVNF配置方法を導入強化学習方法 :William等がSARAおよびDSARAモデルを提案既存の研究と比較して、本論文は初めてDRL フレームワークで遅延と利益を明示的に同時に考慮し、より安定した探索戦略を採用しています。
DePSACは遅延認識報酬設計を通じて、DRL エージェントが収益性とQoS目標を効果的にバランスさせることを可能にする ボルツマン探索はepsilon-greedy戦略と比較してより滑らかで安定した収束を実現 複数のパフォーマンス指標でDSARAベースライン方法を継続的に上回る シミュレーション環境の制限 :シミュレーション環境でのみ検証。実ネットワーク展開検証の欠如パラメータ感度 :温度パラメータ τ と優先度重みの感度分析が不十分スケーラビリティ分析 :より大規模なネットワークでのパフォーマンスを評価していない動的適応性 :動的に変化するネットワーク条件とトラフィックパターンへの適応能力が限定的フェデレーション5Gアーキテクチャ :DePSACをフェデレーション5Gアーキテクチャに対応させるよう拡張動的負荷評価 :動的トラフィック負荷下での堅牢性を評価モビリティサポート :実際の展開軌跡を使用してモビリティシナリオを評価実際の展開検証 :実際の5Gネットワークで方法の有効性を検証問題への対応性が強い :既存方法が遅延要因を無視する重要な問題を明確に特定方法的革新が合理的 :遅延認識報酬関数の設計は直感的で効果的技術改善が根拠に基づいている :ボルツマン探索の採用には十分な理論的根拠がある実験設計が完全 :多次元評価指標で方法の有効性を包括的に検証結果の説得力が強い :すべての重要指標で改善を示す理論分析が不足 :収束性と最適性の理論的保証が欠如パラメータ調整ガイダンスの欠落 :温度パラメータと優先度重みの選択ガイダンスがない計算複雑性分析の欠落 :ベースライン方法と比較した計算オーバーヘッドの分析がない堅牢性検証が不十分 :異常なトラフィックやネットワーク障害下でのパフォーマンステストがない実際の展開考慮が不足 :実際の展開で遭遇する可能性のある課題の議論が不足学術的貢献 :5Gネットワークスライスの多目的最適化に新しい視点を提供実用的価値 :方法は強い実用的応用の可能性を持つ再現性 :十分な実装詳細を提供し、再現を容易にする推広性 :遅延認識思想は他のネットワーク最適化問題に推広可能5Gネットワークオペレータ :QoSと利益のバランスが必要なネットワークスライス管理エッジコンピューティング環境 :遅延に敏感なサービス展開とリソース割り当てマルチテナントネットワーク :サービス差別化が必要な仮想化ネットワーク環境リアルタイムアプリケーションサポート :産業用IoT、自動運転など遅延関連アプリケーション論文は5Gネットワークスライシング、深層強化学習、リソース割り当てなど重要分野の12の関連文献を引用しており、研究に十分な理論的基礎と比較ベンチマークを提供しています。
総合評価 :本論文は5Gネットワークスライス準入制御における遅延-利益トレードオフ問題に対して、革新的で実用的なソリューションを提案しています。方法設計は合理的で、実験検証は充分であり、この分野で良好な学術的価値と応用前景を持っています。主な不足は理論分析と実際の展開考慮の面でさらに改善の余地があることです。