2025-11-17T14:19:12.162044

Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices

Chakraborty, Asrar, Sengupta et al.

5G networks enable diverse services such as eMBB, URLLC, and mMTC through network slicing, necessitating intelligent admission control and resource allocation to meet stringent QoS requirements while maximizing Network Service Provider (NSP) profits. However, existing Deep Reinforcement Learning (DRL) frameworks focus primarily on profit optimization without explicitly accounting for service delay, potentially leading to QoS violations for latency-sensitive slices. Moreover, commonly used epsilon-greedy exploration of DRL often results in unstable convergence and suboptimal policy learning. To address these gaps, we propose DePSAC -- a Delay and Profit-aware Slice Admission Control scheme. Our DRL-based approach incorporates a delay-aware reward function, where penalties due to service delay incentivize the prioritization of latency-critical slices such as URLLC. Additionally, we employ Boltzmann exploration to achieve smoother and faster convergence. We implement and evaluate DePSAC on a simulated 5G core network substrate with realistic Network Slice Request (NSLR) arrival patterns. Experimental results demonstrate that our method outperforms the DSARA baseline in terms of overall profit, reduced URLLC slice delays, improved acceptance rates, and improved resource consumption. These findings validate the effectiveness of the proposed DePSAC in achieving better QoS-profit trade-offs for practical 5G network slicing scenarios.

academic

遅延を優先しながら利益を追求する：5Gネットワークスライスのための DRL ベース準入制御

基本情報

論文ID: 2510.08769
タイトル: Prioritizing Latency with Profit: A DRL-Based Admission Control for 5G Network Slices
著者: Proggya Chakraborty、Aaquib Asrar、Jayasree Sengupta、Sipra Das Bit
分類: cs.NI（ネットワークとインターネットアーキテクチャ）、cs.LG（機械学習）、cs.PF（性能）
投稿日時: 2025年10月9日にarXivに投稿
論文リンク: https://arxiv.org/abs/2510.08769v1

概要

本論文は5Gネットワークスライスの準入制御問題に対して、DePSAC（遅延と利益を考慮したスライス準入制御）スキームを提案しています。このスキームは深層強化学習フレームワークを通じて、ネットワークサービスプロバイダ（NSP）の利益を最大化しながら、サービス遅延を明示的に考慮し、特に遅延に敏感なURLLC スライスの優先度処理を行います。遅延認識報酬関数とボルツマン探索戦略を採用し、シミュレートされた5Gコアネットワーク上で、ベースラインDSARA方法と比較して利益、遅延、受け入れ率、リソース消費などの面での改善を検証しました。

研究背景と動機

問題定義

5Gネットワークはネットワークスライシング技術を通じて多様なサービスをサポートしており、拡張モバイルブロードバンド（eMBB）、超信頼性低遅延通信（URLLC）、および大規模機械型通信（mMTC）を含みます。これらのサービスは異種のQoS要件を持ち、厳格なQoS要件とNSPの収益性のバランスを取るための知的な準入制御とリソース割り当て戦略が必要です。

問題の重要性

サービス多様性の課題：異なるスライスタイプは遅延、信頼性、帯域幅に対して異なる要件を持つ
リソース最適化の必要性：限定された物理リソースは複数の仮想ネットワーク間で効率的に割り当てられる必要がある
商業的実行可能性：NSPはQoSを満たしながら同時に収益性を確保する必要がある

既存方法の限界

遅延要因の無視：既存のDRLフレームワークは主に利益最適化に焦点を当てており、サービス遅延を明示的に考慮していない
探索戦略の不安定性：epsilon-greedy探索戦略は収束の不安定性と準最適ポリシー学習をもたらす
QoS違反のリスク：遅延に敏感なサービス（URLLC など）ではQoS違反が発生する可能性がある

研究動機

ベースラインDSARA方法は利益を効果的に最大化できますが、異なるスライスタイプの遅延差を考慮していないため、QoS違反をもたらす可能性があります。本論文は遅延と利益の両方を考慮するスライス準入制御スキームを開発することを目指しています。

核心的貢献

遅延認識報酬関数：QoS要件とNSP収益性のバランスを取る利益-遅延認識報酬公式を提案
ボルツマン探索戦略：DRL エージェントにボルツマン探索を統合し、学習の安定性を向上させ、epsilon-greedy 方法の局所最適問題を回避
包括的な実験評価：シミュレートされた5Gコアネットワーク上でDePSACを実装し、現実的なネットワークスライスリクエスト到着パターンを使用して評価
性能改善の検証：実験結果がDePSACの利益-QoS トレードオフにおける改善を検証し、より短いサービス遅延、より高い受け入れ率、より低い帯域幅利用率を実現

方法の詳細

タスク定義

入力：ネットワークスライスリクエスト（NSLR）ストリーム。スライスタイプ、リソース要件、実行時間を含む出力：準入決定とリソース割り当てポリシー目標：NSP利益を最大化しながらサービス遅延を最小化する。特にURLLCスライスの遅延

モデルアーキテクチャ

システムアーキテクチャ

DeepSARA フレームワークのシステムアーキテクチャを採用し、4つの主要モジュールを含みます：

準入制御モジュール（ACM）：DRL エージェントを使用してスライスタイプに優先度重みを割り当てる
リソース割り当てモジュール（RAM）：可用性とQoS制約に基づいてVNFをノードにマッピング
監視モジュール：リソース状態データを継続的に収集
ライフサイクルモジュール：受け入れられたスライスをインスタンス化し、有効期限時にリソースを解放

5Gコアネットワーク基板

NFV インフラストラクチャ（NFVI）としてモデル化。コアノード（高容量）とエッジノード（低遅延）を含む
加重無向グラフ SN = {N,L} として表現。ノード N は CPU 容量を持ち、リンク L は帯域幅を持つ

遅延認識報酬関数

DePSACの核心的な革新は遅延認識報酬関数です：

penaltyi = priorityi × delayi                    (1a)
profiti = (revenuei - costi) × To               (1b)
reward(nsli) = profiti - penaltyi               (1c)
R = Σ(i=0 to k) reward(nsli) / maxProfit(SN,T) (1d)

ここで：

priorityi：スライスタイプに基づいて決定される優先度（URLLC > eMBB > mMTC）
delayi：NSL リクエスト i の到着からサービスまでの時間間隔
To：スライス実行時間
revenuei と costi：収入と運営コスト

ボルツマン探索戦略

epsilon-greedy の代わりにボルツマン探索を採用：

P(a) = e^(Q[s,a]/τ) × Q[s,a] / Σ(a) e^(Q[s,a]/τ)   (2)

ここで τ は温度パラメータで、探索の多様性を調整します。高い τ は探索を促進し、低い τ は活用を促進します。

技術的革新点

遅延ペナルティメカニズム：報酬関数に遅延ペナルティ項を導入することで、エージェントが遅延に敏感なスライスを優先的に処理するよう促す
スムーズな探索戦略：ボルツマン探索はQ値の確率分布に基づいてアクションを選択し、純粋なランダムまたは貪欲な行動を回避
多目的最適化：利益最大化と遅延最小化を同時に考慮し、より良いQoS-利益トレードオフを実現

実験設定

データセット

基板ネットワーク：64ノードのBarabási-Albert トポロジ。実際の5Gインフラストラクチャのスケールフリー特性をキャプチャ
スライスリクエスト：動的に生成されたNSLR。3つのサービスタイプ（eMBB、URLLC、mMTC）を含む
到着パターン：現実的なネットワークスライスリクエスト到着パターン

評価指標

利益（Profit）：NSPがネットワークスライスリクエストをサービスすることで得られた総収入から運営コストを差し引いたもの
受け入れ率（AR）：成功した準入のNSLR比率。AR = req_a / req_t
遅延（Delay）：リクエスト到着後のサービス時間。Delay = T_finished - T_arrival
リソース消費（C）：受け入れられたスライスに割り当てられた処理および帯域幅リソースの比率

比較方法

ベースライン：DSARA 方法。DRL ベースの統合準入制御とリソース割り当てフレームワーク

実装詳細

開発環境：Python 3。モジュール化されたオブジェクト指向設計
ハードウェアプラットフォーム：AMD Ryzen 5 プロセッサ、16GB RAM、Windows 11
グラフ処理：NetworkX ライブラリで基板ネットワークとNSLRのグラフ表現を管理
シミュレータ：遅延認識DRL エージェントを統合した離散イベントシミュレータ

実験結果

主要な結果

利益パフォーマンス

全体的な利益：DePSACは訓練初期段階では探索のためにDSARAより若干低いが、訓練の進行に伴い継続的にベースラインを上回る
分類別利益：すべてのサービスタイプ（eMBB、URLLC、mMTC）の利益が向上し、URLLCが最も顕著な改善を達成

遅延パフォーマンス

全体的な遅延：DePSACはDSARAと比較してより低い平均遅延を実現
URLLC遅延：DSARAと比較して大幅な遅延削減を実現し、時間関連スライスへの効果的な優先度処理を検証
その他のサービスタイプ：mMTC遅延は適度だが継続的に削減。eMBB遅延は探索期間後、ベースラインより低い値に収束

受け入れ率パフォーマンス

全体的な受け入れ率：DePSACは最終的にDSARAを上回り、より高速なリクエストサービスを通じてリソースを解放し、より多くのリクエストの受け入れを可能にする
URLLC受け入れ率：大幅に改善。エージェントが学習した遅延に敏感なリクエストの優先度を反映
eMBB受け入れ率：適度に向上
mMTC受け入れ率：わずかに低下するが許容範囲内

リソース消費パフォーマンス

全体的な消費：DePSACは後期訓練段階でわずかなリソース消費削減を示す
帯域幅効率：リソース要件が低いURLLCスライスを優先的に処理するため、全体的な帯域幅使用量が削減
CPU利用率：一貫性を保つか、わずかな改善を示す

アブレーション実験

論文はDSARAとの比較を通じて遅延認識報酬関数とボルツマン探索の有効性を検証していますが、コンポーネントレベルの詳細なアブレーション分析は提供していません。

実験的発見

遅延-利益バランス：遅延ペナルティは収益性を損なわず。エージェントはNSP収入最大化を効果的にバランスさせ、さらに改善することを学習
サービス差別化：遅延に敏感なサービスの優先度処理を成功裏に実現しながら、他のサービスタイプのパフォーマンスを維持
リソース効率：知的な準入決定を通じてより緊密で遅延効率的な埋め込みを実現
収束安定性：ボルツマン探索はより滑らかで安定した収束を促進

結論と考察

主要な結論

DePSACは遅延認識報酬設計を通じて、DRL エージェントが収益性とQoS目標を効果的にバランスさせることを可能にする
ボルツマン探索はepsilon-greedy戦略と比較してより滑らかで安定した収束を実現
複数のパフォーマンス指標でDSARAベースライン方法を継続的に上回る

限界

シミュレーション環境の制限：シミュレーション環境でのみ検証。実ネットワーク展開検証の欠如
パラメータ感度：温度パラメータ τ と優先度重みの感度分析が不十分
スケーラビリティ分析：より大規模なネットワークでのパフォーマンスを評価していない
動的適応性：動的に変化するネットワーク条件とトラフィックパターンへの適応能力が限定的

今後の方向性

フェデレーション5Gアーキテクチャ：DePSACをフェデレーション5Gアーキテクチャに対応させるよう拡張
動的負荷評価：動的トラフィック負荷下での堅牢性を評価
モビリティサポート：実際の展開軌跡を使用してモビリティシナリオを評価
実際の展開検証：実際の5Gネットワークで方法の有効性を検証

深い評価

利点

問題への対応性が強い：既存方法が遅延要因を無視する重要な問題を明確に特定
方法的革新が合理的：遅延認識報酬関数の設計は直感的で効果的
技術改善が根拠に基づいている：ボルツマン探索の採用には十分な理論的根拠がある
実験設計が完全：多次元評価指標で方法の有効性を包括的に検証
結果の説得力が強い：すべての重要指標で改善を示す

不足

理論分析が不足：収束性と最適性の理論的保証が欠如
パラメータ調整ガイダンスの欠落：温度パラメータと優先度重みの選択ガイダンスがない
計算複雑性分析の欠落：ベースライン方法と比較した計算オーバーヘッドの分析がない
堅牢性検証が不十分：異常なトラフィックやネットワーク障害下でのパフォーマンステストがない
実際の展開考慮が不足：実際の展開で遭遇する可能性のある課題の議論が不足

影響力

学術的貢献：5Gネットワークスライスの多目的最適化に新しい視点を提供
実用的価値：方法は強い実用的応用の可能性を持つ
再現性：十分な実装詳細を提供し、再現を容易にする
推広性：遅延認識思想は他のネットワーク最適化問題に推広可能

適用シナリオ

5Gネットワークオペレータ：QoSと利益のバランスが必要なネットワークスライス管理
エッジコンピューティング環境：遅延に敏感なサービス展開とリソース割り当て
マルチテナントネットワーク：サービス差別化が必要な仮想化ネットワーク環境
リアルタイムアプリケーションサポート：産業用IoT、自動運転など遅延関連アプリケーション

参考文献

論文は5Gネットワークスライシング、深層強化学習、リソース割り当てなど重要分野の12の関連文献を引用しており、研究に十分な理論的基礎と比較ベンチマークを提供しています。

総合評価：本論文は5Gネットワークスライス準入制御における遅延-利益トレードオフ問題に対して、革新的で実用的なソリューションを提案しています。方法設計は合理的で、実験検証は充分であり、この分野で良好な学術的価値と応用前景を持っています。主な不足は理論分析と実際の展開考慮の面でさらに改善の余地があることです。