2025-11-20T05:04:14.304346

Provably Invincible Adversarial Attacks on Reinforcement Learning Systems: A Rate-Distortion Information-Theoretic Approach

Lu, Lai, Xu
Reinforcement learning (RL) for the Markov Decision Process (MDP) has emerged in many security-related applications, such as autonomous driving, financial decisions, and drone/robot algorithms. In order to improve the robustness/defense of RL systems against adversaries, studying various adversarial attacks on RL systems is very important. Most previous work considered deterministic adversarial attack strategies in MDP, which the recipient (victim) agent can defeat by reversing the deterministic attacks. In this paper, we propose a provably ``invincible'' or ``uncounterable'' type of adversarial attack on RL. The attackers apply a rate-distortion information-theoretic approach to randomly change agents' observations of the transition kernel (or other properties) so that the agent gains zero or very limited information about the ground-truth kernel (or other properties) during the training. We derive an information-theoretic lower bound on the recipient agent's reward regret and show the impact of rate-distortion attacks on state-of-the-art model-based and model-free algorithms. We also extend this notion of an information-theoretic approach to other types of adversarial attack, such as state observation attacks.
academic

শক্তিশালী শিক্ষা ব্যবস্থায় প্রমাণিতভাবে অপরাজেয় প্রতিকূল আক্রমণ: হার-বিকৃতি তথ্য-তাত্ত্বিক পদ্ধতি

মৌলিক তথ্য

  • পত্র আইডি: 2510.13792
  • শিরোনাম: শক্তিশালী শিক্ষা ব্যবস্থায় প্রমাণিতভাবে অপরাজেয় প্রতিকূল আক্রমণ: হার-বিকৃতি তথ্য-তাত্ত্বিক পদ্ধতি
  • লেখক: জিকিং লু (আইওয়া বিশ্ববিদ্যালয়), লিফেং লাই (ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, ডেভিস), ওয়েইয়ু জু (আইওয়া বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.LG cs.AI
  • প্রকাশনার সময়: ২০২৫ সালের ১৫ অক্টোবর (arXiv প্রাক-প্রিন্ট)
  • পত্র লিঙ্ক: https://arxiv.org/abs/2510.13792

সংক্ষিপ্তসার

শক্তিশালী শিক্ষা নিরাপত্তা-সম্পর্কিত প্রয়োগে ব্যাপক স্থাপনা প্রতিকূল আক্রমণ গবেষণা অত্যন্ত গুরুত্বপূর্ণ করে তোলে। পূর্ববর্তী কাজ প্রধানত নির্ধারণীয় প্রতিকূল আক্রমণ কৌশল বিবেচনা করেছে, যেখানে ভুক্তভোগী এজেন্ট নির্ধারণীয় আক্রমণ বিপরীত করে প্রতিরক্ষা করতে পারে। এই পত্রটি একটি প্রমাণিতভাবে "অপরাজেয়" প্রতিকূল আক্রমণ পদ্ধতি প্রস্তাব করে, যেখানে আক্রমণকারী হার-বিকৃতি তথ্য-তাত্ত্বিক পদ্ধতি প্রয়োগ করে এজেন্টের স্থানান্তর কার্নেলের পর্যবেক্ষণ এলোমেলোভাবে পরিবর্তন করে, যাতে এজেন্ট প্রশিক্ষণের সময় প্রকৃত কার্নেল সম্পর্কে শূন্য বা ন্যূনতম তথ্য অর্জন করে। নিবন্ধটি ভুক্তভোগী এজেন্টের পুরস্কার অনুশোচনার তথ্য-তাত্ত্বিক নিম্নসীমা প্রাপ্ত করে এবং হার-বিকৃতি আক্রমণের অত্যাধুনিক মডেল-ভিত্তিক এবং মডেল-মুক্ত অ্যালগরিদমের উপর প্রভাব প্রদর্শন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

১. মূল সমস্যা: বিদ্যমান শক্তিশালী শিক্ষা প্রতিকূল আক্রমণ প্রধানত নির্ধারণীয় কৌশল গ্রহণ করে, এই ধরনের আক্রমণ ভুক্তভোগী এজেন্ট আক্রমণ প্যাটার্ন শিখে এবং বিপরীত করে প্রতিরক্ষা করতে পারে, তাত্ত্বিক গ্যারান্টি সহ "অপ্রতিরোধ্যতা" অভাব রয়েছে।

२. গুরুত্ব: শক্তিশালী শিক্ষা স্বয়ংক্রিয় চালনা, আর্থিক সিদ্ধান্ত, ড্রোন/রোবট অ্যালগরিদম ইত্যাদি নিরাপত্তা-সমালোচনামূলক ক্ষেত্রে ব্যাপকভাবে প্রয়োগ করা হয়, সর্বোচ্চ ক্ষেত্রে প্রতিকূল আক্রমণ গবেষণা RL সিস্টেমের স্থিতিস্থাপকতা মূল্যায়ন এবং উন্নত করার জন্য অত্যন্ত গুরুত্বপূর্ণ।

३. বিদ্যমান পদ্ধতির সীমাবদ্ধতা:

  • নির্ধারণীয় আক্রমণ ভুক্তভোগী এজেন্ট আক্রমণের অস্তিত্ব জানে না এই অনুমান করে
  • যদি ভুক্তভোগী আক্রমণ সনাক্ত করে, তারা মিথ্যা স্থানান্তর কার্নেল এবং প্রকৃত কার্নেলের মধ্যে ম্যাপিং সম্পর্ক খুঁজে পেতে পারে
  • আক্রমণের কার্যকারিতা নিশ্চিত করতে পারে না, তাত্ত্বিক "অপরাজেয়তা" প্রমাণ অভাব রয়েছে

४. গবেষণা প্রেরণা: এমন একটি প্রতিকূল আক্রমণ পদ্ধতি ডিজাইন করা যা এমনকি ভুক্তভোগী এজেন্ট আক্রমণ কৌশল জানলেও কার্যকরভাবে প্রতিরক্ষা করতে পারে না, এবং তথ্য-তাত্ত্বিক দৃষ্টিকোণ থেকে তাত্ত্বিক গ্যারান্টি প্রদান করা।

মূল অবদান

१. হার-বিকৃতি তথ্য-তাত্ত্বিক প্রতিকূল আক্রমণ প্রস্তাব: প্রথমবারের মতো হার-বিকৃতি তত্ত্ব শক্তিশালী শিক্ষা প্রতিকূল আক্রমণে প্রয়োগ করা, পারস্পরিক তথ্য হ্রাস করতে স্থানান্তর কার্নেল পর্যবেক্ষণ এলোমেলোকরণের মাধ্যমে।

२. তাত্ত্বিক নিম্নসীমা প্রমাণ: ভুক্তভোগী এজেন্টের পুরস্কার অনুশোচনার তথ্য-তাত্ত্বিক নিম্নসীমা প্রাপ্ত করা, আক্রমণের "অপরাজেয়তা" প্রমাণ করা।

३. এলোমেলো কার্নেল MDP তাত্ত্বিক বিশ্লেষণ: অনিশ্চিত স্থানান্তর কার্নেল সহ MDP-তে সর্বোত্তম নীতির অস্তিত্ব বিশ্লেষণ করা, আবিষ্কার করা যে ঐতিহ্যবাহী অর্থে সর্বোত্তম নীতি বিদ্যমান নাও থাকতে পারে।

४. নতুন নীতি পুনরাবৃত্তি অ্যালগরিদম: এলোমেলো কার্নেল MDP-এর জন্য নতুন নীতি পুনরাবৃত্তি অ্যালগরিদম প্রস্তাব করা, এবং প্রমাণ করা যে এটি সর্বদা সর্বোত্তম সমাধানে সংগ্রহ করে না।

५. ব্যাপক পরীক্ষামূলক যাচাইকরণ: পরিকল্পনা, সারণী Q-শিক্ষা এবং গভীর Q-শিক্ষা ইত্যাদি বিভিন্ন সেটিংসে আক্রমণের কার্যকারিতা যাচাই করা।

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

একটি পাঁচ-টুপল MDP বিবেচনা করুন: (S, A, X, r, γ), যেখানে:

  • S: অবস্থা স্থান, |S| = S
  • A: ক্রিয়া স্থান, |A| = A
  • X: এলোমেলো স্থানান্তর কার্নেল, পূর্ব বিতরণ p থেকে নমুনা করা
  • r: পুরস্কার ফাংশন r: S × A × S → 0,1
  • γ ∈ 0,1: ছাড় ফ্যাক্টর

আক্রমণ সেটিং: আক্রমণকারী সম্ভাব্যতা ফাংশন P(Y|X) ডিজাইন করে প্রকৃত স্থানান্তর কার্নেল X কে মিথ্যা পর্যবেক্ষণ কার্নেল Y-তে এলোমেলোভাবে ম্যাপ করে।

মডেল স্থাপত্য

१. হার-বিকৃতি আক্রমণ কাঠামো

আক্রমণকারীর অপ্টিমাইজেশন উদ্দেশ্য:

min_{p(X,Y)} I(X;Y)                    (१)
s.t. E_{p(X,Y)}C(X → Y) ≤ B          (२)

যেখানে I(X;Y) পারস্পরিক তথ্য, B আক্রমণ বাজেট।

२. ভুক্তভোগী নীতি অপ্টিমাইজেশন

মিথ্যা পর্যবেক্ষণ Y_i দেওয়া, ভুক্তভোগীর সর্বোত্তম নীতি:

π*(·|Y_i) = argmin_π E_{P(X|Y_i)}||V_X^π - V_X^{π*(X)}||_∞

३. অনুশোচনা সংজ্ঞা

মোট অনুশোচনা সংজ্ঞায়িত:

R = E_{p(X,Y)}||V^{π*(X)} - V^{π*(·|Y)}||_∞

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. এলোমেলোকরণ কৌশল

  • নির্ধারণীয় আক্রমণের বিপরীতে, সম্ভাব্যতা বিতরণ P(Y|X) ব্যবহার করে এলোমেলো ম্যাপিং গ্রহণ করা
  • এমনকি ভুক্তভোগী আক্রমণ কৌশল জানলেও, তারা নির্দিষ্ট প্রকৃত স্থানান্তর কার্নেল নির্ধারণ করতে পারে না

२. তথ্য-তাত্ত্বিক গ্যারান্টি

  • পারস্পরিক তথ্য I(X;Y) হ্রাস করে ভুক্তভোগী ন্যূনতম তথ্য অর্জন নিশ্চিত করা
  • Fano অসমতা ব্যবহার করে অনুশোচনা নিম্নসীমা এবং ডিকোডিং ত্রুটি সম্ভাবনার সংযোগ স্থাপন করা

३. বাস্তবায়ন পদ্ধতি

  • হাইপারপ্যারামিটার পরিবর্তন: প্রশিক্ষণ পরিবেশ গতিশীলতার হাইপারপ্যারামিটার পরিবর্তন করা
  • সরাসরি প্রতিস্থাপন: মিথ্যা কার্নেল নির্মাণ এবং প্রকৃত কার্নেল সরাসরি প্রতিস্থাপন করা
  • অবস্থা পর্যবেক্ষণ আক্রমণ: অবস্থা পর্যবেক্ষণ এলোমেলো বিন্যাসের মাধ্যমে বাস্তবায়ন, সর্বনিম্ন প্রয়োজনীয়তা

পরীক্ষামূলক সেটআপ

ডেটাসেট এবং পরিবেশ

१. ব্লক ওয়ার্ল্ড: १२-অবস্থা গ্রিড বিশ্ব, ४ টি ক্রিয়া (পূর্ব পশ্চিম উত্তর দক্ষিণ) २. কার্টপোল: ক্রমাগত অবস্থা স্থান, २ টি ক্রিয়া (বাম ডান চলন) ३. ३-অবস্থা MDP: তাত্ত্বিক বিশ্লেষণের জন্য সহজ পরিবেশ

মূল্যায়ন মেট্রিক্স

  • অনুশোচনা (Regret): R = E_{p(X,Y)}||V^{π*(X)} - V^{π*(·|Y)}||_∞
  • পারস্পরিক তথ্য: I(X;Y)
  • আপেক্ষিক কর্মক্ষমতা ক্ষতি: সর্বোত্তম V মানের শতাংশ হিসাবে অনুশোচনা

তুলনা পদ্ধতি

  • নির্ধারণীয় আক্রমণ
  • আক্রমণ ছাড়া ভিত্তিরেখা
  • বাজেট সীমাবদ্ধতার অধীন সর্বোত্তম আক্রমণ

বাস্তবায়ন বিবরণ

  • ব্লক ওয়ার্ল্ডে "স্লাইডিং সম্ভাবনা" α এর মাধ্যমে আক্রমণ বাস্তবায়ন (α=०.८ বা ०.२)
  • কার্টপোলে অবস্থা পর্যবেক্ষণ শব্দ δ এর মাধ্যমে আক্রমণ বাস্তবায়ন
  • সমান পূর্ব বিতরণ p(X_i) = १/२ ব্যবহার করা

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

१. তাত্ত্বিক নিম্নসীমা যাচাইকরণ

উপপাদ্য ३.१: শর্ত পূরণকারী MDP-তে, অনুশোচনা সন্তুষ্ট করে:

R ≥ εP_e
H(P_e) + P_e log|Ω(X)| ≥ H(X|Y) = H(X) - I(X;Y)

যেখানে P_e সর্বোত্তম ডিকোডারের ত্রুটি সম্ভাবনা, ε > 0 নীতি পার্থক্যের নিম্নসীমা।

२. পরিকল্পনা আক্রমণ প্রভাব

  • ३-অবস্থা MDP-তে, I(X;Y) = 0 আক্রমণ ४४.३% কর্মক্ষমতা ক্ষতি সৃষ্টি করে
  • অনুশোচনা মান R = ३.८४, সর্বোত্তম V মানের ४४.३%

३. মডেল-মুক্ত শিক্ষা আক্রমণ

  • ব্লক ওয়ার্ল্ড: এলোমেলো আক্রমণ নির্ধারণীয় আক্রমণের চেয়ে বৃহত্তর ক্ষতি সৃষ্টি করে
  • কার্টপোল: DQN প্রশিক্ষণে অনুশোচনা প্রশিক্ষণ রাউন্ডের সাথে বৃদ্ধি পায়
  • অবস্থা বিন্যাস আক্রমণ: সহজ অবস্থা এলোমেলো বিন্যাসের মাধ্যমে কার্যকর আক্রমণ বাস্তবায়ন

অপসারণ পরীক্ষা

१. বাজেট সীমাবদ্ধতা বিশ্লেষণ

  • আক্রমণ বাজেট B ০ থেকে ०.७११ বৃদ্ধির সাথে, অনুশোচনা একঘেয়ে বৃদ্ধি পায়
  • যখন B ०.७११ পৌঁছায়, অনুশোচনা সর্বোচ্চ মান ४४.३% পৌঁছায়

२. ন্যূনতম পারস্পরিক তথ্য আক্রমণ

  • সরাসরি পারস্পরিক তথ্য হ্রাস অপ্টিমাইজ করা: min I(X;Y)
  • বাজেট B=०.७२८५ এ সর্বোচ্চ অনুশোচনা ४४.३% অর্জন করা

গুরুত্বপূর্ণ আবিষ্কার

१. সর্বোত্তম নীতির অস্তিত্বহীনতা

উপপাদ্য ४.१: এলোমেলো কার্নেল MDP-এর জন্য, সর্বদা সর্বোত্তম নীতি π* বিদ্যমান নয় যা সন্তুষ্ট করে:

π* = argmax_π E_X V_X^π(s), ∀s ∈ S

२. নীতি পুনরাবৃত্তি অ-সংগ্রহ

উপপাদ্য ५.१: এমনকি সর্বোত্তম নীতি বিদ্যমান থাকলেও, প্রসারিত নীতি পুনরাবৃত্তি অ্যালগরিদম সর্বদা সর্বোত্তম সমাধানে সংগ্রহ করে না।

সম্পর্কিত কাজ

१. স্থানান্তর কার্নেল অনিশ্চয়তা গবেষণা

  • বিতরণ-শক্তিশালী MDP: স্থানান্তর কার্নেল অনিশ্চয়তা সেটে সর্বোচ্চ ক্ষেত্রে কর্মক্ষমতা অপ্টিমাইজ করা
  • বেয়েসীয় অভিযোজিত MDP: স্থানান্তর কার্নেল প্যারামিটারের পূর্ব বিতরণ অনুমান করা, বেয়েসীয় আপডেটের মাধ্যমে শিক্ষা

२. স্থানান্তর কার্নেল বিষক্রিয়া আক্রমণ

  • পরিবেশ হাইপারপ্যারামিটার আক্রমণ: পরিবেশ হাইপারপ্যারামিটার পরিবর্তনের মাধ্যমে গতিশীলতা পরিবর্তন করা
  • অফলাইন বিষক্রিয়া আক্রমণ: সর্বোত্তম মিথ্যা স্থানান্তর কার্নেল নির্মাণ করা
  • তথ্য-তাত্ত্বিক গোপন আক্রমণ: KL বিচ্যুতি সীমাবদ্ধতা ব্যবহার করে আক্রমণের সনাক্তকরণযোগ্যতা

এই পত্রের উদ্ভাবন পয়েন্ট

  • প্রথমবারের মতো বেয়েসীয় সেটিংয়ে এলোমেলো স্থানান্তর কার্নেল আক্রমণ গ্রহণ করা
  • সনাক্তকরণযোগ্যতা সীমাবদ্ধতার পরিবর্তে হার-বিকৃতি তত্ত্ব ব্যবহার করে পারস্পরিক তথ্য হ্রাস করা
  • আক্রমণ কার্যকারিতার তাত্ত্বিক গ্যারান্টি প্রদান করা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. তাত্ত্বিক গ্যারান্টি: প্রস্তাবিত হার-বিকৃতি আক্রমণ প্রমাণিতভাবে "অপরাজেয়" বৈশিষ্ট্য রাখে, এমনকি ভুক্তভোগী এজেন্ট আক্রমণ কৌশল জানলেও কার্যকরভাবে প্রতিরক্ষা করতে পারে না।

२. ব্যাপক প্রযোজ্যতা: আক্রমণ পদ্ধতি মডেল-ভিত্তিক এবং মডেল-মুক্ত শক্তিশালী শিক্ষা অ্যালগরিদমে প্রয়োগ করা যায়।

३. বাস্তবায়ন সরলতা: এলোমেলো অবস্থা পর্যবেক্ষণ আক্রমণের মাধ্যমে সহজে বাস্তবায়ন করা যায়, আক্রমণকারীর জন্য কম প্রয়োজনীয়তা।

সীমাবদ্ধতা

१. সর্বোত্তম নীতির অভাব: এলোমেলো কার্নেল MDP-তে ঐতিহ্যবাহী সর্বোত্তম নীতি বিদ্যমান নাও থাকতে পারে, নতুন নীতি সংজ্ঞা প্রয়োজন।

२. অ্যালগরিদম সংগ্রহ: প্রস্তাবিত নীতি পুনরাবৃত্তি অ্যালগরিদম সর্বোত্তম সমাধানে সংগ্রহের গ্যারান্টি দেয় না।

३. বাস্তব স্থাপনা: বাস্তব পরিবেশে আক্রমণ বাস্তবায়নের সম্ভাব্যতা এবং সনাক্তকরণযোগ্যতা আরও গবেষণা প্রয়োজন।

ভবিষ্যত দিকনির্দেশনা

१. ঐতিহ্যবাহী সর্বোত্তম নীতি অস্তিত্বহীন ক্ষেত্রে কার্যকর নীতি উন্নয়ন २. সংগ্রহ গ্যারান্টি সহ পরিকল্পনা/শিক্ষা অ্যালগরিদম ডিজাইন ३. প্রতিরক্ষা প্রক্রিয়া এবং আক্রমণ সনাক্তকরণ পদ্ধতি গবেষণা ४. ক্রমাগত অবস্থা স্থান এবং আরও জটিল পরিবেশে সম্প্রসারণ

গভীর মূল্যায়ন

সুবিধা

१. তাত্ত্বিক উদ্ভাবনী: প্রথমবারের মতো হার-বিকৃতি তত্ত্ব শক্তিশালী শিক্ষা প্রতিকূল আক্রমণে প্রবর্তন করা, কঠোর তাত্ত্বিক বিশ্লেষণ কাঠামো প্রদান করা।

२. সমস্যার গুরুত্ব: বিদ্যমান নির্ধারণীয় আক্রমণ বিপরীত করা যায় এমন মৌলিক সমস্যা সমাধান করা, গুরুত্বপূর্ণ নিরাপত্তা অর্থ রাখে।

३. তাত্ত্বিক কঠোরতা: তথ্য-তাত্ত্বিক সরঞ্জাম ব্যবহার করে আক্রমণ কার্যকারিতার গাণিতিক প্রমাণ প্রদান করা, অনুশোচনা নিম্নসীমা এবং Fano অসমতা প্রয়োগ অন্তর্ভুক্ত।

४. পরীক্ষামূলক সম্পূর্ণতা: পরিকল্পনা, সারণী শিক্ষা, গভীর শিক্ষা ইত্যাদি বিভিন্ন সেটিং অন্তর্ভুক্ত করা, পদ্ধতির ব্যাপক প্রযোজ্যতা যাচাই করা।

অপূর্ণতা

१. বাস্তব সম্ভাব্যতা: পত্রে আক্রমণ অনুমান করে যে আক্রমণকারী ভুক্তভোগীর পরিবেশ পর্যবেক্ষণ সম্পূর্ণভাবে নিয়ন্ত্রণ করতে পারে, বাস্তব স্থাপনায় বাস্তবায়ন কঠিন হতে পারে।

२. প্রতিরক্ষা গবেষণা অপূর্ণ: "অপরাজেয়" দাবি করলেও, সম্ভাব্য প্রতিরক্ষা কৌশল আলোচনা সীমিত, যেমন অস্বাভাবিকতা সনাক্তকরণ, বহু-উৎস যাচাইকরণ ইত্যাদি।

३. গণনামূলক জটিলতা: বৃহৎ-স্কেল অবস্থা স্থানের জন্য সর্বোত্তম আক্রমণ প্যারামিটার অনুসন্ধানের গণনামূলক জটিলতা বিশ্লেষণ অপূর্ণ।

४. নৈতিক বিবেচনা: আক্রমণ পদ্ধতি হিসাবে, সম্ভাব্য অপব্যবহার আলোচনা এবং প্রতিরোধ ব্যবস্থা অভাব রয়েছে।

প্রভাব

१. একাডেমিক অবদান: শক্তিশালী শিক্ষা নিরাপত্তা গবেষণার জন্য নতুন তাত্ত্বিক কাঠামো এবং বিশ্লেষণ সরঞ্জাম প্রদান করা।

२. ব্যবহারিক মূল্য: RL সিস্টেমের সর্বোচ্চ ক্ষেত্রে কর্মক্ষমতা মূল্যায়নে সহায়তা করা, স্থিতিস্থাপকতা ডিজাইন নির্দেশনা প্রদান করা।

३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত অ্যালগরিদম বর্ণনা এবং পরীক্ষামূলক সেটআপ প্রদান করা, পুনরুৎপাদন এবং সম্প্রসারণ সহজ করা।

প্রযোজ্য দৃশ্যকল্প

१. নিরাপত্তা মূল্যায়ন: সমালোচনামূলক প্রয়োগে RL সিস্টেমের স্থিতিস্থাপকতা মূল্যায়ন করা २. অ্যালগরিদম ডিজাইন: প্রতিরোধী আক্রমণ RL অ্যালগরিদম উন্নয়ন নির্দেশনা প্রদান করা ३. তাত্ত্বিক গবেষণা: অনিশ্চিত পরিবেশে RL তত্ত্বের জন্য নতুন দৃষ্টিভঙ্গি প্রদান করা ४. প্রতিরক্ষা প্রক্রিয়া: লাল দল পরীক্ষা সরঞ্জাম হিসাবে প্রতিরক্ষা প্রভাব মূল্যায়ন করা

রেফারেন্স

পত্রটি শক্তিশালী শিক্ষা, তথ্য তত্ত্ব, প্রতিকূল আক্রমণ ইত্যাদি একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, অন্তর্ভুক্ত:

  • ক্লাসিক RL পাঠ্যপুস্তক (Sutton & Barto, 2018)
  • তথ্য তত্ত্ব ভিত্তি (Cover & Thomas, 2006)
  • বিতরণ-শক্তিশালী MDP সম্পর্কিত কাজ (Iyengar, 2005; Nilim & El Ghaoui, 2003)
  • সাম্প্রতিক RL প্রতিকূল আক্রমণ গবেষণা (Zhang et al., 2020; Liu & Lai, 2021)

সামগ্রিক মূল্যায়ন: এটি শক্তিশালী শিক্ষা নিরাপত্তা ক্ষেত্রে গুরুত্বপূর্ণ তাত্ত্বিক অবদান সহ একটি পত্র, হার-বিকৃতি তত্ত্ব প্রবর্তনের মাধ্যমে প্রতিকূল আক্রমণের জন্য নতুন দৃষ্টিভঙ্গি এবং কঠোর তাত্ত্বিক গ্যারান্টি প্রদান করে। যদিও বাস্তব স্থাপনা সম্ভাব্যতা এবং প্রতিরক্ষা প্রক্রিয়া দিক থেকে আরও উন্নতির প্রয়োজন, তবে এর তাত্ত্বিক কাঠামো এবং বিশ্লেষণ পদ্ধতি এই ক্ষেত্রের আরও গবেষণার জন্য দৃঢ় ভিত্তি স্থাপন করে।