2025-11-18T11:58:13.432393

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Li, Luo, Zhang et al.

Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.

academic

CoreGuard: এজ ডিপ্লয়মেন্টে LLM-এর ভিত্তিগত ক্ষমতা রক্ষা করা মডেল চুরির বিরুদ্ধে

মৌলিক তথ্য

পেপার আইডি: 2410.13903
শিরোনাম: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
লেখক: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
শ্রেণীবিভাগ: cs.CR (ক্রিপ্টোগ্রাফি এবং নিরাপত্তা), cs.AI (কৃত্রিম বুদ্ধিমত্তা), cs.DC (বিতরণকৃত কম্পিউটিং)
প্রকাশনার সময়/সম্মেলন: নিউরাল ইনফরমেশন প্রসেসিং সিস্টেম সম্মেলন (NeurIPS 2025)
পেপার লিংক: https://arxiv.org/abs/2410.13903

সারসংক্ষেপ

মালিকানাধীন বৃহৎ ভাষা মডেল (LLM) বিভিন্ন কাজে শক্তিশালী সাধারণীকরণ ক্ষমতা প্রদর্শন করে এবং দক্ষতা ও গোপনীয়তার কারণে ক্রমবর্ধমান এজ ডিভাইসে স্থাপন করা হচ্ছে। তবে, পর্যাপ্ত সুরক্ষা ছাড়াই এজ ডিপ্লয়মেন্টে মালিকানাধীন LLM স্থাপন করা গুরুতর নিরাপত্তা হুমকি নিয়ে আসে। আক্রমণকারীরা মডেল ওজন এবং স্থাপত্য নিষ্কাশন করতে পারে, অননুমোদিত প্রতিলিপি এবং অপব্যবহার সক্ষম করে। এমনকি সম্পূর্ণ মডেল ওজন নিষ্কাশন প্রতিরোধ করতে পারে এমন সুরক্ষা ব্যবস্থা থাকলেও, আক্রমণকারীরা উন্নত আক্রমণ (যেমন সূক্ষ্ম-সুর) সম্পাদন করতে পারে মডেলকে আরও কাজে লাগাতে। বিদ্যমান প্রতিরক্ষা সমাধান সাধারণত উল্লেখযোগ্য গণনা এবং যোগাযোগ ওভারহেড তৈরি করে, যা এজ ডিপ্লয়মেন্টে অব্যবহারিক করে তোলে। এজ-স্থাপিত LLM রক্ষা করার জন্য, এই পেপারটি CoreGuard প্রস্তাব করে, একটি গণনা এবং যোগাযোগ-দক্ষ সুরক্ষা পদ্ধতি। CoreGuard গণনা ওভারহেড হ্রাস করতে দক্ষ সুরক্ষা প্রোটোকল নিয়োগ করে এবং প্রচার প্রোটোকলের মাধ্যমে যোগাযোগ ওভারহেড কমায়। ব্যাপক পরীক্ষা দেখায় যে CoreGuard উপেক্ষণীয় ওভারহেডে উপরের সীমানা নিরাপত্তা সুরক্ষা অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

মূল সমস্যা: এজ-স্থাপিত মালিকানাধীন LLM মডেল চুরির হুমকির সম্মুখীন, যেখানে আক্রমণকারীরা সফটওয়্যার বিশ্লেষণ কৌশলের মাধ্যমে মডেল স্থাপত্য এবং ওজন নিষ্কাশন করতে পারে, অননুমোদিত প্রতিলিপি এবং অপব্যবহার ঘটায়।
সমস্যার গুরুত্ব:
- মালিকানাধীন LLM (যেমন ChatGPT, Claude) শক্তিশালী সাধারণীকরণ ক্ষমতা প্রদর্শন করে এবং বিশাল উন্নয়ন খরচ রয়েছে
- এজ ডিপ্লয়মেন্ট প্রবণতা স্পষ্ট (যেমন Apple Intelligence iOS ডিভাইসে 3B প্যারামিটার LLM একীভূত করা)
- ডোমেইন-নির্দিষ্ট মালিকানাধীন LLM (যেমন আর্থিক ক্ষেত্রে BloombergGPT, চিকিৎসা ক্ষেত্রে Med-PaLM 2) খোলা উৎস বিকল্প অভাব করে
বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
- প্যাসিভ সুরক্ষা (যেমন জলচিহ্ন): শুধুমাত্র মালিকানা প্রমাণ প্রদান করে, তত্ত্বাবধানহীন এজ পরিবেশে অপব্যবহার প্রতিরোধ করতে পারে না
- মডেল এনক্রিপশন: রানটাইমে এখনও আক্রমণের জন্য দুর্বল
- TEE সরাসরি সুরক্ষা: সম্পূর্ণ মডেল বিশ্বস্ত সম্পাদন পরিবেশে রাখা প্রায় 50 গুণ দক্ষতা হ্রাস ঘটায়
- আংশিক প্যারামিটার TEE সম্পাদন (PPTE): সীমিত সংখ্যক ওজন রক্ষা করে, পুনর্নির্মাণের জন্য সহজ
- প্যারামিটার শাফলিং সুরক্ষা (PSP): ShadowNet-এর মতো অত্যধিক ডেটা ট্রান্সমিশন ওভারহেড রয়েছে
গবেষণা প্রেরণা: পর্যাপ্ত নিরাপত্তা নিশ্চিত করার সাথে সাথে গ্রহণযোগ্য গণনা এবং যোগাযোগ ওভারহেড বজায় রাখে এমন সমাধানের প্রয়োজন।

মূল অবদান

এজ ডিপ্লয়মেন্ট LLM-এর ভিত্তিগত ক্ষমতা সুরক্ষার প্রথম ব্যবস্থাপনা: এই পরিস্থিতিতে নিরাপত্তা চ্যালেঞ্জগুলি পদ্ধতিগতভাবে চিহ্নিত করে এবং এজ-স্থাপিত LLM রক্ষার প্রয়োজনীয়তা নির্ধারণ করে।
CoreGuard প্লাগ-এন্ড-প্লে সমাধান প্রস্তাব: হালকা-ওজনের অনুমোদন প্রক্রিয়া ব্যবহার করে এজ-স্থাপিত LLM রক্ষা করে, প্রচার প্রোটোকল ব্যবহার করে ট্রান্সমিশন ওভারহেড উল্লেখযোগ্যভাবে হ্রাস করে, কম গণনা ওভারহেড বজায় রেখে।
ব্যাপক পরীক্ষামূলক যাচাইকরণ: বিদ্যমান সমাধানের তুলনায়, CoreGuard উচ্চতর নিরাপত্তা নিশ্চয়তা, কম ওভারহেড এবং কোনো নির্ভুলতা ক্ষতি ছাড়াই প্রদান করে।

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: প্রশিক্ষিত LLM মডেল আউটপুট: লক করা মডেল, যা শুধুমাত্র ডিভাইস-অভ্যন্তরীণ বিশ্বস্ত হার্ডওয়্যার (TEE) এর মাধ্যমে যথাযথ অনুমোদনের মাধ্যমে সাধারণভাবে কাজ করতে পারে সীমাবদ্ধতা: গণনা এবং যোগাযোগ ওভারহেড কমান, মডেল নির্ভুলতা অপরিবর্তিত রাখুন

মডেল স্থাপত্য

CoreGuard অপারেশন দুটি পর্যায়ে বিভক্ত:

1. মডেল লকিং পর্যায় (স্থাপনার আগে)

সুরক্ষা প্রোটোকল (Protection Protocol):

রৈখিক স্তরের ওজন ম্যাট্রিক্সে সারি স্থানান্তর সম্পাদন করুন: $W'_q = \pi^T W_q, W'_k = \pi^T W_k, W'_v = \pi^T W_v, W'_m = \pi^T W_m$
এই সারি স্থানান্তরগুলি "তালা" হিসাবে কাজ করে, রৈখিক স্তরগুলিকে অকার্যকর করে, শুধুমাত্র সংশ্লিষ্ট কলাম স্থানান্তর ইনপুট (অনুমোদন) সাধারণ গণনা সক্ষম করে
স্থানান্তর ম্যাট্রিক্স $\pi \in \{0,1\}^{d \times d}$ সন্তুষ্ট করে $\pi\pi^T = I$

প্রচার প্রোটোকল (Propagation Protocol):

আউটপুট প্রসেসিং স্তরে কলাম স্থানান্তর সম্পাদন করুন: $W'_o = W_o\pi, W'_n = W_n\pi$
নেটওয়ার্কের নিজস্ব অপারেশনের মাধ্যমে বৈশিষ্ট্যের কলাম স্থানান্তর অর্জন করুন, স্বয়ংক্রিয় অনুমোদন প্রভাব অর্জন করুন
TEE শুধুমাত্র প্রাথমিক অনুমোদন পরিচালনা করতে হবে, অনুমোদন সমস্ত পরবর্তী স্তরে প্রচার করা যেতে পারে

2. অনুমান অনুমোদন পর্যায় (স্থাপনার পরে)

এনক্রিপশন প্রক্রিয়া: $m' = m\pi + p\pi$ যেখানে $p$ একবার প্যাড (OTP) শব্দ, $m'$ এনক্রিপ্ট করা স্থানান্তরিত বৈশিষ্ট্য।

আউটপুট রৈখিক স্তর প্রক্রিয়াকরণ: $n' = m'W'_n = (m\pi + p\pi)\pi^T W_n + b_n = n + pW_n$

ডিক্রিপশন এবং অনুমোদন: $n'' = n' - pW_n = n$ $z' = (\gamma_2 \odot \frac{n + y - \mu_{y+n}}{\sigma_{y+n}} + \beta_2)\pi = z\pi$

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

একক অনুমোদন প্রচার প্রক্রিয়া: সুচিন্তিত স্থানান্তর ডিজাইনের মাধ্যমে, নেটওয়ার্ক জুড়ে অনুমোদনের স্বয়ংক্রিয় প্রচার অর্জন করুন, প্রতিটি স্তরে TEE অনুমোদনের প্রয়োজন এড়ান।
OTP এনক্রিপশন এবং অবস্থান বিভ্রান্তি সংমিশ্রণ: একবার প্যাড এনক্রিপশন ব্যবহার করুন এবং স্থানান্তরের সাথে মিলিত করুন, এনক্রিপশন এবং ডিক্রিপশন প্রক্রিয়া লুকান।
সর্বোত্তম যোগাযোগ জটিলতা: প্রতিটি অনুমানের জন্য শুধুমাত্র 5 রাউন্ড TEE-GPU ট্রান্সমিশন প্রয়োজন, তাত্ত্বিক সর্বোত্তম অর্জন করুন।
গাণিতিক নিরাপত্তা নিশ্চয়তা: Learning With Errors (LWE) সমস্যার NP-কঠিনতা অনুমানের উপর ভিত্তি করে নিরাপত্তা প্রমাণ প্রদান করুন।

পরীক্ষা সেটআপ

ডেটাসেট

GSM8k: গাণিতিক যুক্তি কাজ
Spider: কোড জেনারেশন কাজ
PubMedQA: চিকিৎসা প্রশ্নোত্তর কাজ
SQuAD: পড়া বোঝা কাজ

মডেল

এজ ডিপ্লয়মেন্ট মডেল: Qwen2-0.5B-Instruct, Gemma2-2B-it
বড় মডেল: ChatGLM3-6B-32k, LLaMA3-8B-Instruct

মূল্যায়ন মেট্রিক্স

নিরাপত্তা: মডেল চুরি আক্রমণের নির্ভুলতা (যত কম ভাল)
দক্ষতা: ফ্লোটিং পয়েন্ট অপারেশন (FLOPs), TEE-GPU ট্রান্সমিশন ওভারহেড
নির্ভুলতা: কাজ-নির্দিষ্ট নির্ভুলতা

তুলনা পদ্ধতি

TPTE: NPLO
PPTE: DarkneTZ, SOTER, Serdab, DTE
PSP: ShadowNet, TransLinkGuard (TLG)
সীমানা: No-shield (নিম্ন সীমা), Black-box (উপরের সীমা)

বাস্তবায়ন বিবরণ

Hugging Face লাইব্রেরি ব্যবহার করে বাস্তবায়ন
AdamW অপটিমাইজার, রৈখিক শেখার হার সময়সূচী
NVIDIA A800 GPU-তে পরীক্ষা সম্পাদন
আক্রমণকারীর 100% প্রশিক্ষণ ডেটাসেট মালিকানা অনুমান (পূর্ববর্তী কাজের 1% এর চেয়ে কঠোর)

পরীক্ষার ফলাফল

প্রধান ফলাফল

নিরাপত্তা মূল্যায়ন:

অননুমোদিত অনুমান নির্ভুলতা: সমস্ত ক্ষেত্রে 0%
মডেল চুরি আক্রমণ: CoreGuard আপেক্ষিক নির্ভুলতা 1.17× (Black-box এর 1.00× এর কাছাকাছি)
TPTE পদ্ধতি NPLO (9.59×) এবং PPTE পদ্ধতি DarkneTZ (8.43×) এর চেয়ে উল্লেখযোগ্যভাবে ভাল
অন্যান্য PSP পদ্ধতির সাথে তুলনীয় (TLG: 1.07×, ShadowNet: 1.09×)

দক্ষতা তুলনা:

TEE সম্পাদন ওভারহেড: CoreGuard < 1.17e-03%, PPTE পদ্ধতি 2.91%-21.52%
TEE-GPU ট্রান্সমিশন ওভারহেড: CoreGuard শুধুমাত্র 5 রাউন্ড ট্রান্সমিশন প্রয়োজন, যখন ShadowNet 448 রাউন্ড প্রয়োজন (LLaMA3-8B)
ট্রান্সমিশন ডেটা পরিমাণ: CoreGuard প্রায় 20KB, ShadowNet প্রায় 1.3GB

অপসারণ পরীক্ষা

বিভিন্ন আক্রমণ সেটিংসে নিরাপত্তা:

LoRA সূক্ষ্ম-সুর আক্রমণ: CoreGuard উপরের সীমার কাছাকাছি নিরাপত্তা বজায় রাখে
বিভিন্ন ডেটা অনুপাত (1%-100%): সমস্ত সেটিংসে Black-box সুরক্ষার কাছাকাছি
কাজ সারিবদ্ধতা: আক্রমণকারীর লক্ষ্য কাজ স্থাপিত মডেলের কাজের সাথে সারিবদ্ধ কিনা তা নির্বিশেষে নিরাপত্তা বজায় রাখুন

অনুমোদন অবস্থান প্রভাব:

মধ্য অবস্থান অনুমোদন সর্বোত্তম নিরাপত্তা প্রদান করে
প্রথম এবং শেষ অবস্থান অনুমোদন কম নিরাপত্তা, কারণ আক্রমণকারীকে শুধুমাত্র কয়েকটি প্যারামিটার পুনরুদ্ধার করতে হবে

নির্ভুলতা সংরক্ষণ

বেশিরভাগ ক্ষেত্রে, সুরক্ষিত মডেল মূল মডেলের সাথে সম্পূর্ণ একই নির্ভুলতা রাখে
ব্যক্তিগত ক্ষেত্রে ±0.5% এর ছোট ওঠানামা রয়েছে, ফ্লোটিং-পয়েন্ট নির্ভুলতা সীমাবদ্ধতার জন্য দায়ী

উপসংহার এবং আলোচনা

প্রধান উপসংহার

CoreGuard সফলভাবে এজ-স্থাপিত LLM-এর নিরাপত্তা সুরক্ষা সমস্যা সমাধান করে
প্রচার প্রোটোকলের মাধ্যমে সর্বোত্তম যোগাযোগ জটিলতা অর্জন করে
উপরের সীমানা নিরাপত্তা নিশ্চিত করার সাথে সাথে উপেক্ষণীয় গণনা এবং যোগাযোগ ওভারহেড অর্জন করে
মডেলের মূল নির্ভুলতা বজায় রাখে

সীমাবদ্ধতা

পার্শ্ব-চ্যানেল আক্রমণ: TEE-কে নিরাপত্তা মূলের উপর নির্ভর করে, পার্শ্ব-চ্যানেল আক্রমণের হুমকির সম্মুখীন হতে পারে
GPU TEE সীমাবদ্ধতা: বর্তমানে প্রধানত CPU-ভিত্তিক TEE-এর উপর নির্ভর করে, GPU TEE এখনও পরিপক্ক নয়
বাস্তব স্থাপনা: পেপার মূল কাঠামোতে ফোকাস করে, ডিভাইস-নির্দিষ্ট বাস্তবায়ন বিবরণে গভীরভাবে যায় না
স্থাপত্য সামঞ্জস্য: প্রধানত মূলধারার Transformer স্থাপত্যের জন্য ডিজাইন করা

ভবিষ্যত দিকনির্দেশনা

পার্শ্ব-চ্যানেল আক্রমণ প্রতিরক্ষা ব্যবস্থা একীভূত করুন
GPU TEE প্রযুক্তি উন্নয়নের সাথে খাপ খাইয়ে নিন
আরও মডেল স্থাপত্যে প্রসারিত করুন
বাস্তব ডিভাইস স্থাপনা অপটিমাইজেশন

গভীর মূল্যায়ন

সুবিধা

শক্তিশালী উদ্ভাবনী: এজ-স্থাপিত LLM-এর ভিত্তিগত ক্ষমতা সুরক্ষার সমস্যা সিস্টেমেটিকভাবে সমাধান করার প্রথম প্রচেষ্টা
পরিশীলিত প্রযুক্তি: প্রচার প্রোটোকল ডিজাইন পরিশীলিত, একক অনুমোদন সম্পূর্ণ নেটওয়ার্ক কভার করা অর্জন করে
দৃঢ় তত্ত্ব: LWE সমস্যার উপর ভিত্তি করে গাণিতিক নিরাপত্তা নিশ্চয়তা প্রদান করে
ব্যাপক পরীক্ষা: একাধিক মডেল, একাধিক কাজ, একাধিক আক্রমণ পরিস্থিতির সম্পূর্ণ মূল্যায়ন
উচ্চ ব্যবহারিক মূল্য: উল্লেখযোগ্য দক্ষতা উন্নতি এটিকে বাস্তব স্থাপনায় সম্ভব করে তোলে

অপূর্ণতা

নিরাপত্তা অনুমান: TEE-এর নিরাপত্তার উপর নির্ভর করে, পার্শ্ব-চ্যানেল আক্রমণের সামনে দুর্বল হতে পারে
প্রযোজ্য পরিসীমা: প্রধানত Transformer স্থাপত্যের জন্য, অন্যান্য স্থাপত্যের প্রযোজ্যতা সীমিত
স্থাপনা জটিলতা: বাস্তব স্থাপনা আরও হার্ডওয়্যার এবং সিস্টেম-স্তরের কারণ বিবেচনা করতে হবে
দীর্ঘমেয়াদী নিরাপত্তা: আক্রমণ প্রযুক্তি উন্নয়নের সাথে, বর্তমান সুরক্ষা ব্যবস্থার ক্রমাগত কার্যকারিতা যাচাইয়ের প্রয়োজন

প্রভাব

একাডেমিক অবদান: এজ AI নিরাপত্তা ক্ষেত্রে নতুন গবেষণা দিকনির্দেশনা এবং সমাধান চিন্তাভাবনা প্রদান করে
ব্যবহারিক মূল্য: বাণিজ্যিক LLM এজ স্থাপনার জন্য গুরুত্বপূর্ণ নির্দেশনা
প্রযুক্তি চালনা: AI সুরক্ষা ক্ষেত্রে TEE প্রযুক্তির আরও উন্নয়ন চালনা করতে পারে

প্রযোজ্য পরিস্থিতি

মালিকানাধীন LLM-এর এজ ডিভাইস স্থাপনা
বিলম্ব এবং গোপনীয়তা-সংবেদনশীল AI অ্যাপ্লিকেশন
বৌদ্ধিক সম্পত্তি সুরক্ষা প্রয়োজন এমন বাণিজ্যিক AI সেবা
সম্পদ-সীমিত পরিবেশে মডেল সুরক্ষা

রেফারেন্স

পেপারটি 52টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা মডেল সুরক্ষা, বিশ্বস্ত সম্পাদন পরিবেশ, বৃহৎ ভাষা মডেল এবং অন্যান্য একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সহায়তা প্রদান করে।

সামগ্রিক মূল্যায়ন: CoreGuard একটি উচ্চ-মানের গবেষণা কাজ, প্রযুক্তিগত উদ্ভাবন, পরীক্ষামূলক যাচাইকরণ এবং ব্যবহারিক মূল্যের ক্ষেত্রে চমৎকার পারফরম্যান্স প্রদর্শন করে। এই কাজ শুধুমাত্র একটি গুরুত্বপূর্ণ ব্যবহারিক সমস্যা সমাধান করে না, বরং সম্পর্কিত ক্ষেত্রের পরবর্তী গবেষণার জন্য মূল্যবান চিন্তাভাবনা এবং পদ্ধতি প্রদান করে।