Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.
- पेपर ID: 2410.13903
- शीर्षक: CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment
- लेखक: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
- वर्गीकरण: cs.CR (क्रिप्टोग्राफी और सुरक्षा), cs.AI (कृत्रिम बुद्धिमत्ता), cs.DC (वितरित कंप्यूटिंग)
- प्रकाशन समय/सम्मेलन: तंत्रिका सूचना प्रसंस्करण प्रणालियों पर 39वां सम्मेलन (NeurIPS 2025)
- पेपर लिंक: https://arxiv.org/abs/2410.13903
मालिकाना बड़े भाषा मॉडल (LLMs) विभिन्न कार्यों में मजबूत सामान्यीकरण क्षमता प्रदर्शित करते हैं और दक्षता तथा गोपनीयता विचारों के कारण तेजी से एज डिवाइस पर तैनात किए जा रहे हैं। हालांकि, पर्याप्त सुरक्षा के बिना एज पर मालिकाना LLMs को तैनात करना गंभीर सुरक्षा खतरे पेश करता है। हमलावर मॉडल वजन और आर्किटेक्चर निकाल सकते हैं, जिससे अनधिकृत प्रतिलिपि और दुरुपयोग संभव हो जाता है। भले ही सुरक्षा उपाय पूर्ण मॉडल वजन निष्कर्षण को रोक सकें, हमलावर अभी भी उन्नत हमले (जैसे फाइन-ट्यूनिंग) कर सकते हैं। मौजूदा रक्षा समाधान आमतौर पर महत्वपूर्ण कम्प्यूटेशनल और संचार ओवरहेड उत्पन्न करते हैं, जिससे वे एज डिप्लॉयमेंट में अव्यावहारिक हो जाते हैं। एज पर तैनात LLMs की सुरक्षा के लिए, यह पेपर CoreGuard प्रस्तावित करता है - एक कम्प्यूटेशनल और संचार-कुशल सुरक्षा विधि। CoreGuard कम्प्यूटेशनल ओवरहेड को कम करने के लिए कुशल सुरक्षा प्रोटोकॉल और संचार ओवरहेड को कम करने के लिए प्रसार प्रोटोकॉल का उपयोग करता है। व्यापक प्रयोग दर्शाते हैं कि CoreGuard नगण्य ओवरहेड के तहत ऊपरी सीमा सुरक्षा प्राप्त करता है।
- मुख्य समस्या: एज पर तैनात मालिकाना LLMs मॉडल चोरी के खतरे का सामना करते हैं, जहां हमलावर सॉफ्टवेयर विश्लेषण तकनीकों के माध्यम से मॉडल आर्किटेक्चर और वजन निकाल सकते हैं, जिससे अनधिकृत प्रतिलिपि और दुरुपयोग होता है।
- समस्या की महत्ता:
- मालिकाना LLMs (जैसे ChatGPT, Claude) में मजबूत सामान्यीकरण क्षमता है और विकास लागत विशाल है
- एज डिप्लॉयमेंट प्रवृत्ति स्पष्ट है (जैसे Apple Intelligence iOS डिवाइस में 3B पैरामीटर LLM को एकीकृत करता है)
- डोमेन-विशिष्ट मालिकाना LLMs (जैसे वित्तीय क्षेत्र में BloombergGPT, चिकित्सा क्षेत्र में Med-PaLM 2) के पास खुले स्रोत विकल्प नहीं हैं
- मौजूदा विधियों की सीमाएं:
- निष्क्रिय सुरक्षा (जैसे वॉटरमार्किंग): केवल स्वामित्व प्रमाण प्रदान करता है, अनिरीक्षित एज वातावरण में दुरुपयोग को रोक नहीं सकता
- मॉडल एन्क्रिप्शन: रनटाइम पर अभी भी हमले के लिए असुरक्षित
- TEE प्रत्यक्ष सुरक्षा: संपूर्ण मॉडल को विश्वसनीय निष्पादन वातावरण में रखने से लगभग 50 गुना दक्षता में कमी आती है
- आंशिक पैरामीटर TEE निष्पादन (PPTE): सीमित संख्या में वजन की सुरक्षा करता है, पुनर्निर्माण के लिए असुरक्षित
- पैरामीटर शफलिंग सुरक्षा (PSP): जैसे ShadowNet में अत्यधिक डेटा ट्रांसमिशन ओवरहेड है
- अनुसंधान प्रेरणा: पर्याप्त सुरक्षा सुनिश्चित करते हुए स्वीकार्य कम्प्यूटेशनल और संचार ओवरहेड बनाए रखने वाले समाधान की आवश्यकता है।
- एज डिप्लॉयमेंट LLMs की मौलिक क्षमताओं की सुरक्षा पर पहला व्यवस्थित अध्ययन: इस परिदृश्य में सुरक्षा चुनौतियों को व्यवस्थित रूप से चिन्हित करता है और एज पर तैनात LLMs की सुरक्षा के लिए आवश्यकताओं को निर्धारित करता है।
- CoreGuard प्लग-एंड-प्ले समाधान प्रस्तावित करता है: हल्के-फुल्के प्राधिकरण तंत्र का उपयोग करके एज पर तैनात LLMs की सुरक्षा करता है, प्रसार प्रोटोकॉल का उपयोग करके ट्रांसमिशन ओवरहेड को काफी कम करता है, साथ ही कम कम्प्यूटेशनल ओवरहेड बनाए रखता है।
- व्यापक प्रायोगिक सत्यापन: मौजूदा समाधानों की तुलना में, CoreGuard उच्च सुरक्षा गारंटी, कम ओवरहेड और कोई सटीकता हानि प्रदान करता है।
इनपुट: प्रशिक्षित LLM मॉडल
आउटपुट: लॉक किया गया मॉडल, जो केवल डिवाइस के भीतर विश्वसनीय हार्डवेयर (TEE) के माध्यम से उचित प्राधिकरण के साथ सामान्य रूप से काम करता है
बाधाएं: कम्प्यूटेशनल और संचार ओवरहेड को कम करें, मॉडल सटीकता को अपरिवर्तित रखें
CoreGuard संचालन दो चरणों में विभाजित है:
सुरक्षा प्रोटोकॉल (Protection Protocol):
- रैखिक परतों के वजन मैट्रिक्स पर पंक्ति क्रमचय: Wq′=πTWq,Wk′=πTWk,Wv′=πTWv,Wm′=πTWm
- ये पंक्ति क्रमचय "ताले" के रूप में कार्य करते हैं, रैखिक परतों को अक्षम करते हैं, केवल संबंधित स्तंभ क्रमचय इनपुट (प्राधिकरण) सामान्य गणना सक्षम करते हैं
- क्रमचय मैट्रिक्स π∈{0,1}d×d संतुष्ट करता है ππT=I
प्रसार प्रोटोकॉल (Propagation Protocol):
- आउटपुट प्रसंस्करण परतों पर स्तंभ क्रमचय: Wo′=Woπ,Wn′=Wnπ
- नेटवर्क की अपनी संचालन के माध्यम से विशेषताओं का स्तंभ क्रमचय प्राप्त करता है, स्वचालित प्राधिकरण प्रभाव प्राप्त करता है
- TEE को केवल प्रारंभिक प्राधिकरण प्रबंधित करने की आवश्यकता है, प्राधिकरण सभी बाद की परतों तक प्रसारित हो सकता है
एन्क्रिप्शन प्रक्रिया:
m′=mπ+pπ
जहां p एक-बार पैड (OTP) शोर है, m′ एन्क्रिप्ट किया गया क्रमचय विशेषता है।
आउटपुट रैखिक परत प्रसंस्करण:
n′=m′Wn′=(mπ+pπ)πTWn+bn=n+pWn
विकोडन और प्राधिकरण:
n′′=n′−pWn=nz′=(γ2⊙σy+nn+y−μy+n+β2)π=zπ
- एकल प्राधिकरण प्रसार तंत्र: क्रमचय डिजाइन के माध्यम से, नेटवर्क में प्राधिकरण के स्वचालित प्रसार को प्राप्त करता है, प्रत्येक परत को TEE प्राधिकरण की आवश्यकता से बचाता है।
- OTP एन्क्रिप्शन और स्थान मिश्रण का संयोजन: एक-बार पैड एन्क्रिप्शन का उपयोग करता है और क्रमचय के साथ संयोजित करता है, एन्क्रिप्शन और विकोडन प्रक्रिया को छुपाता है।
- इष्टतम संचार जटिलता: प्रत्येक अनुमान के लिए केवल 5 राउंड TEE-GPU ट्रांसमिशन की आवश्यकता है, सैद्धांतिक इष्टतम प्राप्त करता है।
- गणितीय सुरक्षा गारंटी: Learning With Errors (LWE) समस्या की NP-कठिनता धारणा के आधार पर सुरक्षा प्रमाण प्रदान करता है।
- GSM8k: गणितीय तर्क कार्य
- Spider: कोड जनरेशन कार्य
- PubMedQA: चिकित्सा प्रश्नोत्तर कार्य
- SQuAD: पठन समझ कार्य
- एज डिप्लॉयमेंट मॉडल: Qwen2-0.5B-Instruct, Gemma2-2B-it
- बड़े मॉडल: ChatGLM3-6B-32k, LLaMA3-8B-Instruct
- सुरक्षा: मॉडल चोरी हमलों की सटीकता (जितनी कम उतनी बेहतर सुरक्षा)
- दक्षता: फ्लोटिंग-पॉइंट संचालन (FLOPs), TEE-GPU ट्रांसमिशन ओवरहेड
- सटीकता: कार्य-विशिष्ट सटीकता
- TPTE: NPLO
- PPTE: DarkneTZ, SOTER, Serdab, DTE
- PSP: ShadowNet, TransLinkGuard (TLG)
- सीमाएं: No-shield (निचली सीमा), Black-box (ऊपरी सीमा)
- Hugging Face लाइब्रेरी का उपयोग करके कार्यान्वयन
- AdamW अनुकूलक, रैखिक सीखने की दर शेड्यूल
- NVIDIA A800 GPU पर प्रयोग
- मानता है कि हमलावर के पास 100% प्रशिक्षण डेटासेट है (पूर्व कार्य के 1% से अधिक कठोर)
सुरक्षा मूल्यांकन:
- अनधिकृत अनुमान सटीकता: सभी मामलों में 0%
- मॉडल चोरी हमला: CoreGuard सापेक्ष सटीकता 1.17× (Black-box के 1.00× के करीब)
- TPTE विधि NPLO (9.59×) और PPTE विधि DarkneTZ (8.43×) से काफी बेहतर
- अन्य PSP विधियों (TLG: 1.07×, ShadowNet: 1.09×) के साथ तुलनीय प्रदर्शन
दक्षता तुलना:
- TEE निष्पादन ओवरहेड: CoreGuard < 1.17e-03%, PPTE विधि 2.91%-21.52%
- TEE-GPU ट्रांसमिशन ओवरहेड: CoreGuard को केवल 5 राउंड की आवश्यकता है, जबकि ShadowNet को 448 राउंड की आवश्यकता है (LLaMA3-8B)
- ट्रांसमिशन डेटा मात्रा: CoreGuard लगभग 20KB, ShadowNet लगभग 1.3GB
विभिन्न हमले सेटिंग्स के तहत सुरक्षा:
- LoRA फाइन-ट्यूनिंग हमला: CoreGuard ऊपरी सीमा के करीब सुरक्षा बनाए रखता है
- विभिन्न डेटा अनुपात (1%-100%): सभी सेटिंग्स में Black-box सुरक्षा के करीब
- कार्य संरेखण: चाहे हमलावर का लक्ष्य कार्य तैनात मॉडल कार्य के साथ संरेखित हो या नहीं, सुरक्षा बनी रहती है
प्राधिकरण स्थिति प्रभाव:
- मध्य स्थिति प्राधिकरण सर्वोत्तम सुरक्षा प्रदान करता है
- प्रथम और अंतिम स्थिति प्राधिकरण कम सुरक्षा है, क्योंकि हमलावर को केवल कुछ पैरामीटर पुनर्प्राप्त करने की आवश्यकता है
- अधिकांश मामलों में, संरक्षित मॉडल मूल मॉडल के समान सटीकता रखता है
- कुछ मामलों में ±0.5% का मामूली उतार-चढ़ाव होता है, जिसे फ्लोटिंग-पॉइंट सटीकता सीमा के लिए जिम्मेदार ठहराया जाता है
- मॉडल सुरक्षा विधियां:
- वॉटरमार्किंग तकनीकें: निष्क्रिय सुरक्षा, केवल स्वामित्व प्रमाण प्रदान करता है
- मॉडल एन्क्रिप्शन: रनटाइम पर हमले के लिए असुरक्षित
- TEE सुरक्षा: प्रत्यक्ष सुरक्षा कम्प्यूटेशनल ओवरहेड बहुत बड़ा है
- पैरामीटर शफलिंग सुरक्षा:
- ShadowNet: कनवल्शन परत चैनल शफलिंग सुरक्षा
- TransLinkGuard: Transformer मॉडल सुरक्षा
- विश्वसनीय निष्पादन वातावरण अनुप्रयोग:
- CPU-आधारित TEE: ARM TrustZone, Intel SGX
- GPU TEE: अभी भी प्रारंभिक चरण में है, मुख्य रूप से डेटा सेंटर के लिए
मौजूदा कार्य की तुलना में, CoreGuard समान सुरक्षा स्तर बनाए रखते हुए परिमाण के क्रम में दक्षता सुधार प्राप्त करता है, विशेष रूप से संचार ओवरहेड में।
- CoreGuard ने एज पर तैनात LLMs की सुरक्षा समस्या को सफलतापूर्वक हल किया है
- प्रसार प्रोटोकॉल के माध्यम से इष्टतम संचार जटिलता प्राप्त की है
- ऊपरी सीमा सुरक्षा सुनिश्चित करते हुए नगण्य कम्प्यूटेशनल और संचार ओवरहेड प्राप्त किया है
- मॉडल की मूल सटीकता को बनाए रखा है
- साइड-चैनल हमले: TEE को सुरक्षा रूट के रूप में निर्भर करता है, साइड-चैनल हमलों के खतरे के अधीन हो सकता है
- GPU TEE सीमाएं: वर्तमान में मुख्य रूप से CPU-आधारित TEE पर निर्भर है, GPU TEE अभी भी परिपक्व नहीं है
- व्यावहारिक तैनाती: पेपर मुख्य ढांचे पर केंद्रित है, डिवाइस-विशिष्ट कार्यान्वयन विवरण में गहराई से नहीं गया है
- आर्किटेक्चर संगतता: मुख्य रूप से मुख्यधारा Transformer आर्किटेक्चर के लिए डिज़ाइन किया गया है
- साइड-चैनल हमले सुरक्षा उपायों को एकीकृत करें
- GPU TEE तकनीक विकास के अनुकूल बनाएं
- अधिक मॉडल आर्किटेक्चर तक विस्तारित करें
- वास्तविक डिवाइस तैनाती अनुकूलन
- मजबूत नवाचार: एज पर तैनात LLMs की मौलिक क्षमताओं की सुरक्षा समस्या को पहली बार व्यवस्थित रूप से हल करता है
- तकनीकी कौशल: प्रसार प्रोटोकॉल डिजाइन परिष्कृत है, एकल प्राधिकरण को पूरे नेटवर्क में प्रसारित करता है
- ठोस सिद्धांत: LWE समस्या के आधार पर गणितीय सुरक्षा गारंटी प्रदान करता है
- व्यापक प्रयोग: बहु-मॉडल, बहु-कार्य, बहु-हमले परिदृश्यों का व्यापक मूल्यांकन
- उच्च व्यावहारिक मूल्य: महत्वपूर्ण दक्षता सुधार इसे व्यावहारिक तैनाती में व्यवहार्य बनाता है
- सुरक्षा धारणाएं: TEE की सुरक्षा पर निर्भर है, साइड-चैनल हमलों के सामने कमजोर हो सकता है
- लागू दायरा: मुख्य रूप से Transformer आर्किटेक्चर के लिए, अन्य आर्किटेक्चर की लागू क्षमता सीमित है
- तैनाती जटिलता: व्यावहारिक तैनाती को अधिक हार्डवेयर और सिस्टम-स्तर कारकों पर विचार करने की आवश्यकता है
- दीर्घकालिक सुरक्षा: हमले तकनीकों के विकास के साथ, वर्तमान सुरक्षा उपायों की निरंतर प्रभावशीलता को सत्यापित करने की आवश्यकता है
- शैक्षणिक योगदान: एज AI सुरक्षा क्षेत्र के लिए नई अनुसंधान दिशा और समाधान विचार प्रदान करता है
- व्यावहारिक मूल्य: वाणिज्यिक LLM एज तैनाती के लिए महत्वपूर्ण मार्गदर्शन है
- तकनीकी प्रेरणा: AI सुरक्षा क्षेत्र में TEE तकनीक के आगे विकास को प्रेरित कर सकता है
- मालिकाना LLMs की एज डिवाइस तैनाती
- विलंबता और गोपनीयता के प्रति संवेदनशील AI अनुप्रयोग
- बौद्धिक संपत्ति संरक्षण की आवश्यकता वाली वाणिज्यिक AI सेवाएं
- संसाधन-सीमित वातावरण में मॉडल सुरक्षा
पेपर में मॉडल सुरक्षा, विश्वसनीय निष्पादन वातावरण, बड़े भाषा मॉडल और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हुए 52 संबंधित संदर्भ हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करते हैं।
समग्र मूल्यांकन: CoreGuard एक उच्च-गुणवत्ता वाला अनुसंधान कार्य है जो तकनीकी नवाचार, प्रायोगिक सत्यापन और व्यावहारिक मूल्य के मामले में उत्कृष्ट प्रदर्शन करता है। यह कार्य न केवल एक महत्वपूर्ण व्यावहारिक समस्या को हल करता है, बल्कि संबंधित क्षेत्र के बाद के अनुसंधान के लिए मूल्यवान विचार और विधियां भी प्रदान करता है।