2025-11-13T03:34:10.171136

Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data

Chen, Zhang, Lin et al.

Recent advances in LLMs have enhanced AI capabilities, but also increased the risk posed by malicious requests, highlighting the need for effective LLM safeguards to detect such queries. Existing approaches largely rely on classifier-based methods that lack interpretability and perform poorly on low-resource languages. To address these limitations, we propose ConsistentGuard, a novel reasoning-based multilingual safeguard, which enhances explainability via reasoning and boosts knowledge transfer between languages through alignment. With only 1,000 training samples, our method demonstrates superior performance on three datasets across six languages, outperforming larger models trained with significantly more data, and exhibits strong interpretability and generalization ability. We also contribute a multilingual benchmark extension and release our codes to support future research.

academic

LLM सुरक्षा उपायों को न्यूनतम प्रशिक्षण डेटा के साथ तर्क और संरेखण के माध्यम से कम-संसाधन भाषाओं के लिए अनलॉक करना

मूल जानकारी

पेपर ID: 2510.10677
शीर्षक: Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data
लेखक: Zhuowei Chen, Bowei Zhang, Nankai Lin, Tian Hou, Lianxi Wang
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन तिथि: 12 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.10677

सारांश

बड़े भाषा मॉडल (LLM) की क्षमताओं में वृद्धि के साथ, दुर्भावनापूर्ण अनुरोधों का जोखिम भी बढ़ता है, जो ऐसी क्वेरीज का पता लगाने के लिए प्रभावी LLM सुरक्षा सुरक्षा की आवश्यकता को उजागर करता है। मौजूदा विधियां मुख्य रूप से वर्गीकरणकर्ता विधियों पर निर्भर करती हैं जिनमें व्याख्यात्मकता की कमी है और कम-संसाधन भाषाओं पर खराब प्रदर्शन करती हैं। इन सीमाओं को संबोधित करने के लिए, यह पेपर ConsistentGuard प्रस्तावित करता है - एक नवीन तर्क-आधारित बहुभाषी सुरक्षा प्रणाली जो तर्क के माध्यम से व्याख्यात्मकता को बढ़ाती है और संरेखण के माध्यम से भाषाओं के बीच ज्ञान स्थानांतरण को बढ़ावा देती है। केवल 1,000 प्रशिक्षण नमूनों का उपयोग करते हुए, यह विधि तीन डेटासेट पर छह भाषाओं में उत्कृष्ट प्रदर्शन प्रदर्शित करती है, बड़ी मात्रा में डेटा के साथ प्रशिक्षित बड़े मॉडलों को पार करती है, और मजबूत व्याख्यात्मकता और सामान्यीकरण क्षमता प्रदर्शित करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य समस्या: मौजूदा LLM सुरक्षा विधियां कम-संसाधन भाषाओं पर महत्वपूर्ण प्रदर्शन गिरावट दिखाती हैं और व्याख्यात्मकता की कमी है
महत्व: LLM अनुप्रयोगों के व्यापक प्रसार के साथ, बहुभाषी वातावरण में सुरक्षा सुरक्षा की आवश्यकता तेजी से बढ़ रही है
मौजूदा विधियों की सीमाएं:
- वर्गीकरणकर्ता-आधारित विधियों में व्याख्यात्मकता और साक्ष्य समर्थन की कमी है
- कम-संसाधन भाषाओं (जैसे बंगाली) पर प्रदर्शन में भारी गिरावट
- क्रॉस-भाषा तर्क संगति समस्याओं को नजरअंदाज करता है
अनुसंधान प्रेरणा: एक ऐसी सुरक्षा ढांचा बनाना जिसमें तर्क क्षमता हो और बहुभाषी वातावरण में संगति बनाए रखे

मुख्य योगदान

ConsistentGuard ढांचा प्रस्तावित करना: तर्क-आधारित बहुभाषी सुरक्षा प्रशिक्षण ढांचा जो व्याख्यात्मकता, प्रभावशीलता और क्रॉस-भाषा सामान्यीकरण क्षमता को बढ़ाता है
CAO एल्गोरिदम डिजाइन करना: बाधित संरेखण अनुकूलन (Constrained Alignment Optimization) प्रस्तावित करना जो क्रॉस-भाषा तर्क असंगति समस्या को हल करता है
डेटा-कुशल प्रशिक्षण लागू करना: केवल 1,000 प्रशिक्षण नमूनों के साथ तीन डेटासेट पर छह भाषाओं में उत्कृष्ट प्रदर्शन प्राप्त करना
बहुभाषी बेंचमार्क बनाना: मौजूदा अंग्रेजी सुरक्षा बेंचमार्क को छह भाषाओं तक विस्तारित करना और कोड और डेटा को ओपन-सोर्स करना

विधि विवरण

कार्य परिभाषा

इनपुट: उपयोगकर्ता क्वेरी पाठ (बहुभाषी) आउटपुट: सुरक्षा निर्णय (हानिकारक/हानिरहित) + तर्क प्रक्रिया + उल्लंघन श्रेणी बाधाएं: क्रॉस-भाषा तर्क संगति बनाए रखना, व्याख्यात्मक निर्णय आधार प्रदान करना

मॉडल आर्किटेक्चर

ConsistentGuard तीन-चरण प्रशिक्षण ढांचा अपनाता है:

1. कोल्ड स्टार्ट चरण (Cold Start)

उद्देश्य: पर्यवेक्षित सूक्ष्म-ट्यूनिंग (SFT) के माध्यम से ज्ञान आसवन
विधि: DeepSeek V3 671B को शिक्षक मॉडल के रूप में उपयोग करते हुए, तीन-चरण तर्क युक्त प्रशिक्षण डेटा उत्पन्न करना:
- समझ: संवाद सामग्री को समझना
- नियम मिलान: प्रासंगिक निर्णय सिद्धांतों से मिलान करना
- निर्णय: विश्लेषण करना कि क्या सिद्धांतों का उल्लंघन हुआ है
डेटा निर्माण: चार अंग्रेजी सुरक्षा डेटासेट से 1,000 नमूनों का यादृच्छिक नमूनाकरण

2. तर्क प्रशिक्षण चरण (Reasoning Training)

एल्गोरिदम: समूह सापेक्ष नीति अनुकूलन (GRPO) का उपयोग करना
पुरस्कार फ़ंक्शन डिजाइन:

r = sin(L/(2·Lbest)·π) + [sin((p-2)/2·π) + 1]

जहां L तर्क की लंबाई है, Lbest इष्टतम लंबाई है (512 पर सेट), p त्रिपल पुनरावृत्ति दर है

पुरस्कार घटक:
- सटीकता पुरस्कार: निर्णय सही होना
- प्रारूप पुरस्कार: आउटपुट प्रारूप मानकीकरण
- लंबाई पुरस्कार: तर्क लंबाई स्थिरता नियंत्रण
- विविधता पुरस्कार: लंबाई पुरस्कार के दुरुपयोग को रोकना

3. क्रॉस-भाषा संरेखण चरण (Cross-lingual Alignment)

एल्गोरिदम: बाधित संरेखण अनुकूलन (CAO)
डेटा निर्माण:
- अंग्रेजी डेटा को 5 भाषाओं में अनुवाद करना
- विफलता सेट और सफलता सेट का निर्माण
- संरेखण नमूनों का संश्लेषण: विफलता इनपुट + सफलता आउटपुट + एंकर नमूना
अनुकूलन उद्देश्य:

LCAO = -E[log σ(β log πθ(pw|q)/πref(pw|q) - β log πθ(pl|q)/πref(pl|q))]
Lc = Dkl[πθ(qa⊕pa)||πref(qa⊕pa)]
L = LCAO + Lc

तकनीकी नवाचार बिंदु

दोहरी पुरस्कार तंत्र: तर्क लंबाई और विविधता को कुशलतापूर्वक संतुलित करना, तर्क की अत्यधिक लंबाई से दक्षता को प्रभावित होने से रोकना
बाधित संरेखण अनुकूलन: वैश्विक नियमितकरण पद के माध्यम से अनुकूलन दिशा को बाधित करना, उच्च-संसाधन भाषा के प्रदर्शन में गिरावट को रोकना
तीन-चरण क्रमिक प्रशिक्षण: ज्ञान आसवन से तर्क वृद्धि तक क्रॉस-भाषा संरेखण तक व्यवस्थित दृष्टिकोण
डेटा-कुशल डिजाइन: केवल 1,000 नमूनों का उपयोग करके बड़े पैमाने पर प्रशिक्षण मॉडल के समान प्रदर्शन प्राप्त करना

प्रायोगिक सेटअप

डेटासेट

प्रशिक्षण डेटा: चार ओपन-सोर्स सुरक्षा डेटासेट का मिश्रण, 1,000 नमूनों का यादृच्छिक नमूनाकरण
- Aegis, BeaverTails, ToxicChat, WildGuard
मूल्यांकन डेटासेट: तीन व्यापक रूप से उपयोग किए जाने वाले सुरक्षा बेंचमार्क
- OpenAI Moderation
- ToxicChat
- SimpleSafetyTests
भाषा कवरेज: अंग्रेजी, फ्रेंच, चीनी, जापानी, बंगाली, हिंदी

मूल्यांकन मेट्रिक्स

प्राथमिक मेट्रिक: मैक्रो-औसत F1 स्कोर
सहायक विश्लेषण: व्याख्यात्मकता मूल्यांकन, क्रॉस-भाषा संगति विश्लेषण

तुलनात्मक विधियां

Llama Guard 3 (1B/8B)
ShieldGemma (2B/9B)
GuardReasoner (3B)

कार्यान्वयन विवरण

आधार मॉडल: Qwen2.5-3B
हार्डवेयर वातावरण: दो NVIDIA A100 40G
इष्टतम तर्क लंबाई: 512 टोकन
प्रशिक्षण नमूने: केवल 1,000 अंग्रेजी नमूने

प्रायोगिक परिणाम

मुख्य परिणाम

OpenAI Moderation डेटासेट पर:

अंग्रेजी: 78.94 (दूसरा स्थान, केवल Llama Guard 3 8B के 79.69 से कम)
कम-संसाधन भाषा प्रदर्शन:
- बंगाली: 72.10 (कई बेसलाइनों को पार करता है)
- हिंदी: 73.26 (उत्कृष्ट प्रदर्शन)

ToxicChat डेटासेट पर:

अंग्रेजी: 84.26 (GuardReasoner के समान)
क्रॉस-भाषा स्थिरता: भाषाओं के बीच प्रदर्शन में छोटा अंतर

विलोपन प्रयोग

तर्क प्रशिक्षण विलोपन

SFT बेसलाइन बनाम तर्क प्रशिक्षण: तर्क प्रशिक्षण सभी भाषाओं पर महत्वपूर्ण सुधार लाता है
दोहरी पुरस्कार तंत्र प्रभावशीलता: R1-GRPO मानक GRPO की तुलना में बेहतर प्रदर्शन करता है

संरेखण विधि विलोपन

CAO बनाम DPO: CAO अधिकांश भाषाओं पर प्रदर्शन सुधार लाता है, जबकि DPO प्रभाव अस्थिर है
CAO कम-संसाधन भाषाओं पर अधिक स्पष्ट सुधार लाता है

मुख्य निष्कर्ष

डेटा दक्षता: केवल 1,000 नमूनों का उपयोग करके 127,600 नमूनों के साथ प्रशिक्षित मॉडल के समान प्रदर्शन प्राप्त करना
क्रॉस-भाषा सामान्यीकरण: तर्क प्रशिक्षण क्रॉस-भाषा सामान्यीकरण क्षमता में महत्वपूर्ण सुधार लाता है
संरेखण प्रभाव: CAO भाषाओं के बीच प्रदर्शन अंतर को प्रभावी ढंग से कम करता है, विशेष रूप से कम-संसाधन भाषाओं में
व्याख्यात्मकता: मॉडल विस्तृत तर्क प्रक्रिया प्रदान करता है, उल्लंघन कारण और प्रासंगिक नियमों की व्याख्या करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

तर्क-वर्धित बहुभाषी सुरक्षा ढांचा प्रदर्शन और व्याख्यात्मकता में महत्वपूर्ण सुधार लाता है
बाधित संरेखण अनुकूलन क्रॉस-भाषा तर्क असंगति समस्या को प्रभावी ढंग से हल करता है
डेटा-कुशल प्रशिक्षण रणनीति संसाधन-सीमित परिदृश्यों में महत्वपूर्ण मूल्य रखती है
व्यवस्थित तीन-चरण प्रशिक्षण ढांचा बहुभाषी AI सुरक्षा के लिए नया प्रतिमान प्रदान करता है

सीमाएं

भाषा कवरेज सीमित: केवल 6 भाषाओं पर सत्यापित, अन्य कम-संसाधन भाषाओं पर सामान्यीकरण अभी बाकी है
मॉडल आकार सीमा: केवल 3B पैरामीटर मॉडल पर सत्यापित, बड़े मॉडलों पर प्रभाव अज्ञात है
प्रशिक्षण डेटा आकार: 1,000 नमूने अपेक्षाकृत छोटे हैं, बड़े पैमाने पर डेटा का प्रभाव अभी बाकी है
मूल्यांकन आयाम: मुख्य रूप से वर्गीकरण सटीकता पर केंद्रित, मानव वरीयता आदि व्यापक मूल्यांकन की कमी है
व्याख्या गुणवत्ता: तर्क व्याख्या की गुणवत्ता का मूल्यांकन करना कठिन है, मानक उत्तरों की कमी है

भविष्य की दिशाएं

अधिक कम-संसाधन भाषाओं और भाषा परिवारों तक विस्तार करना
बड़े पैमाने पर मॉडलों पर विधि प्रभावशीलता को सत्यापित करना
तर्क व्याख्या गुणवत्ता के स्वचालित मूल्यांकन विधि विकसित करना
लंबे पाठ और संवाद परिदृश्यों में सुरक्षा सुरक्षा की खोज करना

गहन मूल्यांकन

शक्तियां

समस्या लक्ष्यीकरण मजबूत: कम-संसाधन भाषाओं पर मौजूदा विधियों की मुख्य समस्या को सीधे संबोधित करता है
विधि नवाचार उच्च:
- पहली बार बहुभाषी सुरक्षा सुरक्षा समस्या को व्यवस्थित रूप से हल करता है
- बाधित संरेखण अनुकूलन एल्गोरिदम डिजाइन चतुर है
- दोहरी पुरस्कार तंत्र कई उद्देश्यों को संतुलित करता है
प्रायोगिक डिजाइन पूर्ण:
- बहु-डेटासेट बहु-भाषा सत्यापन
- विस्तृत विलोपन प्रयोग
- कई मजबूत बेसलाइनों के साथ तुलना
व्यावहारिक मूल्य उच्च: डेटा-कुशल, तैनाती में आसान
ओपन-सोर्स योगदान: कोड और विस्तारित बेंचमार्क प्रदान करता है

कमजोरियां

सैद्धांतिक विश्लेषण अपर्याप्त: विधि प्रभावशीलता के लिए सैद्धांतिक व्याख्या की कमी है
मूल्यांकन सीमाएं:
- भाषा कवरेज अपेक्षाकृत सीमित है
- व्याख्या गुणवत्ता का मात्रात्मक मूल्यांकन की कमी है
- सुरक्षा मानकों पर सांस्कृतिक अंतर को ध्यान में नहीं रखा गया है
विधि जटिलता: तीन-चरण प्रशिक्षण कार्यान्वयन जटिलता बढ़ाता है
बेंचमार्क निर्माण: मशीन अनुवाद शब्दार्थ विचलन पेश कर सकता है

प्रभाव

शैक्षणिक योगदान: बहुभाषी AI सुरक्षा के लिए नई अनुसंधान दिशा खोलता है
व्यावहारिक मूल्य: वैश्विक AI अनुप्रयोगों के लिए सुरक्षा सुरक्षा समाधान प्रदान करता है
पुनरुत्पादनीयता: ओपन-सोर्स कोड और डेटा बाद के अनुसंधान का समर्थन करता है
प्रेरणा: तर्क + संरेखण ढांचा अन्य बहुभाषी कार्यों तक विस्तारित हो सकता है

लागू परिदृश्य

बहुभाषी AI सेवाएं: वैश्विक संवाद प्रणाली और सामग्री निर्माण मंच
संसाधन-सीमित वातावरण: छोटे मॉडल तैनाती परिदृश्य
उच्च सुरक्षा आवश्यकताएं: व्याख्यात्मक सुरक्षा सुरक्षा की आवश्यकता वाली प्रणालियां
क्रॉस-भाषा संगति आवश्यकताएं: एकीकृत सुरक्षा मानकों की आवश्यकता वाले बहुभाषी मंच

संदर्भ

पेपर में संबंधित कार्यों के बड़े संदर्भ शामिल हैं, मुख्य रूप से:

LLM सुरक्षा सुरक्षा: Llama Guard, ShieldGemma, GuardReasoner आदि
तर्क-वर्धित विधियां: Chain-of-Thought, स्व-सुधार, प्रतिकूल बहस आदि
क्रॉस-भाषा विधियां: बहुभाषी पूर्व-प्रशिक्षण, निर्देश सूक्ष्म-ट्यूनिंग, प्रत्यक्ष वरीयता अनुकूलन आदि
मूल्यांकन बेंचमार्क: OpenAI Moderation, ToxicChat, SimpleSafetyTests आदि

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो बहुभाषी AI सुरक्षा की महत्वपूर्ण और चुनौतीपूर्ण समस्या के लिए नवीन समाधान प्रस्तावित करता है। विधि डिजाइन तर्कसंगत है, प्रायोगिक सत्यापन पूर्ण है, और इसमें महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य है। हालांकि कुछ सीमाएं हैं, लेकिन यह क्षेत्र के विकास में महत्वपूर्ण योगदान देता है।

Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data

LLM सुरक्षा उपायों को न्यूनतम प्रशिक्षण डेटा के साथ तर्क और संरेखण के माध्यम से कम-संसाधन भाषाओं के लिए अनलॉक करना

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

मॉडल आर्किटेक्चर

1. कोल्ड स्टार्ट चरण (Cold Start)

2. तर्क प्रशिक्षण चरण (Reasoning Training)

3. क्रॉस-भाषा संरेखण चरण (Cross-lingual Alignment)

तकनीकी नवाचार बिंदु

प्रायोगिक सेटअप

डेटासेट

मूल्यांकन मेट्रिक्स

तुलनात्मक विधियां

कार्यान्वयन विवरण

प्रायोगिक परिणाम

मुख्य परिणाम

विलोपन प्रयोग

तर्क प्रशिक्षण विलोपन

संरेखण विधि विलोपन

मुख्य निष्कर्ष

संबंधित कार्य

LLM सुरक्षा सुरक्षा

तर्क-वर्धित प्रशिक्षण

क्रॉस-भाषा ज्ञान सामान्यीकरण

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

शक्तियां

कमजोरियां

प्रभाव

लागू परिदृश्य

संदर्भ