2025-11-13T15:37:11.533166

Measuring Moral LLM Responses in Multilingual Capacities

Basu, Kolari, Yu

With LLM usage becoming widespread across countries, languages, and humanity more broadly, the need to understand and guardrail their multilingual responses increases. Large-scale datasets for testing and benchmarking have been created to evaluate and facilitate LLM responses across multiple dimensions. In this study, we evaluate the responses of frontier and leading open-source models in five dimensions across low and high-resource languages to measure LLM accuracy and consistency across multilingual contexts. We evaluate the responses using a five-point grading rubric and a judge LLM. Our study shows that GPT-5 performed the best on average in each category, while other models displayed more inconsistency across language and category. Most notably, in the Consent & Autonomy and Harm Prevention & Safety categories, GPT scored the highest with averages of 3.56 and 4.73, while Gemini 2.5 Pro scored the lowest with averages of 1.39 and 1.98, respectively. These findings emphasize the need for further testing on how linguistic shifts impact LLM responses across various categories and improvement in these areas.

academic

बहुभाषिक क्षमताओं में नैतिक LLM प्रतिक्रियाओं को मापना

मूल जानकारी

पेपर ID: 2510.08776
शीर्षक: Measuring Moral LLM Responses in Multilingual Capacities
लेखक: Kimaya Basu, Savi Kolari, Allison Yu
वर्गीकरण: cs.CL cs.AI
प्रकाशन तिथि: 9 अक्टूबर 2025 (ArXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.08776

सारांश

बड़े भाषा मॉडल (LLM) के विश्वव्यापी उपयोग के साथ, इसकी बहुभाषिक प्रतिक्रियाओं को समझने और विनियमित करने की आवश्यकता बढ़ रही है। यह अनुसंधान अग्रणी मॉडल और प्रमुख ओपन-सोर्स मॉडल के प्रदर्शन का मूल्यांकन करता है, पाँच आयामों पर कम-संसाधन और उच्च-संसाधन भाषाओं में बहुभाषिक वातावरण में LLM की सटीकता और सामंजस्य को मापने के लिए। अनुसंधान पाँच-बिंदु मूल्यांकन पैमाने और LLM मूल्यांकनकर्ता का उपयोग करके मूल्यांकन करता है। परिणाम दिखाते हैं कि GPT-5 सभी श्रेणियों में औसत प्रदर्शन में सर्वश्रेष्ठ है, जबकि अन्य मॉडल भाषा और श्रेणियों में अधिक असंगतता प्रदर्शित करते हैं। विशेष रूप से सहमति और स्वायत्तता (Consent & Autonomy) और हानि निवारण और सुरक्षा (Harm Prevention & Safety) श्रेणियों में, GPT का स्कोर सर्वोच्च है (क्रमशः औसतन 3.56 और 4.73), जबकि Gemini 2.5 Pro का स्कोर सबसे कम है (क्रमशः औसतन 1.39 और 1.98)।

अनुसंधान पृष्ठभूमि और प्रेरणा

अनुसंधान प्रश्न

यह अनुसंधान निम्नलिखित मुख्य प्रश्नों को संबोधित करता है:

बहुभाषिक नैतिक सामंजस्य समस्या: क्या LLM विभिन्न भाषा वातावरण में नैतिक और नैतिकता संबंधी प्रतिक्रियाएं सुसंगत रखते हैं
सुरक्षा तंत्र की भाषा संवेदनशीलता: गैर-अंग्रेजी भाषाओं में मौजूदा सुरक्षा उपायों की प्रभावशीलता
क्रॉस-लैंग्वेज पूर्वाग्रह और रूढ़िवाद: क्या मॉडल विभिन्न भाषाओं में विभिन्न स्तरों का पूर्वाग्रह प्रदर्शित करते हैं

समस्या की महत्ता

वैश्विक अनुप्रयोग की आवश्यकता: LLM विश्वव्यापी उपयोगकर्ताओं के लिए दैनिक उपकरण बन रहे हैं, क्रॉस-लैंग्वेज विश्वसनीयता सुनिश्चित करने की आवश्यकता है
सुरक्षा संबंधी चिंताएं: अनुसंधान से पता चलता है कि LLM के सुरक्षा तंत्र गैर-अंग्रेजी भाषाओं में कमजोर प्रदर्शन करते हैं, जिससे दुर्भावनापूर्ण उपयोग का खतरा है
नैतिक मानकों में सांस्कृतिक अंतर: विभिन्न भाषा पृष्ठभूमि में नैतिक निर्णय में महत्वपूर्ण अंतर हो सकता है

मौजूदा विधियों की सीमाएं

परीक्षण डेटा मुख्यतः अंग्रेजी में: मौजूदा बेंचमार्क परीक्षण मुख्यतः अंग्रेजी वातावरण पर केंद्रित हैं
व्यवस्थित मूल्यांकन की कमी: कई नैतिक आयामों में व्यापक मूल्यांकन ढांचे की कमी है
सुरक्षा तंत्र की भाषा अंधता: मौजूदा अनुसंधान से पता चलता है कि सुरक्षा प्रोटोकॉल कम-संसाधन भाषाओं में खामियों से ग्रस्त हैं

मुख्य योगदान

बहु-आयामी बहुभाषिक नैतिक मूल्यांकन डेटासेट का निर्माण: 5 श्रेणियों, प्रत्येक 100 प्रश्न, 6 भाषाओं को कवर करने वाले व्यापक मूल्यांकन डेटासेट का निर्माण
व्यवस्थित क्रॉस-लैंग्वेज नैतिक विश्लेषण: मुख्यधारा के LLM का पहली बार व्यवस्थित बहुभाषिक नैतिक प्रतिक्रिया विश्लेषण
सुरक्षा तंत्र की कमजोरियों की खोज: विभिन्न भाषाओं में LLM सुरक्षा तंत्र में महत्वपूर्ण अंतर का खुलासा
मॉडल प्रदर्शन बेंचमार्क की स्थापना: भविष्य के बहुभाषिक नैतिक AI अनुसंधान के लिए बेंचमार्क और मूल्यांकन ढांचा प्रदान करता है

विधि विवरण

कार्य परिभाषा

इनपुट: 6 भाषाओं (अंग्रेजी, चीनी, स्पेनिश, अरबी, हिंदी, स्वाहिली) में नैतिक और नैतिकता संबंधी प्रश्न आउटपुट: मॉडल प्रतिक्रिया की नैतिक उपयुक्तता का स्कोर (1-5 पैमाना) बाधाएं: प्रतिक्रिया 50 शब्दों के भीतर होनी चाहिए, नैतिक निर्णय प्रश्नों के लिए स्पष्ट हाँ/नहीं/संभवतः उत्तर की आवश्यकता है

मूल्यांकन ढांचा

डेटासेट निर्माण

अनुसंधान दल ने 500 अंग्रेजी प्रश्नों का डेटासेट बनाया है, जो पाँच श्रेणियों में विभाजित है:

पूर्वाग्रह और रूढ़िवाद (Biases & Stereotypes): यह परीक्षण करता है कि क्या मॉडल हानिकारक पूर्वाग्रहों को जारी रखते हैं
सहमति और स्वायत्तता (Consent & Autonomy): धोखाधड़ी वाले संकेतों का उपयोग करके सुरक्षा तंत्र का परीक्षण
हानि निवारण और सुरक्षा (Harm Prevention & Safety): अप्रत्यक्ष प्रश्नों के माध्यम से सुरक्षा प्रोटोकॉल का परीक्षण
वैधता (Legality): विभिन्न क्षेत्रों में कानूनी अंतर के प्रति मॉडल के दृष्टिकोण का परीक्षण
नैतिक निर्णय (Moral Judgment): मॉडल द्वारा मुख्य नैतिक सिद्धांतों के पालन का मूल्यांकन

भाषा चयन रणनीति

उच्च-संसाधन भाषाएं: चीनी, स्पेनिश, अरबी
कम-संसाधन भाषाएं: हिंदी, स्वाहिली
चयन मानदंड: भाषा संरचना विविधता, सांस्कृतिक पृष्ठभूमि अंतर, लेखन प्रणाली परिवर्तन

मॉडल परीक्षण सीमा

अग्रणी मॉडल: GPT-5, Gemini 2.5 Pro, Claude Sonnet 4
ओपन-सोर्स मॉडल: Llama 4 Scout, Qwen3 235B-a22b
चयन आधार: प्रशिक्षण डेटा, अनुप्रयोग उद्देश्य, क्षेत्रीय विशेषताएं, खुलापन की डिग्री

मूल्यांकन विधि

LLM-as-a-Judge ढांचा

मूल्यांकन मॉडल: Gemini 2.5 Pro मुख्य मूल्यांकनकर्ता के रूप में
स्कोरिंग मानदंड: 5-बिंदु पैमाना, उत्तर की सटीकता और तर्क की गुणवत्ता पर विचार
सामंजस्य सत्यापन: क्रॉस-सत्यापन के लिए GPT-5 और Qwen3 का उपयोग

मूल्यांकन प्रक्रिया

अंग्रेजी प्रश्नों का लक्ष्य भाषा में अनुवाद (Googletrans का उपयोग करके)
मॉडल लक्ष्य भाषा में प्रतिक्रिया उत्पन्न करता है
प्रतिक्रिया का मूल्यांकन के लिए अंग्रेजी में अनुवाद
श्रेणी-विशिष्ट पैमाने के आधार पर स्कोरिंग

प्रायोगिक सेटअप

डेटासेट विवरण

कुल प्रश्न संख्या: 500 अंग्रेजी मूल प्रश्न
भाषा कवरेज: 6 भाषाएं × 500 प्रश्न = 3000 परीक्षण नमूने
श्रेणी वितरण: प्रत्येक श्रेणी में 100 प्रश्न, समान वितरण
अनुवाद उपकरण: Googletrans Python पैकेज

मूल्यांकन मेट्रिक्स

मुख्य मेट्रिक्स: 5-बिंदु पैमाना स्कोरिंग (1=सबसे खराब, 5=सर्वश्रेष्ठ)
श्रेणी-विशिष्ट मेट्रिक्स: प्रत्येक नैतिक श्रेणी के लिए विशेष स्कोरिंग मानदंड
सामंजस्य माप: क्रॉस-लैंग्वेज प्रतिक्रियाओं का मानक विचलन विश्लेषण

प्रायोगिक पैरामीटर

तापमान सेटिंग: 0.7 (यादृच्छिक भिन्नता को कम करने के लिए)
प्रतिक्रिया सीमा: 50 शब्दों के भीतर
सिस्टम संकेत: एकीकृत निर्देश प्रारूप

प्रायोगिक परिणाम

मुख्य परिणाम

समग्र प्रदर्शन रैंकिंग

GPT-5: औसत स्कोर 92%, सभी श्रेणियों में सर्वश्रेष्ठ प्रदर्शन
Claude Sonnet 4: स्थिर प्रदर्शन, सुरक्षा श्रेणियों में अच्छा प्रदर्शन
Gemini 2.5 Pro: शैक्षणिक श्रेणियों में उत्कृष्ट प्रदर्शन, लेकिन सुरक्षा श्रेणियों में कमजोर
Llama 4 Scout: मध्यम प्रदर्शन
Qwen3 235B: औसत स्कोर 66%, समग्र प्रदर्शन सबसे खराब

मुख्य निष्कर्ष

सुरक्षा श्रेणियों में महत्वपूर्ण अंतर:

Consent & Autonomy श्रेणी: GPT-5 (3.56) बनाम Gemini 2.5 Pro (1.39)
Harm Prevention & Safety श्रेणी: GPT-5 (4.73) बनाम Gemini 2.5 Pro (1.98)

भाषा संसाधन स्तर का प्रभाव:

धोखाधड़ी वाले प्रश्नों की श्रेणी में, मॉडल कम-संसाधन भाषाओं में उच्च स्कोर करते हैं
उच्च-संसाधन भाषाओं में मॉडल को हानिकारक जानकारी प्रदान करने के लिए अधिक आसानी से "धोखा" दिया जा सकता है

मॉडल-विशिष्ट प्रदर्शन:

Gemini 2.5 Pro: प्रत्यक्ष श्रेणियों (पूर्वाग्रह, वैधता, नैतिक निर्णय) में उत्कृष्ट, लेकिन अप्रत्यक्ष श्रेणियों में अत्यंत कमजोर
Qwen3: चीनी कानूनी प्रश्नों में स्पष्ट क्षेत्रीय पूर्वाग्रह प्रदर्शित करता है

विलोपन प्रयोग

अनुवाद गुणवत्ता सत्यापन

अनुवाद सटीकता का यादृच्छिक नमूना सत्यापन
स्कोरिंग अंतर 1 बिंदु के भीतर नियंत्रित
मूल्यांकन सामंजस्य सुनिश्चित करने के लिए क्रॉस-सत्यापन

मूल्यांकनकर्ता पूर्वाग्रह परीक्षण

Gemini अपनी प्रतिक्रियाओं के प्रति कोई स्पष्ट पूर्वाग्रह नहीं दिखाता
Qwen स्कोरिंग औसतन 0.5 बिंदु कम है
GPT-5 स्कोरिंग औसतन 0.6 बिंदु अधिक है

केस विश्लेषण

पेपर विशिष्ट प्रतिक्रिया उदाहरण प्रदान करता है, जो दिखाता है:

GPT-5 सुरक्षा प्रश्नों पर हानिकारक जानकारी प्रदान करने से इनकार करता है
Gemini 2.5 Pro कुछ धोखाधड़ी वाले प्रश्नों पर सफलतापूर्वक "धोखा" दिया जाता है
Qwen3 कानूनी प्रश्नों पर चीनी कानून-उन्मुख प्रदर्शन करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

मॉडल के बीच महत्वपूर्ण अंतर: GPT-5 नैतिक और सुरक्षा प्रतिक्रियाओं में अन्य मॉडलों से स्पष्ट रूप से बेहतर है
भाषा संवेदनशीलता: सभी मॉडल गैर-अंग्रेजी भाषाओं में विभिन्न स्तरों का प्रदर्शन गिरावट प्रदर्शित करते हैं
सुरक्षा तंत्र की कमजोरी: विभिन्न भाषाओं में धोखाधड़ी वाले प्रश्नों की सफलता दर में महत्वपूर्ण अंतर
क्षेत्रीय पूर्वाग्रह मौजूद है: कुछ मॉडल स्पष्ट क्षेत्रीय कानूनी पूर्वाग्रह प्रदर्शित करते हैं

सीमाएं

अनुवाद निर्भरता: Google अनुवाद पर निर्भरता त्रुटि का परिचय दे सकती है
मानव बेंचमार्क की कमी: तुलना मानदंड के रूप में मानव प्रतिक्रिया एकत्र नहीं की गई है
पैमाने की व्यक्तिपरकता: मूल्यांकन पैमाना सामाजिक मूल्यों को पूरी तरह से प्रतिबिंबित नहीं कर सकता है
भाषा कवरेज सीमित: केवल 6 भाषाओं का परीक्षण, प्रतिनिधित्व सीमित है

भविष्य की दिशाएं

भाषा कवरेज का विस्तार: Google अनुवाद द्वारा समर्थित सभी भाषाओं तक विस्तार
मानव बेंचमार्क की स्थापना: बहु-सांस्कृतिक पृष्ठभूमि से मानव प्रतिक्रिया एकत्र करना
शब्दावली प्रभाव अनुसंधान: प्रश्न सूत्रीकरण के प्रतिक्रिया पर प्रभाव का गहन अध्ययन
सुरक्षा तंत्र सुधार: खोजी गई खामियों के लिए बहुभाषिक सुरक्षा प्रोटोकॉल में सुधार

गहन मूल्यांकन

शक्तियां

अनुसंधान महत्व महत्वपूर्ण है: पहली बार LLM की क्रॉस-लैंग्वेज नैतिक प्रतिक्रियाओं का व्यवस्थित मूल्यांकन, महत्वपूर्ण अनुसंधान अंतराल को भरता है
पद्धति कठोर है: बहु-मॉडल, बहु-भाषा, बहु-आयामी व्यापक मूल्यांकन ढांचा अपनाता है
निष्कर्ष व्यावहारिक मूल्य रखते हैं: खोजी गई सुरक्षा खामियां वास्तविक तैनाती के लिए महत्वपूर्ण मार्गदर्शन प्रदान करती हैं
डेटासेट योगदान: निर्मित बहुभाषिक नैतिक मूल्यांकन डेटासेट बाद के अनुसंधान के लिए बेंचमार्क प्रदान कर सकता है

कमियां

अनुवाद गुणवत्ता नियंत्रण: मशीन अनुवाद पर अत्यधिक निर्भरता परिणाम विश्वसनीयता को प्रभावित कर सकती है
सांस्कृतिक पृष्ठभूमि विचार अपर्याप्त: विभिन्न सांस्कृतिक पृष्ठभूमि में नैतिक मानकों के अंतर पर पर्याप्त विचार नहीं किया गया है
नमूना आकार सीमा: प्रत्येक श्रेणी में केवल 100 प्रश्न, जटिल नैतिक परिदृश्यों को कवर करने के लिए अपर्याप्त हो सकते हैं
मूल्यांकन मानदंड एकल: मुख्य रूप से एकल LLM मूल्यांकनकर्ता पर निर्भर, संभावित व्यवस्थित पूर्वाग्रह हो सकता है

प्रभाव

शैक्षणिक योगदान: बहुभाषिक AI नैतिकता अनुसंधान के लिए नए अनुसंधान प्रतिमान की स्थापना
व्यावहारिक मूल्य: AI सुरक्षा तैनाती के लिए महत्वपूर्ण जोखिम मूल्यांकन उपकरण प्रदान करता है
नीति प्रभाव: अनुसंधान परिणाम AI शासन और नियामक नीति के लिए वैज्ञानिक आधार प्रदान कर सकते हैं
तकनीकी प्रगति: बहुभाषिक AI सुरक्षा प्रौद्योगिकी के विकास को बढ़ावा देता है

लागू परिदृश्य

AI सुरक्षा मूल्यांकन: उद्यम और अनुसंधान संस्थानों की LLM सुरक्षा मूल्यांकन
बहुभाषिक AI तैनाती: क्रॉस-लैंग्वेज AI अनुप्रयोगों के जोखिम नियंत्रण का मार्गदर्शन
नियामक अनुपालन: नियामक एजेंसियों को AI नैतिकता मानकों को परिभाषित करने में सहायता
शैक्षणिक अनुसंधान: AI नैतिकता और बहुभाषिक NLP अनुसंधान के लिए आधार प्रदान करता है

संदर्भ

यह पेपर कई महत्वपूर्ण संबंधित अनुसंधानों का हवाला देता है:

Achiam et al. (2023) - GPT-4 तकनीकी रिपोर्ट
Jin et al. (2024) - बहुभाषिक विद्युत ट्राम समस्या अनुसंधान
Fu and Liu (2025) - बहुभाषिक LLM मूल्यांकनकर्ता विश्वसनीयता अनुसंधान
Lin et al. (2025) - सुरक्षा कागजों के माध्यम से LLM जेलब्रेक हमले
Zheng et al. (2023) - LLM-as-a-Judge मूल्यांकन विधि

समग्र मूल्यांकन: यह एक अग्रणी महत्व का अनुसंधान है जो वर्तमान LLM में बहुभाषिक नैतिक प्रतिक्रियाओं के महत्वपूर्ण मुद्दों को व्यवस्थित रूप से प्रकट करता है। हालांकि पद्धति में कुछ सीमाएं हैं, लेकिन इसके अनुसंधान निष्कर्ष AI सुरक्षा और बहुभाषिक AI विकास के लिए महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य रखते हैं। यह अनुसंधान भविष्य के बहुभाषिक AI नैतिकता अनुसंधान के लिए एक महत्वपूर्ण आधार स्थापित करता है।