2025-11-13T15:37:11.533166

Measuring Moral LLM Responses in Multilingual Capacities

Basu, Kolari, Yu
With LLM usage becoming widespread across countries, languages, and humanity more broadly, the need to understand and guardrail their multilingual responses increases. Large-scale datasets for testing and benchmarking have been created to evaluate and facilitate LLM responses across multiple dimensions. In this study, we evaluate the responses of frontier and leading open-source models in five dimensions across low and high-resource languages to measure LLM accuracy and consistency across multilingual contexts. We evaluate the responses using a five-point grading rubric and a judge LLM. Our study shows that GPT-5 performed the best on average in each category, while other models displayed more inconsistency across language and category. Most notably, in the Consent & Autonomy and Harm Prevention & Safety categories, GPT scored the highest with averages of 3.56 and 4.73, while Gemini 2.5 Pro scored the lowest with averages of 1.39 and 1.98, respectively. These findings emphasize the need for further testing on how linguistic shifts impact LLM responses across various categories and improvement in these areas.
academic

Messung moralischer LLM-Antworten in mehrsprachigen Kapazitäten

Grundlegende Informationen

  • Papier-ID: 2510.08776
  • Titel: Measuring Moral LLM Responses in Multilingual Capacities
  • Autoren: Kimaya Basu, Savi Kolari, Allison Yu
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungsdatum: 9. Oktober 2025 (ArXiv-Preprint)
  • Papier-Link: https://arxiv.org/abs/2510.08776

Zusammenfassung

Mit der weit verbreiteten Nutzung großer Sprachmodelle (LLM) weltweit wächst die Notwendigkeit, ihre mehrsprachigen Antworten zu verstehen und zu regulieren. Diese Forschung bewertet die Leistung von Spitzenmodellen und führenden Open-Source-Modellen über fünf Dimensionen hinweg in ressourcenarmen und ressourcenreichen Sprachen, um die Genauigkeit und Konsistenz von LLM in mehrsprachigen Umgebungen zu messen. Die Studie nutzt eine fünfstufige Bewertungsskala und LLM-Bewerter für die Evaluierung. Die Ergebnisse zeigen, dass GPT-5 in allen Kategorien die beste durchschnittliche Leistung erbringt, während andere Modelle größere Inkonsistenzen zwischen Sprachen und Kategorien aufweisen. Besonders in den Kategorien Zustimmung und Autonomie (Consent & Autonomy) und Schadensverhinderung und Sicherheit (Harm Prevention & Safety) erzielte GPT die höchsten Werte (durchschnittlich 3,56 bzw. 4,73), während Gemini 2.5 Pro die niedrigsten Werte erzielte (durchschnittlich 1,39 bzw. 1,98).

Forschungshintergrund und Motivation

Forschungsfragen

Diese Studie behandelt die folgenden Schlüsselfragen:

  1. Problem der mehrsprachigen moralischen Konsistenz: Bleiben die moralischen und ethischen Antworten von LLM über verschiedene Sprachkontexte hinweg konsistent?
  2. Sprachempfindlichkeit von Sicherheitsmechanismen: Wirksamkeit bestehender Sicherheitsmaßnahmen in nicht-englischen Sprachen
  3. Sprachübergreifende Vorurteile und Stereotypen: Zeigen Modelle unterschiedliche Grade von Vorurteilen in verschiedenen Sprachen?

Bedeutung der Forschungsfragen

  1. Anforderungen globalisierter Anwendungen: LLM werden zu alltäglichen Werkzeugen für globale Nutzer und erfordern Zuverlässigkeit über Sprachen hinweg
  2. Sicherheitsbedenken: Forschung zeigt, dass Sicherheitsmechanismen von LLM in nicht-englischen Sprachen schwächer sind und leicht missbraucht werden können
  3. Kulturelle Unterschiede in Moralstandards: Moralische Urteile können unter verschiedenen Sprachhintergründen erheblich unterschiedlich sein

Einschränkungen bestehender Methoden

  1. Testdaten hauptsächlich auf Englisch: Bestehende Benchmark-Tests konzentrieren sich hauptsächlich auf englischsprachige Umgebungen
  2. Mangel an systematischer Bewertung: Fehlender umfassender Bewertungsrahmen über mehrere moralische Dimensionen hinweg
  3. Sprachliche Blindstellen in Sicherheitsmechanismen: Bestehende Forschung zeigt Lücken in Sicherheitsprotokollen in ressourcenarmen Sprachen

Kernbeiträge

  1. Konstruktion eines mehrdimensionalen mehrsprachigen Moralitätsbewertungsdatensatzes: Erstellung eines umfassenden Bewertungsdatensatzes mit 5 Kategorien, je 100 Fragen und Abdeckung von 6 Sprachen
  2. Systematische sprachübergreifende Moralitätsanalyse: Erste systematische Analyse mehrsprachiger moralischer Antworten von Mainstream-LLM
  3. Entdeckung von Sicherheitsmechanismus-Schwachstellen: Offenlegung signifikanter Unterschiede in LLM-Sicherheitsmechanismen zwischen verschiedenen Sprachen
  4. Etablierung von Modellleistungs-Benchmarks: Bereitstellung von Benchmarks und Bewertungsrahmen für zukünftige mehrsprachige moralische KI-Forschung

Methodische Details

Aufgabendefinition

Eingabe: Moralische und ethische Fragen über 6 Sprachen (Englisch, Chinesisch, Spanisch, Arabisch, Hindi, Swahili) Ausgabe: Moralische Angemessenheitsbewertung der Modellantwort (1-5-Skala) Einschränkungen: Antworten müssen unter 50 Wörtern liegen, moralische Urteilsfragen erfordern klare Ja/Nein/Möglich-Antworten

Bewertungsrahmen

Datensatzkonstruktion

Das Forschungsteam konstruierte einen Datensatz mit 500 englischsprachigen Fragen, unterteilt in fünf Kategorien:

  1. Vorurteile und Stereotypen (Biases & Stereotypes): Prüfung, ob das Modell schädliche Vorurteile fortsetzt
  2. Zustimmung und Autonomie (Consent & Autonomy): Verwendung täuschender Aufforderungen zum Testen von Sicherheitsmechanismen
  3. Schadensverhinderung und Sicherheit (Harm Prevention & Safety): Testen von Sicherheitsprotokollen durch indirekte Fragen
  4. Legalität (Legality): Testen der Modellbehandlung rechtlicher Unterschiede zwischen Regionen
  5. Moralisches Urteil (Moral Judgment): Bewertung der Einhaltung grundlegender moralischer Prinzipien durch das Modell

Sprachauswahlstrategie

  • Ressourcenreiche Sprachen: Chinesisch, Spanisch, Arabisch
  • Ressourcenarme Sprachen: Hindi, Swahili
  • Auswahlkriterien: Sprachstrukturvielfalt, kulturelle Hintergrundunterschiede, Schriftsystemvariationen

Modell-Testbereich

  • Spitzenmodelle: GPT-5, Gemini 2.5 Pro, Claude Sonnet 4
  • Open-Source-Modelle: Llama 4 Scout, Qwen3 235B-a22b
  • Auswahlbegründung: Trainingsdaten, Anwendungsziele, regionale Besonderheiten, Offenheit

Bewertungsmethoden

LLM-as-a-Judge-Rahmen

  • Bewertungsmodell: Gemini 2.5 Pro als primärer Bewerter
  • Bewertungskriterien: 5-Punkte-Skala, berücksichtigt Antwortgenauigkeit und Begründungsqualität
  • Konsistenzvalidierung: Kreuzvalidierung mit GPT-5 und Qwen3

Bewertungsprozess

  1. Englische Fragen in Zielsprachen übersetzen (mit Googletrans)
  2. Modell generiert Antworten in Zielsprache
  3. Antworten zurück ins Englische übersetzen zur Bewertung
  4. Bewertung basierend auf kategoriespezifischen Skalen

Experimentelle Einrichtung

Datensatz-Details

  • Gesamtzahl der Fragen: 500 englischsprachige Originalfragen
  • Sprachabdeckung: 6 Sprachen × 500 Fragen = 3000 Testmuster
  • Kategorieverteilung: 100 Fragen pro Kategorie, gleichmäßig verteilt
  • Übersetzungstool: Googletrans Python-Paket

Bewertungsmetriken

  • Primäre Metrik: 5-Punkte-Skala-Bewertung (1=schlechteste, 5=beste)
  • Kategoriespezifische Metriken: Spezialisierte Bewertungskriterien für jede moralische Kategorie
  • Konsistenzmessung: Standardabweichungsanalyse sprachübergreifender Antworten

Experimentelle Parameter

  • Temperatureinstellung: 0,7 (Reduktion zufälliger Variationen)
  • Antwortvorgabe: Unter 50 Wörtern
  • Systemaufforderung: Einheitliches Anweisungsformat

Experimentelle Ergebnisse

Hauptergebnisse

Gesamtleistungs-Ranking

  1. GPT-5: Durchschnittliche Bewertung 92%, beste Leistung in allen Kategorien
  2. Claude Sonnet 4: Stabile Leistung, gute Leistung in Sicherheitskategorien
  3. Gemini 2.5 Pro: Ausgezeichnete Leistung in akademischen Kategorien, schwache Leistung in Sicherheitskategorien
  4. Llama 4 Scout: Mittelmäßige Leistung
  5. Qwen3 235B: Durchschnittliche Bewertung 66%, schlechteste Gesamtleistung

Wichtigste Erkenntnisse

Signifikante Unterschiede in Sicherheitskategorien:

  • Kategorie Zustimmung & Autonomie: GPT-5 (3,56) vs. Gemini 2.5 Pro (1,39)
  • Kategorie Schadensverhinderung & Sicherheit: GPT-5 (4,73) vs. Gemini 2.5 Pro (1,98)

Auswirkungen des Sprachressourcenniveaus:

  • In täuschenden Fragenkategorien erzielen Modelle in ressourcenarmen Sprachen höhere Bewertungen
  • In ressourcenreichen Sprachen werden Modelle leichter "getäuscht", schädliche Informationen bereitzustellen

Modellspezifische Leistung:

  • Gemini 2.5 Pro: Ausgezeichnete Leistung in direkten Kategorien (Vorurteile, Legalität, moralisches Urteil), aber extrem schwache Leistung in indirekten Kategorien
  • Qwen3: Zeigt deutliche regionale Vorurteile bei chinesischen Rechtsfragen

Ablationsstudien

Validierung der Übersetzungsqualität

  • Stichprobenweise Validierung der Übersetzungsgenauigkeit
  • Bewertungsunterschiede auf 1 Punkt begrenzt
  • Kreuzvalidierung gewährleistet Bewertungskonsistenz

Test auf Bewerter-Vorurteile

  • Gemini zeigt keine offensichtlichen Vorurteile gegenüber eigenen Antworten
  • Qwen-Bewertungen durchschnittlich 0,5 Punkte niedriger
  • GPT-5-Bewertungen durchschnittlich 0,6 Punkte höher

Fallstudienanalyse

Das Papier bietet typische Antwortbeispiele, die zeigen:

  1. GPT-5 lehnt es ab, schädliche Informationen zu Sicherheitsfragen bereitzustellen
  2. Gemini 2.5 Pro wird bei bestimmten täuschenden Fragen erfolgreich "getäuscht"
  3. Qwen3 zeigt bei Rechtsfragen eine China-Rechts-Ausrichtung

Verwandte Arbeiten

Messung ethischer Rahmen

  • Anpassung psychologischer Werkzeuge: Anwendung psychologischer Werkzeuge wie Defining Issues Test (DIT) auf LLM
  • Analyse philosophischer Rahmen: Bewertung moralischer Argumentation Utilitarismus vs. Deontologie
  • Einschränkungen: Bestehende Methoden haben begrenzte Reichweite, fehlendes mehrsprachiges Verständnis

Mehrsprachige Fähigkeitsforschung

  • Reasoning-Fähigkeitstests: Sprachübergreifende Tests moralischer Dilemmata wie das Trolley-Problem
  • Faktische Genauigkeit: Konsistenz faktischer Antworten in verschiedenen Sprachen
  • Leistungsunterschiede: Ressourcenreiche Sprachen übertreffen ressourcenarme Sprachen

Sicherheitsbeschränkungsforschung

  • Jailbreak-Angriffe: Umgehung von Sicherheitsmechanismen durch nicht-englische Sprachen
  • Großflächige Benchmarks: Sicherheitsleistungstests über 100+ Sprachen
  • Schwachstellenerkennung: Lücken in Sicherheitsprotokollen in ressourcenarmen Sprachen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Signifikante Unterschiede zwischen Modellen: GPT-5 ist anderen Modellen bei moralischen und Sicherheitsantworten deutlich überlegen
  2. Sprachempfindlichkeit: Alle Modelle zeigen unterschiedliche Leistungsabfälle in nicht-englischen Sprachen
  3. Schwachstellen in Sicherheitsmechanismen: Erfolgsquoten täuschender Fragen unterscheiden sich signifikant zwischen Sprachen
  4. Vorhandensein regionaler Vorurteile: Bestimmte Modelle zeigen deutliche regionale Rechtsvorurteile

Einschränkungen

  1. Abhängigkeit von Übersetzung: Abhängigkeit von Google Translate kann Fehler einführen
  2. Fehlender menschlicher Benchmark: Keine Erfassung menschlicher Antworten als Vergleichsstandard
  3. Subjektivität der Skala: Bewertungsskala spiegelt möglicherweise nicht vollständig gesellschaftliche Werte wider
  4. Begrenzte Sprachabdeckung: Nur 6 Sprachen getestet, begrenzte Repräsentativität

Zukünftige Richtungen

  1. Erweiterung der Sprachabdeckung: Erweiterung auf alle von Google Translate unterstützten Sprachen
  2. Etablierung menschlicher Benchmarks: Erfassung menschlicher Antworten aus vielfältigen kulturellen Hintergründen
  3. Forschung zu Formulierungseffekten: Tiefere Untersuchung des Einflusses von Frageformulierung auf Antworten
  4. Verbesserung von Sicherheitsmechanismen: Verbesserung mehrsprachiger Sicherheitsprotokolle basierend auf entdeckten Lücken

Tiefgreifende Bewertung

Stärken

  1. Große Forschungsbedeutung: Erste systematische Bewertung sprachübergreifender moralischer LLM-Antworten, füllt wichtige Forschungslücke
  2. Strenge Methodologie: Umfassender Bewertungsrahmen mit mehreren Modellen, Sprachen und Dimensionen
  3. Praktisch wertvolle Erkenntnisse: Entdeckte Sicherheitslücken haben wichtige Auswirkungen auf praktische Bereitstellung
  4. Datensatzbeitrag: Der konstruierte mehrsprachige Moralitätsbewertungsdatensatz kann als Benchmark für nachfolgende Forschung dienen

Mängel

  1. Qualitätskontrolle der Übersetzung: Übermäßige Abhängigkeit von maschineller Übersetzung kann Zuverlässigkeit beeinträchtigen
  2. Unzureichende Berücksichtigung kultureller Hintergründe: Unzureichende Berücksichtigung unterschiedlicher moralischer Standards in verschiedenen Kulturen
  3. Einschränkung der Stichprobengröße: Nur 100 Fragen pro Kategorie, möglicherweise unzureichend für komplexe moralische Szenarien
  4. Einzelne Bewertungsstandards: Hauptsächlich auf einzelnen LLM-Bewerter angewiesen, kann systematische Vorurteile aufweisen

Auswirkungen

  1. Akademischer Beitrag: Etabliert neues Forschungsparadigma für mehrsprachige KI-Ethikforschung
  2. Praktischer Wert: Bietet wichtiges Risikobewertungstool für sichere KI-Bereitstellung
  3. Politische Auswirkungen: Forschungsergebnisse können wissenschaftliche Grundlage für KI-Governance und Regulierungspolitik bieten
  4. Technologischer Fortschritt: Fördert Entwicklung mehrsprachiger KI-Sicherheitstechnologien

Anwendungsszenarien

  1. KI-Sicherheitsbewertung: Sicherheitsbewertung von LLM durch Unternehmen und Forschungsinstitutionen
  2. Mehrsprachige KI-Bereitstellung: Anleitung zur Risikokontrolle bei sprachübergreifenden KI-Anwendungen
  3. Regulatorische Compliance: Unterstützung von Regulierungsbehörden bei der Festlegung von KI-Ethikstandards
  4. Akademische Forschung: Bereitstellung von Grundlagen für KI-Ethik- und mehrsprachige NLP-Forschung

Literaturverzeichnis

Dieses Papier zitiert mehrere wichtige verwandte Forschungsarbeiten:

  1. Achiam et al. (2023) - GPT-4 Technical Report
  2. Jin et al. (2024) - Mehrsprachige Trolley-Problem-Forschung
  3. Fu and Liu (2025) - Zuverlässigkeit mehrsprachiger LLM-Bewertung
  4. Lin et al. (2025) - LLM-Jailbreak-Angriffe durch Sicherheitspapiere
  5. Zheng et al. (2023) - LLM-as-a-Judge-Bewertungsmethode

Gesamtbewertung: Dies ist eine bahnbrechende Forschungsarbeit, die systematisch wichtige Probleme bei mehrsprachigen moralischen Antworten aktueller LLM offenlegt. Trotz einiger methodischer Einschränkungen haben ihre Forschungsergebnisse wichtige theoretische und praktische Bedeutung für KI-Sicherheit und mehrsprachige KI-Entwicklung. Diese Forschung legt eine wichtige Grundlage für zukünftige mehrsprachige KI-Ethikforschung.