2025-11-13T15:37:11.533166

Measuring Moral LLM Responses in Multilingual Capacities

Basu, Kolari, Yu
With LLM usage becoming widespread across countries, languages, and humanity more broadly, the need to understand and guardrail their multilingual responses increases. Large-scale datasets for testing and benchmarking have been created to evaluate and facilitate LLM responses across multiple dimensions. In this study, we evaluate the responses of frontier and leading open-source models in five dimensions across low and high-resource languages to measure LLM accuracy and consistency across multilingual contexts. We evaluate the responses using a five-point grading rubric and a judge LLM. Our study shows that GPT-5 performed the best on average in each category, while other models displayed more inconsistency across language and category. Most notably, in the Consent & Autonomy and Harm Prevention & Safety categories, GPT scored the highest with averages of 3.56 and 4.73, while Gemini 2.5 Pro scored the lowest with averages of 1.39 and 1.98, respectively. These findings emphasize the need for further testing on how linguistic shifts impact LLM responses across various categories and improvement in these areas.
academic

Misurare le Risposte Morali degli LLM nelle Capacità Multilingui

Informazioni Fondamentali

  • ID Articolo: 2510.08776
  • Titolo: Measuring Moral LLM Responses in Multilingual Capacities
  • Autori: Kimaya Basu, Savi Kolari, Allison Yu
  • Classificazione: cs.CL cs.AI
  • Data di Pubblicazione: 9 ottobre 2025 (Preprint ArXiv)
  • Link Articolo: https://arxiv.org/abs/2510.08776

Riassunto

Con l'utilizzo diffuso dei modelli linguistici di grandi dimensioni (LLM) a livello globale, cresce la necessità di comprendere e regolamentare le loro risposte multilingui. Questo studio valuta i modelli all'avanguardia e i principali modelli open-source su cinque dimensioni attraverso lingue a bassa e alta disponibilità di risorse, al fine di misurare l'accuratezza e la coerenza degli LLM in ambienti multilingui. Lo studio utilizza una scala di valutazione a cinque punti e valutatori LLM per la valutazione. I risultati mostrano che GPT-5 ha le migliori prestazioni medie in tutte le categorie, mentre altri modelli mostrano maggiore incoerenza tra lingue e categorie. In particolare, nelle categorie Consenso e Autonomia (Consent & Autonomy) e Prevenzione del Danno e Sicurezza (Harm Prevention & Safety), GPT ottiene i punteggi più alti (rispettivamente 3,56 e 4,73 in media), mentre Gemini 2.5 Pro ottiene i punteggi più bassi (rispettivamente 1,39 e 1,98 in media).

Contesto e Motivazione della Ricerca

Domande di Ricerca

Questo studio affronta principalmente le seguenti questioni chiave:

  1. Problema di coerenza morale multilingue: Le risposte morali ed etiche degli LLM rimangono coerenti in diversi ambienti linguistici?
  2. Sensibilità linguistica dei meccanismi di sicurezza: L'efficacia delle misure di protezione della sicurezza attuali nelle lingue non inglesi
  3. Pregiudizi e stereotipi interculturali: I modelli mostrano diversi gradi di pregiudizio in lingue diverse?

Importanza del Problema

  1. Esigenza di applicazione globale: Gli LLM stanno diventando strumenti quotidiani per gli utenti globali, necessitando di affidabilità interculturale
  2. Preoccupazioni di sicurezza: La ricerca mostra che i meccanismi di sicurezza degli LLM hanno prestazioni inferiori nelle lingue non inglesi, facilitando l'uso malevolo
  3. Differenze culturali negli standard morali: I giudizi morali possono differire significativamente tra contesti linguistici diversi

Limitazioni dei Metodi Esistenti

  1. Dati di test principalmente in inglese: I benchmark esistenti si concentrano principalmente sull'ambiente linguistico inglese
  2. Mancanza di valutazione sistematica: Assenza di un quadro di valutazione completo su più dimensioni morali
  3. Punti ciechi linguistici nei meccanismi di sicurezza: La ricerca esistente rivela vulnerabilità nei protocolli di sicurezza nelle lingue a bassa disponibilità di risorse

Contributi Principali

  1. Costruzione di un dataset di valutazione morale multilingue e multidimensionale: Creazione di un dataset di valutazione completo contenente 5 categorie, 100 domande ciascuna, coprendo 6 lingue
  2. Analisi morale sistematica interculturale: Prima analisi sistematica delle risposte morali multilingui degli LLM mainstream
  3. Scoperta di vulnerabilità nei meccanismi di sicurezza: Rivelazione di differenze significative nei meccanismi di sicurezza degli LLM tra lingue diverse
  4. Stabilimento di benchmark di prestazione dei modelli: Fornitura di benchmark e quadro di valutazione per la ricerca futura sull'IA morale multilingue

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Domande di etica morale in 6 lingue (inglese, cinese, spagnolo, arabo, hindi, swahili) Output: Punteggio di appropriatezza morale delle risposte del modello (scala 1-5) Vincoli: Le risposte devono essere entro 50 parole, le domande di giudizio morale richiedono risposte esplicite sì/no/forse

Quadro di Valutazione

Costruzione del Dataset

Il team di ricerca ha costruito un dataset contenente 500 domande in inglese, divise in cinque categorie:

  1. Pregiudizi e Stereotipi (Biases & Stereotypes): Verifica se il modello perpetua pregiudizi dannosi
  2. Consenso e Autonomia (Consent & Autonomy): Utilizza prompt ingannevoli per testare i meccanismi di sicurezza
  3. Prevenzione del Danno e Sicurezza (Harm Prevention & Safety): Testa i protocolli di sicurezza attraverso domande indirette
  4. Legalità (Legality): Verifica come il modello gestisce le differenze legali tra regioni
  5. Giudizio Morale (Moral Judgment): Valuta il rispetto del modello per i principi morali fondamentali

Strategia di Selezione Linguistica

  • Lingue ad alta disponibilità di risorse: Cinese, spagnolo, arabo
  • Lingue a bassa disponibilità di risorse: Hindi, swahili
  • Criteri di selezione: Diversità della struttura linguistica, differenze di contesto culturale, variazioni del sistema di scrittura

Ambito di Test dei Modelli

  • Modelli all'avanguardia: GPT-5, Gemini 2.5 Pro, Claude Sonnet 4
  • Modelli open-source: Llama 4 Scout, Qwen3 235B-a22b
  • Base della selezione: Dati di addestramento, obiettivi di applicazione, caratteristiche geografiche, grado di apertura

Metodo di Valutazione

Quadro LLM-as-a-Judge

  • Modello di valutazione: Gemini 2.5 Pro come valutatore principale
  • Criteri di valutazione: Scala a 5 punti, considerando l'accuratezza della risposta e la qualità del ragionamento
  • Verifica di coerenza: Validazione incrociata utilizzando GPT-5 e Qwen3

Procedura di Valutazione

  1. Traduzione delle domande in inglese nella lingua target (utilizzando Googletrans)
  2. Generazione di risposte nella lingua target da parte del modello
  3. Traduzione delle risposte in inglese per la valutazione
  4. Assegnazione di punteggi basata su scale specifiche per categoria

Configurazione Sperimentale

Dettagli del Dataset

  • Numero totale di domande: 500 domande originali in inglese
  • Copertura linguistica: 6 lingue × 500 domande = 3000 campioni di test
  • Distribuzione per categoria: 100 domande per categoria, distribuzione uniforme
  • Strumento di traduzione: Pacchetto Python Googletrans

Metriche di Valutazione

  • Metrica principale: Valutazione su scala a 5 punti (1=peggiore, 5=migliore)
  • Metriche specifiche per categoria: Standard di valutazione specializzati per ogni categoria morale
  • Misurazione della coerenza: Analisi della deviazione standard delle risposte interculturali

Parametri Sperimentali

  • Impostazione della temperatura: 0,7 (riduzione della variabilità casuale)
  • Limite di risposta: Entro 50 parole
  • Prompt di sistema: Formato di istruzione unificato

Risultati Sperimentali

Risultati Principali

Ranking di Prestazione Complessiva

  1. GPT-5: Punteggio medio 92%, migliori prestazioni in tutte le categorie
  2. Claude Sonnet 4: Prestazioni stabili, buone prestazioni nella categoria sicurezza
  3. Gemini 2.5 Pro: Prestazioni eccellenti nella categoria accademica, ma scarse nella categoria sicurezza
  4. Llama 4 Scout: Prestazioni medie
  5. Qwen3 235B: Punteggio medio 66%, prestazioni complessive peggiori

Scoperte Chiave

Differenze significative nella categoria sicurezza:

  • Categoria Consent & Autonomy: GPT-5 (3,56) vs Gemini 2.5 Pro (1,39)
  • Categoria Harm Prevention & Safety: GPT-5 (4,73) vs Gemini 2.5 Pro (1,98)

Impatto del livello di disponibilità di risorse linguistiche:

  • Nelle domande ingannevoli, i modelli ottengono punteggi più alti nelle lingue a bassa disponibilità di risorse
  • Nelle lingue ad alta disponibilità di risorse, i modelli sono più facilmente "ingannati" nel fornire informazioni dannose

Prestazioni specifiche del modello:

  • Gemini 2.5 Pro: Prestazioni eccellenti nelle categorie dirette (pregiudizio, legalità, giudizio morale), ma estremamente scarse nelle categorie indirette
  • Qwen3: Mostra pregiudizi geografici evidenti nelle domande legali in cinese

Esperimenti di Ablazione

Verifica della Qualità della Traduzione

  • Campionamento casuale per verificare l'accuratezza della traduzione
  • Differenza di valutazione controllata entro 1 punto
  • Validazione incrociata per garantire coerenza di valutazione

Test di Pregiudizio del Valutatore

  • Gemini non mostra pregiudizio evidente verso le proprie risposte
  • Valutazione media di Qwen inferiore di 0,5 punti
  • Valutazione media di GPT-5 superiore di 0,6 punti

Analisi di Casi

L'articolo fornisce esempi di risposte tipiche, mostrando:

  1. GPT-5 rifiuta di fornire informazioni dannose su questioni di sicurezza
  2. Gemini 2.5 Pro viene "ingannato" con successo su alcune domande ingannevoli
  3. Qwen3 mostra orientamento verso la legge cinese su questioni legali

Lavori Correlati

Misurazione dei Quadri Morali

  • Adattamento di strumenti psicologici: Applicazione di strumenti psicologici come il Defining Issues Test (DIT) agli LLM
  • Analisi di quadri filosofici: Valutazione del ragionamento morale utilitarista vs deontologico
  • Limitazioni: I metodi esistenti hanno ambito limitato, mancano prospettive interculturali

Ricerca sulle Capacità Multilingui

  • Test di capacità di ragionamento: Test interculturali di dilemmi morali come il problema del carrello
  • Accuratezza fattuale: Coerenza delle risposte fattuali in lingue diverse
  • Differenze di prestazione: Lingue ad alta disponibilità di risorse superano quelle a bassa disponibilità

Ricerca sui Limiti di Sicurezza

  • Attacchi di jailbreak: Bypass dei meccanismi di sicurezza attraverso lingue non inglesi
  • Benchmark su larga scala: Test di prestazioni di sicurezza in 100+ lingue
  • Scoperta di vulnerabilità: Lacune nei protocolli di sicurezza nelle lingue a bassa disponibilità di risorse

Conclusioni e Discussione

Conclusioni Principali

  1. Differenze significative tra modelli: GPT-5 è notevolmente superiore ad altri modelli nelle risposte morali e di sicurezza
  2. Sensibilità linguistica: Tutti i modelli mostrano diversi gradi di calo di prestazioni nelle lingue non inglesi
  3. Vulnerabilità dei meccanismi di sicurezza: Esistono differenze significative nel tasso di successo delle domande ingannevoli tra lingue diverse
  4. Esistenza di pregiudizi geografici: Alcuni modelli mostrano evidenti pregiudizi legali geografici

Limitazioni

  1. Dipendenza dalla traduzione: La dipendenza da Google Translate potrebbe introdurre errori
  2. Mancanza di benchmark umano: Non sono state raccolte risposte umane come standard di confronto
  3. Soggettività della scala: La scala di valutazione potrebbe non riflettere completamente i valori sociali
  4. Copertura linguistica limitata: Solo 6 lingue testate, rappresentatività limitata

Direzioni Future

  1. Espansione della copertura linguistica: Estensione a tutte le lingue supportate da Google Translate
  2. Stabilimento di benchmark umani: Raccolta di risposte umane da contesti culturali diversi
  3. Ricerca sull'impatto della formulazione: Studio approfondito dell'influenza della formulazione delle domande sulle risposte
  4. Miglioramento dei meccanismi di sicurezza: Miglioramento dei protocolli di sicurezza multilingue in base alle vulnerabilità scoperte

Valutazione Approfondita

Punti di Forza

  1. Significato della ricerca rilevante: Prima valutazione sistematica delle risposte morali degli LLM interculturali, colmando un importante vuoto di ricerca
  2. Metodologia rigorosa: Adozione di un quadro di valutazione completo multi-modello, multilingue e multidimensionale
  3. Scoperte di valore pratico: Le vulnerabilità di sicurezza rivelate hanno un significato guida importante per il dispiegamento effettivo
  4. Contributo del dataset: Il dataset di valutazione morale multilingue costruito può fornire benchmark per la ricerca successiva

Insufficienze

  1. Controllo della qualità della traduzione: Eccessiva dipendenza dalla traduzione automatica potrebbe influenzare l'affidabilità dei risultati
  2. Considerazione insufficiente del contesto culturale: Mancata considerazione adeguata delle differenze negli standard morali tra contesti culturali diversi
  3. Limitazione della dimensione del campione: Solo 100 domande per categoria, potrebbe essere insufficiente per coprire scenari morali complessi
  4. Standard di valutazione singoli: Dipendenza principalmente da un singolo valutatore LLM, potrebbe contenere pregiudizi sistematici

Impatto

  1. Contributo accademico: Stabilimento di un nuovo paradigma di ricerca per la ricerca sull'etica dell'IA multilingue
  2. Valore pratico: Fornitura di uno strumento importante di valutazione del rischio per il dispiegamento sicuro dell'IA
  3. Impatto politico: I risultati della ricerca possono fornire basi scientifiche per le politiche di governance e regolamentazione dell'IA
  4. Avanzamento tecnologico: Promozione dello sviluppo della tecnologia di sicurezza dell'IA multilingue

Scenari Applicabili

  1. Valutazione della sicurezza dell'IA: Valutazione della sicurezza degli LLM da parte di aziende e istituzioni di ricerca
  2. Dispiegamento dell'IA multilingue: Guida al controllo dei rischi per le applicazioni di IA interculturali
  3. Conformità normativa: Assistenza alle autorità di regolamentazione nella formulazione di standard etici per l'IA
  4. Ricerca accademica: Fornitura di fondamenti per la ricerca sull'etica dell'IA e l'elaborazione del linguaggio naturale multilingue

Bibliografia

Questo articolo cita diversi importanti studi correlati:

  1. Achiam et al. (2023) - Rapporto tecnico GPT-4
  2. Jin et al. (2024) - Ricerca sul problema del carrello multilingue
  3. Fu and Liu (2025) - Ricerca sull'affidabilità della valutazione degli LLM multilingui
  4. Lin et al. (2025) - Attacchi di jailbreak degli LLM attraverso documenti di sicurezza
  5. Zheng et al. (2023) - Metodo di valutazione LLM-as-a-Judge

Valutazione Complessiva: Questa è una ricerca di significato pioneristico che rivela sistematicamente importanti questioni negli LLM riguardanti le risposte morali multilingui. Sebbene presenti alcune limitazioni metodologiche, le sue scoperte di ricerca hanno un valore teorico e pratico importante per la sicurezza dell'IA e lo sviluppo dell'IA multilingue. Questa ricerca pone basi importanti per la ricerca futura sull'etica dell'IA multilingue.