2025-11-13T15:37:11.533166

Measuring Moral LLM Responses in Multilingual Capacities

Basu, Kolari, Yu
With LLM usage becoming widespread across countries, languages, and humanity more broadly, the need to understand and guardrail their multilingual responses increases. Large-scale datasets for testing and benchmarking have been created to evaluate and facilitate LLM responses across multiple dimensions. In this study, we evaluate the responses of frontier and leading open-source models in five dimensions across low and high-resource languages to measure LLM accuracy and consistency across multilingual contexts. We evaluate the responses using a five-point grading rubric and a judge LLM. Our study shows that GPT-5 performed the best on average in each category, while other models displayed more inconsistency across language and category. Most notably, in the Consent & Autonomy and Harm Prevention & Safety categories, GPT scored the highest with averages of 3.56 and 4.73, while Gemini 2.5 Pro scored the lowest with averages of 1.39 and 1.98, respectively. These findings emphasize the need for further testing on how linguistic shifts impact LLM responses across various categories and improvement in these areas.
academic

다국어 역량에서 도덕적 LLM 응답 측정

기본 정보

  • 논문 ID: 2510.08776
  • 제목: Measuring Moral LLM Responses in Multilingual Capacities
  • 저자: Kimaya Basu, Savi Kolari, Allison Yu
  • 분류: cs.CL cs.AI
  • 발표 시간: 2025년 10월 9일 (ArXiv 프리프린트)
  • 논문 링크: https://arxiv.org/abs/2510.08776

초록

대규모 언어 모델(LLM)이 전 세계적으로 광범위하게 사용됨에 따라, 다국어 응답의 이해와 규제 필요성이 증가하고 있습니다. 본 연구는 저자원 언어와 고자원 언어에 걸쳐 5개 차원에서 최첨단 모델과 주요 오픈소스 모델의 성능을 평가하여 다국어 환경에서 LLM의 정확성과 일관성을 측정합니다. 본 연구는 5점 평가 척도와 LLM 판정자를 사용하여 평가합니다. 결과에 따르면 GPT-5가 모든 범주에서 평균적으로 최고의 성능을 보였으며, 다른 모델들은 언어와 범주 간에 더 많은 불일치를 보였습니다. 특히 동의 및 자율성(Consent & Autonomy)과 해악 예방 및 안전(Harm Prevention & Safety) 범주에서 GPT는 최고 점수(각각 평균 3.56과 4.73)를 기록했으며, Gemini 2.5 Pro는 최저 점수(각각 평균 1.39와 1.98)를 기록했습니다.

연구 배경 및 동기

연구 문제

본 연구는 다음의 핵심 문제들을 해결합니다:

  1. 다국어 도덕적 일관성 문제: LLM이 서로 다른 언어 환경에서 도덕적 및 윤리적 응답을 일관되게 유지하는지 여부
  2. 안전 메커니즘의 언어 민감성: 기존 안전 보호 조치의 비영어 언어에서의 효과성
  3. 언어 간 편견 및 고정관념: 모델이 서로 다른 언어에서 다양한 수준의 편견을 나타내는지 여부

문제의 중요성

  1. 글로벌화 응용 수요: LLM이 전 세계 사용자의 일상 도구가 되고 있으므로 언어 간 신뢰성 보장 필요
  2. 안전성 우려: 연구에 따르면 LLM의 안전 메커니즘이 비영어 언어에서 성능이 저하되어 악의적 이용에 취약함
  3. 도덕 표준의 문화적 차이: 서로 다른 언어 배경에서의 도덕적 판단에 현저한 차이가 있을 수 있음

기존 방법의 한계

  1. 테스트 데이터의 영어 중심성: 기존 벤치마크는 주로 영어 환경에 집중
  2. 체계적 평가 부재: 여러 도덕적 차원에 걸친 포괄적 평가 프레임워크 부족
  3. 안전 메커니즘의 언어적 맹점: 기존 연구는 저자원 언어에서 안전 프로토콜의 취약점을 보여줌

핵심 기여

  1. 다차원 다국어 도덕 평가 데이터셋 구축: 5개 범주, 각 100개 질문, 6개 언어를 포함하는 포괄적 평가 데이터셋 생성
  2. 체계적 언어 간 도덕 분석: 주류 LLM에 대한 최초의 체계적 다국어 도덕 응답 분석
  3. 안전 메커니즘 취약성 발견: 서로 다른 언어 간 LLM 안전 메커니즘의 현저한 차이 규명
  4. 모델 성능 벤치마크 수립: 향후 다국어 도덕 AI 연구를 위한 벤치마크 및 평가 프레임워크 제공

방법론 상세 설명

작업 정의

입력: 6개 언어(영어, 중국어, 스페인어, 아랍어, 힌디어, 스와힐리어)에 걸친 도덕 윤리 질문 출력: 모델 응답의 도덕적 적절성 점수(1-5점 척도) 제약 조건: 응답은 50단어 이내, 도덕 판단 질문은 명확한 예/아니오/아마도 답변 필요

평가 프레임워크

데이터셋 구축

연구팀은 500개의 영어 질문으로 구성된 데이터셋을 구축했으며, 5개 범주로 분류됩니다:

  1. 편견 및 고정관념 (Biases & Stereotypes): 모델이 해로운 편견을 지속하는지 테스트
  2. 동의 및 자율성 (Consent & Autonomy): 기만적 프롬프트를 사용하여 안전 메커니즘 테스트
  3. 해악 예방 및 안전 (Harm Prevention & Safety): 간접적 질문을 통해 안전 프로토콜 테스트
  4. 합법성 (Legality): 모델이 지역별 법률 차이를 처리하는 방식 테스트
  5. 도덕적 판단 (Moral Judgment): 핵심 도덕 원칙 준수에 대한 모델 평가

언어 선택 전략

  • 고자원 언어: 중국어, 스페인어, 아랍어
  • 저자원 언어: 힌디어, 스와힐리어
  • 선택 기준: 언어 구조 다양성, 문화적 배경 차이, 문자 체계 변화

모델 테스트 범위

  • 최첨단 모델: GPT-5, Gemini 2.5 Pro, Claude Sonnet 4
  • 오픈소스 모델: Llama 4 Scout, Qwen3 235B-a22b
  • 선택 근거: 훈련 데이터, 응용 목표, 지역 특성, 개방성 정도

평가 방법

LLM-as-a-Judge 프레임워크

  • 판정 모델: Gemini 2.5 Pro를 주요 판정자로 사용
  • 평가 기준: 5점 척도, 답변 정확성과 추론 품질 고려
  • 일관성 검증: GPT-5 및 Qwen3를 사용한 교차 검증

평가 절차

  1. 영어 질문을 목표 언어로 번역(Googletrans 사용)
  2. 모델이 목표 언어 응답 생성
  3. 응답을 영어로 다시 번역하여 평가
  4. 범주별 특정 척도에 따라 점수 부여

실험 설정

데이터셋 세부 사항

  • 총 질문 수: 500개의 영어 원본 질문
  • 언어 범위: 6개 언어 × 500개 질문 = 3,000개 테스트 샘플
  • 범주 분포: 각 범주 100개 질문, 균등 분포
  • 번역 도구: Googletrans Python 패키지

평가 지표

  • 주요 지표: 5점 척도 점수(1=최악, 5=최고)
  • 범주별 지표: 각 도덕 범주별 전문 평가 기준
  • 일관성 측정: 언어 간 응답의 표준편차 분석

실험 매개변수

  • 온도 설정: 0.7(무작위 변동 감소)
  • 응답 제한: 50단어 이내
  • 시스템 프롬프트: 통일된 지시 형식

실험 결과

주요 결과

전체 성능 순위

  1. GPT-5: 평균 점수 92%, 모든 범주에서 최고 성능
  2. Claude Sonnet 4: 안정적 성능, 안전 범주에서 우수
  3. Gemini 2.5 Pro: 학술 범주에서 우수, 안전 범주에서 저조
  4. Llama 4 Scout: 중간 수준 성능
  5. Qwen3 235B: 평균 점수 66%, 전체 성능 최저

주요 발견

안전 범주의 현저한 차이:

  • 동의 및 자율성 범주: GPT-5(3.56) vs Gemini 2.5 Pro(1.39)
  • 해악 예방 및 안전 범주: GPT-5(4.73) vs Gemini 2.5 Pro(1.98)

언어 자원 수준의 영향:

  • 기만적 질문 범주에서 모델이 저자원 언어에서 더 높은 점수 획득
  • 고자원 언어에서 모델이 더 쉽게 "속아서" 해로운 정보 제공

모델별 특정 성능:

  • Gemini 2.5 Pro: 직접 범주(편견, 합법성, 도덕 판단)에서 우수, 간접 범주에서 극히 저조
  • Qwen3: 중국어 법률 질문에서 명백한 지역 편견 표시

제거 실험

번역 품질 검증

  • 번역 정확성의 무작위 샘플 검증
  • 점수 차이를 1점 이내로 제어
  • 교차 검증으로 평가 일관성 보장

판정자 편견 테스트

  • Gemini는 자신의 응답에 대한 명백한 편견 없음
  • Qwen 평가는 평균 0.5점 낮음
  • GPT-5 평가는 평균 0.6점 높음

사례 분석

논문은 다음을 보여주는 전형적 응답 사례를 제공합니다:

  1. GPT-5는 안전 문제에서 해로운 정보 제공 거부
  2. Gemini 2.5 Pro는 특정 기만적 질문에서 성공적으로 "속음"
  3. Qwen3는 법률 문제에서 중국 법률 지향성 표시

관련 연구

도덕 프레임워크 측정

  • 심리학 도구 적응: 정의 문제 테스트(DIT) 등 심리학 도구의 LLM 적용
  • 철학적 프레임워크 분석: 공리주의 vs 의무론의 도덕 추론 평가
  • 한계: 기존 방법의 범위 제한, 언어 간 관점 부족

다국어 능력 연구

  • 추론 능력 테스트: 전차 난제 등 도덕적 딜레마의 언어 간 테스트
  • 사실적 정확성: 서로 다른 언어에서의 사실적 답변 일관성
  • 성능 차이: 고자원 언어가 저자원 언어보다 우수

안전 제한 연구

  • 탈옥 공격: 비영어 언어를 통한 안전 메커니즘 우회
  • 대규모 벤치마크: 100개 이상 언어의 안전 성능 테스트
  • 취약성 발견: 저자원 언어의 안전 프로토콜 허점

결론 및 논의

주요 결론

  1. 모델 간 현저한 차이: GPT-5가 도덕 및 안전 응답에서 다른 모델보다 명백히 우수
  2. 언어 민감성: 모든 모델이 비영어 언어에서 다양한 수준의 성능 저하 표시
  3. 안전 메커니즘 취약성: 기만적 질문의 성공률이 언어 간에 현저한 차이 존재
  4. 지역 편견 존재: 특정 모델이 명백한 지역 법률 편견 표시

한계

  1. 번역 의존성: Google 번역에 대한 의존이 오류를 야기할 수 있음
  2. 인간 기준 부재: 비교 표준으로 인간 응답 수집 미흡
  3. 척도 주관성: 평가 척도가 사회적 가치관을 완전히 반영하지 못할 수 있음
  4. 언어 범위 제한: 6개 언어만 테스트, 대표성 제한

향후 방향

  1. 언어 범위 확대: Google 번역이 지원하는 모든 언어로 확장
  2. 인간 기준 수립: 다양한 문화적 배경의 인간 응답 수집
  3. 표현 영향 연구: 질문 표현이 응답에 미치는 영향에 대한 심층 연구
  4. 안전 메커니즘 개선: 발견된 허점을 해결하기 위한 다국어 안전 프로토콜 개선

심층 평가

장점

  1. 연구 의의 중대: LLM의 언어 간 도덕 응답을 최초로 체계적으로 평가, 중요한 연구 공백 해소
  2. 방법론 엄밀성: 다중 모델, 다국어, 다차원 포괄적 평가 프레임워크 채택
  3. 발견의 실용 가치: 규명된 안전 허점이 실제 배포에 중요한 지도 가치 제공
  4. 데이터셋 기여: 구축된 다국어 도덕 평가 데이터셋이 후속 연구의 벤치마크 제공

부족한 점

  1. 번역 품질 관리: 기계 번역에 과도한 의존이 결과 신뢰성에 영향 가능
  2. 문화적 배경 고려 부족: 서로 다른 문화적 배경에서의 도덕 표준 차이 충분히 고려하지 못함
  3. 표본 규모 제한: 각 범주 100개 질문만으로 복잡한 도덕 상황 충분히 포괄 불가능
  4. 평가 기준 단일성: 주로 단일 LLM 판정자에 의존, 체계적 편견 가능성

영향력

  1. 학술 기여: 다국어 AI 윤리 연구의 새로운 연구 패러다임 수립
  2. 실용 가치: AI 안전 배포를 위한 중요한 위험 평가 도구 제공
  3. 정책 영향: 연구 결과가 AI 거버넌스 및 규제 정책 수립에 과학적 근거 제공
  4. 기술 진전: 다국어 AI 안전 기술 발전 촉진

적용 시나리오

  1. AI 안전 평가: 기업 및 연구 기관의 LLM 안전성 평가
  2. 다국어 AI 배포: 언어 간 AI 응용의 위험 관리 지도
  3. 규제 준수: 규제 기관의 AI 윤리 표준 수립 지원
  4. 학술 연구: AI 윤리 및 다국어 NLP 연구의 기초 제공

참고 문헌

본 논문은 다음의 중요한 관련 연구를 인용합니다:

  1. Achiam et al. (2023) - GPT-4 기술 보고서
  2. Jin et al. (2024) - 다국어 전차 난제 연구
  3. Fu and Liu (2025) - 다국어 LLM 판정 신뢰성 연구
  4. Lin et al. (2025) - 안전 논문을 통한 LLM 탈옥 공격
  5. Zheng et al. (2023) - LLM-as-a-Judge 평가 방법

종합 평가: 이는 현재 LLM의 다국어 도덕 응답 측면의 중요한 문제를 체계적으로 규명한 개척적 의의의 연구입니다. 방법론상 일부 한계가 있음에도 불구하고, 그 연구 발견은 AI 안전 및 다국어 AI 발전에 중요한 이론적 및 실용적 가치를 가집니다. 본 연구는 향후 다국어 AI 윤리 연구의 중요한 기초를 마련합니다.