2025-11-13T16:19:11.096230

The Curious Case of Curiosity across Human Cultures and LLMs

Borah, Mihalcea
Recent advances in Large Language Models (LLMs) have expanded their role in human interaction, yet curiosity -- a central driver of inquiry -- remains underexplored in these systems, particularly across cultural contexts. In this work, we investigate cultural variation in curiosity using Yahoo! Answers, a real-world multi-country dataset spanning diverse topics. We introduce CUEST (CUriosity Evaluation across SocieTies), an evaluation framework that measures human-model alignment in curiosity through linguistic (style), topic preference (content) analysis and grounding insights in social science constructs. Across open- and closed-source models, we find that LLMs flatten cross-cultural diversity, aligning more closely with how curiosity is expressed in Western countries. We then explore fine-tuning strategies to induce curiosity in LLMs, narrowing the human-model alignment gap by up to 50\%. Finally, we demonstrate the practical value of curiosity for LLM adaptability across cultures, showing its importance for future NLP research.
academic

인간 문화와 LLM에서의 호기심의 흥미로운 사례

기본 정보

  • 논문 ID: 2510.12943
  • 제목: The Curious Case of Curiosity across Human Cultures and LLMs
  • 저자: Angana Borah, Rada Mihalcea (미시간 대학교 앤아버 캠퍼스)
  • 분류: cs.CL (계산 언어학)
  • 발표 시간: 2025년 10월 14일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.12943v1

초록

본 논문은 대규모 언어 모델(LLM)에서 호기심의 문화 간 표현을 연구합니다. 저자들은 Yahoo! Answers 다국가 데이터셋을 사용하여 CUEST(CUriosity Evaluation across SocieTies) 평가 프레임워크를 제안하며, 언어 스타일, 주제 선호도 및 사회과학 이론을 통해 인간과 모델의 호기심 표현 일치도를 측정합니다. 연구 결과 LLM은 문화 간 차이를 평탄화하며 서방 국가의 호기심 표현 방식을 선호하는 경향을 보입니다. 미세 조정 전략을 통해 저자들은 인간-모델 정렬 격차를 50% 축소했으며, 호기심이 LLM의 문화 간 적응성에 미치는 실용적 가치를 입증했습니다.

연구 배경 및 동기

1. 핵심 문제

호기심은 인간의 학습과 탐구의 핵심 동력이며, 서로 다른 문화에서 다양한 형태로 나타납니다. LLM이 인간-컴퓨터 상호작용에서의 역할이 확대됨에 따라, 호기심 표현 능력은 사용자 경험에 영향을 미치는 중요한 요소가 됩니다. 그러나 기존 연구는 주로 LLM의 답변 능력에 초점을 맞추고 있으며, 특히 문화 간 맥락에서 질문 제기 및 호기심 표현 능력을 간과하고 있습니다.

2. 문제의 중요성

  • 호기심은 문화 학습, 교육 및 인간-컴퓨터 상호작용의 핵심 요소
  • 서로 다른 문화 배경에서 호기심의 표현 방식에 현저한 차이 존재
  • LLM은 더 나은 사용자 경험을 제공하기 위해 문화에 민감한 호기심 표현 능력 필요

3. 기존 방법의 한계

  • 문화 간 연구는 주로 LLM의 지식 답변 능력을 테스트하며 질문 능력 간과
  • 체계적인 인간-LLM 호기심 비교 프레임워크 부재
  • 기존 호기심 연구는 문화적 세부사항 고려 부족

4. 연구 동기

저자들은 세 가지 핵심 연구 질문을 제시합니다:

  1. 온라인 플랫폼의 호기심 기반 질문에 문화 간 차이가 존재하며, LLM이 이러한 패턴을 재현할 수 있는가?
  2. LLM에서 호기심을 어떻게 유도할 수 있는가?
  3. 문화에 민감한 호기심이 LLM의 하위 작업에 어떤 실질적 의미를 갖는가?

핵심 기여

  1. CUEST 평가 프레임워크 제안: 언어 분석, 내용 분석 및 문화 이론 기반을 결합한 종합 평가 체계
  2. 문화 간 호기심 데이터셋 구축: Yahoo! Answers 기반 18개국 16개 주제의 실제 질문 데이터셋
  3. 호기심 유도 전략 탐색: 다양한 미세 조정 방법을 통해 LLM의 문화에 민감한 호기심 표현 능력 향상
  4. 실용적 가치 검증: 세 가지 문화 간 벤치마크에서 호기심이 LLM 문화 적응성 향상에 미치는 영향 입증

방법론 상세 설명

작업 정의

본 연구는 두 가지 핵심 작업을 정의합니다:

  1. 문화에 민감한 호기심 평가: 서로 다른 문화 배경에서 인간과 LLM의 질문 표현 방식 비교
  2. 호기심 유도: 훈련을 통해 LLM이 더 나은 문화에 민감한 질문 능력 습득

CUEST 평가 프레임워크

1. 언어 정렬 분석 (Linguistic Alignment)

네 가지 차원 평가:

모호성 (Ambiguity):

L(q) = 1/n (∑w∈W 1[w ∈ A] + ∑w∈W 1[|POS(w)| > 1])

여기서 A는 다의어 목록이고, POS(w)는 단어 w의 품사 태그 집합입니다.

수사적 장치 (Rhetorical Devices):

RD = (R + Q + A + P + M)/n

반복 단어(R), 반문(Q), 두운(A), 대구(P), 유추 표시(M) 포함.

개방성 (Open-Endedness):

Ω(u) = 1[starts_with_wh(q) = 1 ∧ NLI(q) ≠ entailment]

응집성 점수 (Cohesion Score):

COH(q) = 1/3 (Lx + min(1,Tx) + Sx)

어휘 중복, 전환 단어 및 의미 유사성 결합.

2. 주제 선호도 정렬 (Topic Preference Alignment)

Spearman 및 Kendall 상관계수를 사용하여 인간과 LLM의 주제 순위 선호도 비교.

3. 사회과학 이론 기반 (Social Science Grounding)

네 가지 이론 프레임워크 기반:

  • Hofstede 문화 차원: 불확실성 회피, 개인주의-집단주의 등
  • Schwartz 가치 이론: 개방성 대 보수성
  • Hall 맥락 이론: 고맥락 대 저맥락 문화
  • 교육 시스템: 암기식 대 전체적 학습

호기심 유도 방법

미세 조정 전략

  1. 완전 미세 조정 (Full Fine-tuning)
  2. 어댑터 기반 미세 조정 (Adapter-based Fine-tuning)

훈련 목표

  • Obj1: 특정 국가의 질문 직접 생성
  • Obj2: 대화 맥락 기반 질문 생성

데이터 증강

어휘 대체, 단어 순서 조정 등의 기법을 사용하여 각 국가당 1,000개 샘플로 훈련 데이터 확대.

실험 설정

데이터셋

  1. Yahoo! Answers: 18개국, 16개 주제, 아시아, 유럽, 미주 및 오세아니아 포함
  2. Reddit: r/brazil, r/askuk, r/philippines의 질문 데이터
  3. LLM 생성 데이터: 문화 페르소나 프롬프트를 사용하여 생성한 질문 및 주제 선호도

평가 지표

  • 언어 정렬: L2 거리로 인간과 모델 점수 차이 측정
  • 주제 선호도: Spearman 및 Kendall 상관계수
  • 사회과학 정렬: LIWC 차원 기반 평균 절대 오차
  • 내재적 호기심: 호기심 비율 및 관련성 점수

비교 방법

6가지 모델 테스트: GPT-4o, GPT-5, Claude-Sonnet-4, Qwen-3-14b, LLaMA-3-8b, LLaMA-3-70b

구현 세부사항

  • NVIDIA A40 GPU 사용
  • LoRA 어댑터를 통한 효율적 미세 조정
  • 최대 시퀀스 길이 1024 토큰
  • 각 실험 3회 실행 후 평균값 계산

실험 결과

주요 발견

1. 문화 간 차이 패턴

  • 인간 표준편차 > LLM 표준편차 (0.0785 vs 0.029, F-stat: 7.33)
  • LLM은 문화 간 차이를 평탄화하는 경향
  • 서방 국가가 가장 높은 인간-모델 정렬도 표시

2. 모델 성능 순위

언어 정렬: LLaMA-3-8b (0.25) > LLaMA-3-70b (0.27) > Claude-Sonnet-4 (0.28) = GPT-4o (0.28) > Qwen-3-14b (0.29) > GPT-5 (0.42)

주제 선호도 정렬: LLaMA-3-8b만 양의 상관관계 표시 (0.17), 다른 모델은 모두 음의 상관관계

3. 사회과학 이론 정렬

  • 모든 모델이 서방 국가에서 더 나은 성능 표시
  • LLaMA-3-8b이 대부분의 이론 차원에서 인간에 가장 근접
  • Hall의 고-저 맥락 이론이 최대 불일치 표시

호기심 유도 결과

문화에 민감한 호기심 향상

  • 어댑터 방법 > 완전 미세 조정 > 프롬프트 기반 방법
  • Reddit 훈련 데이터 효과 최고
  • Obj2 훈련 목표가 Obj1 우수

내재적 호기심 평가

  • 어댑터 모델: 75% 경우에 질문 제기
  • 완전 미세 조정 모델: 20% 경우에 질문 제기
  • 프롬프트만 사용 모델: 0% 질문 비율
  • 관련성 98-100% 유지

하위 작업 검증

조건NormADCulturalBenchCultural CS
비호기심70.48%64.71%48.48%
호기심(프롬프트)72.09%67.64%49.64%
호기심(미세조정+프롬프트)71.06%68.21%56.16%

호기심 유도는 모든 문화 적응성 벤치마크에서 성능 향상을 보입니다.

관련 연구

심리학 연구

  • 정보 격차 이론 (Loewenstein, 1994)
  • 호기심 구동 이론 (Berlyne, 1960)
  • 최적 각성 이론 (Hebb, 1955)

NLP 분야

  • NatQuest 코퍼스 (Ceraolo et al., 2024): 자연 질문의 개방성 및 인과 지향성
  • 문화 표현 연구: 주로 편견 및 문화 인식 평가에 초점을 맞추나 질문 능력 분석 부족

문화 간 LLM 연구

기존 연구는 주로 지식 답변 능력을 테스트하며 조사 벤치마크(예: WVS, Pew Research)를 사용하며, 본 논문은 문화 간 인간-LLM 질문을 체계적으로 비교한 첫 번째 연구입니다.

결론 및 논의

주요 결론

  1. LLM이 문화 차이 평탄화: 모델 출력이 서방 규범에 더 부합하며 문화 다양성 부족
  2. 인간이 전통적 고정관념 벗어남: 실제 호기심 표현이 전통 이론 예상보다 더 복잡
  3. 어댑터 미세 조정 효과적: 문화 민감성 및 내재적 호기심 평가에서 최고 성능
  4. 호기심이 문화 적응성 향상: 다양한 벤치마크에서 실용적 가치 검증

한계

  1. 데이터셋 범위 제한: 18개국 16개 주제로 전 지구적 문화 경관을 완전히 대표할 수 없음
  2. 언어 제한: 주로 영어 사용으로 WEIRD(서방, 교육받은, 산업화된, 부유한, 민주적) 편견 유입 가능
  3. 이론 프레임워크 한계: Hofstede 등의 이론이 현대 또는 아문화 변이를 포착하지 못할 수 있음
  4. 평가 주관성: 호기심 및 관련성 평가는 주관적 판단 포함

향후 방향

  1. 다국어 문화 간 호기심 연구
  2. 다중 에이전트 시스템의 문화적 호기심
  3. 상호작용 대화에서의 호기심 동역학 진화
  4. 더 다양한 문화 이론 프레임워크 통합

심층 평가

장점

  1. 높은 혁신성: LLM의 문화 간 호기심을 체계적으로 연구한 첫 번째 작업
  2. 포괄적 방법론: CUEST 프레임워크가 언어, 내용 및 이론 세 가지 차원 결합
  3. 충분한 실험: 다양한 모델, 여러 미세 조정 전략 및 하위 작업 검증 포함
  4. 견고한 이론 기초: 성숙한 사회과학 이론 프레임워크 기반
  5. 높은 실용적 가치: 호기심이 문화 적응성에 미치는 실제 향상 입증

부족한 점

  1. 문화 대표성 부족: 18개국으로 전 지구적 문화 다양성 포괄 어려움
  2. 번역 품질 영향: Google Translate가 문화적 세부사항 손실 가능
  3. 평가 기준 주관성: 일부 지표가 인간 판단에 의존하며 일관성 문제 존재
  4. 모델 해석성 부족: LLaMA-3-8b 최고 성능의 심층 원인 분석 부족

영향력

  1. 학술 기여: 문화 간 NLP 연구에 새로운 평가 패러다임 제공
  2. 실무 가치: 문화에 민감한 대화 시스템 구축에 지침 제공
  3. 재현성: 저자들이 코드 및 데이터 공개 약속
  4. 영감: 향후 다중 에이전트 문화 시뮬레이션 연구의 기초 마련

적용 시나리오

  1. 문화 간 대화 시스템: 다문화 사용자 경험 향상
  2. 교육 기술: 문화에 민감한 학습 보조 도구 개발
  3. 국제화 제품: 전 지구적 AI 제품의 지역화 적응성 개선
  4. 사회과학 연구: 문화 심리학 연구를 위한 계산 도구 제공

참고문헌

  1. Berlyne, D. E. (1960). Conflict, arousal, and curiosity.
  2. Hofstede, G. (2001). Culture's consequences: Comparing values, behaviors, institutions and organizations across nations.
  3. Loewenstein, G. (1994). The psychology of curiosity: A review and reinterpretation.
  4. Ceraolo, R. et al. (2024). Analyzing human questioning behavior and causal curiosity through natural queries.

평가 요약: 이는 LLM의 문화 간 호기심 문제를 처음으로 체계적으로 탐구한 개척적 연구입니다. CUEST 프레임워크는 합리적으로 설계되었으며, 실험 설정은 포괄적이고, 결과는 중요한 이론적 및 실무적 의미를 갖습니다. 데이터 범위 및 평가 주관성 등의 한계가 있음에도 불구하고, 문화 간 NLP 연구에 새로운 방향을 개척했으며 상당한 학술적 가치와 응용 잠재력을 갖습니다.