2025-11-13T16:19:11.096230

The Curious Case of Curiosity across Human Cultures and LLMs

Borah, Mihalcea

Recent advances in Large Language Models (LLMs) have expanded their role in human interaction, yet curiosity -- a central driver of inquiry -- remains underexplored in these systems, particularly across cultural contexts. In this work, we investigate cultural variation in curiosity using Yahoo! Answers, a real-world multi-country dataset spanning diverse topics. We introduce CUEST (CUriosity Evaluation across SocieTies), an evaluation framework that measures human-model alignment in curiosity through linguistic (style), topic preference (content) analysis and grounding insights in social science constructs. Across open- and closed-source models, we find that LLMs flatten cross-cultural diversity, aligning more closely with how curiosity is expressed in Western countries. We then explore fine-tuning strategies to induce curiosity in LLMs, narrowing the human-model alignment gap by up to 50\%. Finally, we demonstrate the practical value of curiosity for LLM adaptability across cultures, showing its importance for future NLP research.

academic

The Curious Case of Curiosity across Human Cultures and LLMs

基本信息

论文ID: 2510.12943
标题: The Curious Case of Curiosity across Human Cultures and LLMs
作者: Angana Borah, Rada Mihalcea (University of Michigan, Ann Arbor)
分类: cs.CL (Computational Linguistics)
发表时间: 2025年10月14日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.12943v1

摘要

本文研究了大型语言模型(LLMs)中好奇心的跨文化表现。作者使用Yahoo! Answers多国数据集，提出了CUEST(CUriosity Evaluation across SocieTies)评估框架，通过语言风格、话题偏好和社会科学理论来衡量人类与模型在好奇心表达上的一致性。研究发现LLMs会抹平跨文化差异，更倾向于西方国家的好奇心表达方式。通过微调策略，作者将人类-模型对齐差距缩小了50%，并证明了好奇心对LLM跨文化适应性的实用价值。

研究背景与动机

1. 核心问题

好奇心是人类学习和探索的核心驱动力，在不同文化中表现形式各异。随着LLMs在人机交互中作用的扩大，其好奇心表达能力成为影响用户体验的重要因素。然而，现有研究主要关注LLMs的回答能力，而忽视了其提问和表达好奇心的能力，特别是在跨文化语境下。

2. 问题重要性

好奇心是文化学习、教育和人机交互的关键要素
不同文化背景下好奇心的表达方式存在显著差异
LLMs需要具备文化敏感的好奇心表达能力以提供更好的用户体验

3. 现有方法局限性

跨文化研究主要测试LLM的知识回答能力，忽视提问能力
缺乏系统性的人类-LLM好奇心对比框架
现有好奇心研究缺乏文化细节考量

4. 研究动机

作者提出三个核心研究问题：

在线平台上的好奇心驱动问题是否存在跨文化差异，LLMs是否能复现这些模式？
如何在LLMs中诱导好奇心？
文化敏感的好奇心对LLMs下游应用有何实际意义？

核心贡献

提出CUEST评估框架：结合语言分析、内容分析和文化理论基础的综合评估体系
构建跨文化好奇心数据集：基于Yahoo! Answers的18国16主题真实问题数据集
探索好奇心诱导策略：通过多种微调方法提升LLMs的文化敏感好奇心表达能力
验证实用价值：在三个跨文化基准测试中证明好奇心对LLM文化适应性的提升作用

方法详解

任务定义

本研究定义了两个核心任务：

文化敏感好奇心评估：比较人类和LLM在不同文化背景下的问题表达方式
好奇心诱导：通过训练使LLMs具备更好的文化敏感提问能力

CUEST评估框架

1. 语言对齐分析 (Linguistic Alignment)

评估四个维度：

模糊性 (Ambiguity)：

L(q) = 1/n (∑w∈W 1[w ∈ A] + ∑w∈W 1[|POS(w)| > 1])

其中A为多义词列表，POS(w)为词w的词性标签集合。

修辞手法 (Rhetorical Devices)：

RD = (R + Q + A + P + M)/n

包括重复词(R)、反问句(Q)、头韵(A)、排比(P)、类比标记(M)。

开放性问题 (Open-Endedness)：

Ω(u) = 1[starts_with_wh(q) = 1 ∧ NLI(q) ≠ entailment]

连贯性得分 (Cohesion Score)：

COH(q) = 1/3 (Lx + min(1,Tx) + Sx)

结合词汇重叠、过渡词和语义相似性。

2. 话题偏好对齐 (Topic Preference Alignment)

使用Spearman和Kendall相关系数比较人类与LLM的话题排序偏好。

基于四个理论框架：

Hofstede文化维度：不确定性规避、个人主义-集体主义等
Schwartz价值理论：开放性vs保守性
Hall语境理论：高语境vs低语境文化
教育系统：死记硬背vs整体学习

好奇心诱导方法

微调策略

完全微调 (Full Fine-tuning)
适配器微调 (Adapter-based Fine-tuning)

训练目标

Obj1：直接生成特定国家的问题
Obj2：基于对话上下文生成问题

数据增强

使用词汇替换、词序调换等技术扩充训练数据至每国1000个样本。

实验设置

数据集

Yahoo! Answers：18个国家，16个主题，涵盖亚洲、欧洲、美洲和大洋洲
Reddit：来自r/brazil、r/askuk、r/philippines的问题数据
LLM生成数据：使用文化人设提示生成的问题和话题偏好

评价指标

语言对齐：L2距离衡量人类与模型得分差异
话题偏好：Spearman和Kendall相关系数
社会科学对齐：基于LIWC维度的平均绝对误差
内在好奇心：好奇心率和相关性评分

对比方法

测试了6个模型：GPT-4o、GPT-5、Claude-Sonnet-4、Qwen-3-14b、LLaMA-3-8b、LLaMA-3-70b

实现细节

使用NVIDIA A40 GPU
LoRA适配器进行高效微调
最大序列长度1024 tokens
每个实验运行3次取平均值

实验结果

主要发现

1. 跨文化差异模式

人类标准差 > LLM标准差 (0.0785 vs 0.029, F-stat: 7.33)
LLMs倾向于抹平跨文化差异
西方国家显示最高的人类-模型对齐度

2. 模型性能排序

语言对齐：LLaMA-3-8b (0.25) > LLaMA-3-70b (0.27) > Claude-Sonnet-4 (0.28) = GPT-4o (0.28) > Qwen-3-14b (0.29) > GPT-5 (0.42)

话题偏好对齐：只有LLaMA-3-8b显示正相关 (0.17)，其他模型均为负相关

3. 社会科学理论对齐

所有模型在西方国家表现更好
LLaMA-3-8b在大多数理论维度上最接近人类
Hall的高-低语境理论显示最大分歧

好奇心诱导结果

文化敏感好奇心提升

适配器方法 > 完全微调 > 基于提示的方法
Reddit训练数据效果最佳
Obj2训练目标优于Obj1

内在好奇心评估

适配器模型：75%的情况下提出问题
完全微调模型：20%的情况下提出问题
仅提示模型：0%提问率
相关性保持在98-100%

下游任务验证

条件	NormAD	CulturalBench	Cultural CS
非好奇	70.48%	64.71%	48.48%
好奇(提示)	72.09%	67.64%	49.64%
好奇(微调+提示)	71.06%	68.21%	56.16%

好奇心诱导在所有文化适应性基准上均显示性能提升。

结论与讨论

主要结论

LLMs抹平文化差异：模型输出更符合西方规范，缺乏文化多样性
人类偏离传统刻板印象：真实好奇心表达比传统理论预期更复杂
适配器微调有效：在文化敏感和内在好奇心评估中表现最佳
好奇心提升文化适应性：在多个基准测试中验证实用价值

局限性

数据集覆盖有限：18个国家16个主题，无法完全代表全球文化景观
语言限制：主要使用英语，可能引入WEIRD(西方、受教育、工业化、富裕、民主)偏见
理论框架局限：Hofstede等理论可能无法捕捉当代或亚文化变异
评估主观性：好奇心和相关性评估涉及主观判断

未来方向

多语言跨文化好奇心研究
多智能体系统中的文化好奇心
交互式对话中的好奇心动态演化
更多元化的文化理论框架整合

深度评价

优点

创新性强：首个系统性研究LLM跨文化好奇心的工作
方法全面：CUEST框架结合语言、内容和理论三个维度
实验充分：涵盖多个模型、多种微调策略和下游验证
理论基础扎实：基于成熟的社会科学理论框架
实用价值高：证明了好奇心对文化适应性的实际提升作用

不足

文化代表性不足：18个国家难以覆盖全球文化多样性
翻译质量影响：Google Translate可能损失文化细节
评估标准主观：部分指标依赖人工判断，存在一致性问题
模型解释性缺乏：对LLaMA-3-8b表现最佳的深层原因分析不足

影响力

学术贡献：为跨文化NLP研究提供新的评估范式
实践价值：为构建文化敏感的对话系统提供指导
可复现性：作者承诺开源代码和数据
启发性：为未来多智能体文化模拟研究奠定基础

适用场景

跨文化对话系统：提升多文化用户体验
教育技术：开发文化敏感的学习辅助工具
国际化产品：改善全球化AI产品的本地化适应性
社会科学研究：为文化心理学研究提供计算工具

参考文献

Berlyne, D. E. (1960). Conflict, arousal, and curiosity.
Hofstede, G. (2001). Culture's consequences: Comparing values, behaviors, institutions and organizations across nations.
Loewenstein, G. (1994). The psychology of curiosity: A review and reinterpretation.
Ceraolo, R. et al. (2024). Analyzing human questioning behavior and causal curiosity through natural queries.

评价总结：这是一项开创性的研究，首次系统性地探索了LLM中的跨文化好奇心问题。CUEST框架设计合理，实验设置全面，结果具有重要的理论和实践意义。尽管存在数据覆盖和评估主观性等局限，但为跨文化NLP研究开辟了新的方向，具有较高的学术价值和应用潜力。