2025-11-13T16:19:11.096230

The Curious Case of Curiosity across Human Cultures and LLMs

Borah, Mihalcea

Recent advances in Large Language Models (LLMs) have expanded their role in human interaction, yet curiosity -- a central driver of inquiry -- remains underexplored in these systems, particularly across cultural contexts. In this work, we investigate cultural variation in curiosity using Yahoo! Answers, a real-world multi-country dataset spanning diverse topics. We introduce CUEST (CUriosity Evaluation across SocieTies), an evaluation framework that measures human-model alignment in curiosity through linguistic (style), topic preference (content) analysis and grounding insights in social science constructs. Across open- and closed-source models, we find that LLMs flatten cross-cultural diversity, aligning more closely with how curiosity is expressed in Western countries. We then explore fine-tuning strategies to induce curiosity in LLMs, narrowing the human-model alignment gap by up to 50\%. Finally, we demonstrate the practical value of curiosity for LLM adaptability across cultures, showing its importance for future NLP research.

academic

人間の文化とLLMにおける好奇心の興味深いケース

基本情報

論文ID: 2510.12943
タイトル: The Curious Case of Curiosity across Human Cultures and LLMs
著者: Angana Borah、Rada Mihalcea（ミシガン大学アナーバー校）
分類: cs.CL（計算言語学）
発表日時: 2025年10月14日（arXivプレプリント）
論文リンク: https://arxiv.org/abs/2510.12943v1

要約

本論文は、大規模言語モデル（LLM）における好奇心の跨文化的表現を研究しています。著者らはYahoo! Answersの多国データセットを使用し、CUEST（CUriosity Evaluation across SocieTies：社会間好奇心評価）評価フレームワークを提案しました。言語スタイル、話題の嗜好、社会科学理論を通じて、人間とモデルの好奇心表現の一貫性を測定しています。研究結果から、LLMは跨文化的差異を平準化し、西洋諸国の好奇心表現方式に傾斜する傾向が明らかになりました。微調整戦略により、著者らは人間-モデル間の整合ギャップを50%削減し、好奇心がLLMの跨文化適応性に対する実用的価値を実証しました。

研究背景と動機

1. 核心的問題

好奇心は人間の学習と探究の中核的な駆動力であり、異なる文化間で異なる表現形式を示します。人間-機械相互作用におけるLLMの役割が拡大するにつれ、その好奇心表現能力はユーザー体験に影響を与える重要な要因となります。しかし、既存研究は主にLLMの回答能力に焦点を当てており、特に跨文化的文脈における提問能力と好奇心表現能力を見落としています。

2. 問題の重要性

好奇心は文化学習、教育、人間-機械相互作用の重要な要素
異なる文化背景における好奇心の表現方式には顕著な差異が存在
LLMは、より良いユーザー体験を提供するために文化的に敏感な好奇心表現能力を必要とする

3. 既存方法の限界

跨文化研究は主にLLMの知識回答能力をテストし、提問能力を無視
体系的な人間-LLM好奇心比較フレームワークの欠如
既存の好奇心研究は文化的詳細を考慮していない

4. 研究動機

著者らは3つの核心的研究問題を提起しています：

オンラインプラットフォーム上の好奇心駆動型質問に跨文化的差異が存在するか、またLLMはこれらのパターンを再現できるか？
LLMにおいて好奇心をどのように誘導するか？
文化的に敏感な好奇心はLLMの下流応用にどのような実用的意義を持つか？

核心的貢献

CUEST評価フレームワークの提案：言語分析、内容分析、文化理論に基づく包括的評価体系
跨文化好奇心データセットの構築：Yahoo! Answersに基づく18ヶ国16主題の実際の質問データセット
好奇心誘導戦略の探索：複数の微調整方法を通じてLLMの文化的に敏感な好奇心表現能力を向上
実用的価値の検証：3つの跨文化ベンチマークテストで好奇心がLLMの文化適応性に与える影響を実証

方法の詳細

タスク定義

本研究は2つの核心的タスクを定義しています：

文化的に敏感な好奇心評価：異なる文化背景における人間とLLMの質問表現方式の比較
好奇心誘導：訓練を通じてLLMがより優れた文化的に敏感な提問能力を獲得

CUEST評価フレームワーク

1. 言語的整合分析（Linguistic Alignment）

4つの次元を評価します：

曖昧性（Ambiguity）：

L(q) = 1/n (∑w∈W 1[w ∈ A] + ∑w∈W 1[|POS(w)| > 1])

ここでAは多義語リスト、POS(w)は単語wの品詞タグセット。

修辞技法（Rhetorical Devices）：

RD = (R + Q + A + P + M)/n

反復（R）、反語法（Q）、頭韻（A）、排比（P）、類比マーク（M）を含む。

開放性（Open-Endedness）：

Ω(u) = 1[starts_with_wh(q) = 1 ∧ NLI(q) ≠ entailment]

結束性スコア（Cohesion Score）：

COH(q) = 1/3 (Lx + min(1,Tx) + Sx)

語彙的重複、遷移語、意味的類似性を組み合わせます。

2. 話題嗜好整合（Topic Preference Alignment）

Spearmanおよびkendall相関係数を使用して、人間とLLMの話題順序嗜好を比較します。

3. 社会科学理論基盤（Social Science Grounding）

4つの理論フレームワークに基づいています：

Hofstede文化次元：不確実性回避、個人主義-集団主義など
Schwartz価値理論：開放性対保守性
Hall文脈理論：高文脈対低文脈文化
教育システム：暗記学習対全体的学習

好奇心誘導方法

微調整戦略

完全微調整（Full Fine-tuning）
アダプタベース微調整（Adapter-based Fine-tuning）

訓練目標

Obj1：特定国の質問を直接生成
Obj2：対話文脈に基づいて質問を生成

データ拡張

語彙置換、単語順序交換などの技術を使用して、訓練データを各国1000サンプルに拡張します。

実験設定

データセット

Yahoo! Answers：18ヶ国、16主題、アジア、ヨーロッパ、アメリカ、オセアニアを網羅
Reddit：r/brazil、r/askuk、r/philippinesからの質問データ
LLM生成データ：文化的ペルソナプロンプトで生成された質問と話題嗜好

評価指標

言語的整合：L2距離で人間とモデルのスコア差を測定
話題嗜好：SpearmanおよびKendall相関係数
社会科学的整合：LIWC次元に基づく平均絶対誤差
内在的好奇心：好奇心率と関連性スコア

比較方法

6つのモデルをテスト：GPT-4o、GPT-5、Claude-Sonnet-4、Qwen-3-14b、LLaMA-3-8b、LLaMA-3-70b

実装詳細

NVIDIA A40 GPUを使用
LoRAアダプタで効率的な微調整
最大シーケンス長1024トークン
各実験を3回実行して平均値を取得

実験結果

主要な発見

1. 跨文化的差異パターン

人間の標準偏差 > LLMの標準偏差（0.0785対0.029、F統計量：7.33）
LLMは跨文化的差異を平準化する傾向
西洋諸国は最高の人間-モデル整合度を示す

2. モデルパフォーマンスランキング

言語的整合：LLaMA-3-8b（0.25）> LLaMA-3-70b（0.27）> Claude-Sonnet-4（0.28）= GPT-4o（0.28）> Qwen-3-14b（0.29）> GPT-5（0.42）

話題嗜好整合：LLaMA-3-8bのみ正の相関を示す（0.17）、他のモデルはすべて負の相関

3. 社会科学理論整合

すべてのモデルは西洋諸国でより良いパフォーマンスを示す
LLaMA-3-8bは大多数の理論次元で人間に最も近い
Hallの高-低文脈理論は最大の相違を示す

好奇心誘導結果

文化的に敏感な好奇心の向上

アダプタ方法 > 完全微調整 > プロンプトベース方法
Redditの訓練データが最良の結果
Obj2訓練目標がObj1より優れている

内在的好奇心評価

アダプタモデル：75%の場合に質問を提起
完全微調整モデル：20%の場合に質問を提起
プロンプトのみモデル：0%の提問率
関連性は98-100%を維持

下流タスク検証

条件	NormAD	CulturalBench	Cultural CS
非好奇	70.48%	64.71%	48.48%
好奇心（プロンプト）	72.09%	67.64%	49.64%
好奇心（微調整+プロンプト）	71.06%	68.21%	56.16%

好奇心誘導は、すべての文化適応性ベンチマークでパフォーマンス向上を示しています。

結論と考察

主要な結論

LLMは文化的差異を平準化：モデル出力は西洋規範に適合し、文化的多様性が不足
人間は従来のステレオタイプから逸脱：実際の好奇心表現は従来の理論予測より複雑
アダプタ微調整は有効：文化的に敏感で内在的好奇心評価で最良のパフォーマンス
好奇心は文化適応性を向上：複数のベンチマークテストで実用的価値を検証

限界

データセット覆蓋の限定：18ヶ国16主題では、全球的文化景観を完全に代表できない
言語的制限：主に英語を使用し、WEIRD（西洋、教育を受けた、工業化された、豊かな、民主的）バイアスを導入する可能性
理論フレームワークの限界：Hofstedeなどの理論は、現代またはサブカルチャーの変異を捉えられない可能性
評価の主観性：好奇心と関連性評価は主観的判断を含む

今後の方向性

多言語跨文化好奇心研究
マルチエージェントシステムにおける文化的好奇心
対話的会話における好奇心の動的進化
より多様な文化理論フレームワークの統合

深層評価

長所

革新性が高い：LLMの跨文化好奇心を体系的に研究する最初の研究
方法が包括的：CUEST フレームワークは言語、内容、理論の3つの次元を統合
実験が充分：複数のモデル、複数の微調整戦略、下流検証を網羅
理論基盤が堅牢：成熟した社会科学理論フレームワークに基づく
実用的価値が高い：好奇心が文化適応性に与える実際の向上を実証

不足

文化代表性の不足：18ヶ国では全球的文化多様性を網羅するのに困難
翻訳品質の影響：Google翻訳は文化的詳細を損失する可能性
評価基準の主観性：一部の指標は人的判断に依存し、一貫性の問題が存在
モデル解釈性の欠如：LLaMA-3-8bが最良のパフォーマンスを示す深層的理由の分析が不足

影響力

学術的貢献：跨文化NLP研究に新しい評価パラダイムを提供
実践的価値：文化的に敏感な対話システムの構築に指導を提供
再現性：著者らはコードとデータのオープンソース化を約束
啓発性：将来のマルチエージェント文化シミュレーション研究の基礎を確立

適用シナリオ

跨文化対話システム：多文化ユーザー体験の向上
教育技術：文化的に敏感な学習支援ツールの開発
国際化製品：グローバルAI製品のローカライゼーション適応性の改善
社会科学研究：文化心理学研究の計算ツール提供

参考文献

Berlyne, D. E. (1960). Conflict, arousal, and curiosity.
Hofstede, G. (2001). Culture's consequences: Comparing values, behaviors, institutions and organizations across nations.
Loewenstein, G. (1994). The psychology of curiosity: A review and reinterpretation.
Ceraolo, R. et al. (2024). Analyzing human questioning behavior and causal curiosity through natural queries.

評価総括：これは開創的な研究であり、LLMにおける跨文化好奇心問題を初めて体系的に探索しています。CUESTフレームワークの設計は合理的で、実験設定は包括的であり、結果は重要な理論的および実践的意義を持っています。データ覆蓋と評価の主観性などの限界が存在しますが、跨文化NLP研究に新しい方向性を開拓し、高い学術的価値と応用可能性を備えています。