2025-11-13T16:19:11.096230

The Curious Case of Curiosity across Human Cultures and LLMs

Borah, Mihalcea

Recent advances in Large Language Models (LLMs) have expanded their role in human interaction, yet curiosity -- a central driver of inquiry -- remains underexplored in these systems, particularly across cultural contexts. In this work, we investigate cultural variation in curiosity using Yahoo! Answers, a real-world multi-country dataset spanning diverse topics. We introduce CUEST (CUriosity Evaluation across SocieTies), an evaluation framework that measures human-model alignment in curiosity through linguistic (style), topic preference (content) analysis and grounding insights in social science constructs. Across open- and closed-source models, we find that LLMs flatten cross-cultural diversity, aligning more closely with how curiosity is expressed in Western countries. We then explore fine-tuning strategies to induce curiosity in LLMs, narrowing the human-model alignment gap by up to 50\%. Finally, we demonstrate the practical value of curiosity for LLM adaptability across cultures, showing its importance for future NLP research.

academic

Le Cas Curieux de la Curiosité à travers les Cultures Humaines et les LLMs

Informations Fondamentales

ID de l'article : 2510.12943
Titre : The Curious Case of Curiosity across Human Cultures and LLMs
Auteurs : Angana Borah, Rada Mihalcea (Université du Michigan, Ann Arbor)
Classification : cs.CL (Linguistique Informatique)
Date de publication : 14 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.12943v1

Résumé

Cet article étudie la manifestation transculturelle de la curiosité dans les modèles de langage de grande taille (LLMs). Les auteurs utilisent un ensemble de données multinationales de Yahoo! Answers et proposent le cadre d'évaluation CUEST (CUriosity Evaluation across SocieTies), qui mesure la cohérence entre les humains et les modèles dans l'expression de la curiosité par le biais du style linguistique, des préférences thématiques et des théories des sciences sociales. L'étude révèle que les LLMs aplatissent les différences transculturelles et tendent à privilégier les modes d'expression de la curiosité des pays occidentaux. Grâce à des stratégies d'ajustement fin, les auteurs réduisent l'écart d'alignement humain-modèle de 50 % et démontrent la valeur pratique de la curiosité pour l'adaptabilité transculturelle des LLMs.

Contexte et Motivation de la Recherche

1. Problème Central

La curiosité est un moteur fondamental de l'apprentissage et de l'exploration humains, se manifestant différemment selon les cultures. Avec l'expansion du rôle des LLMs dans l'interaction homme-machine, leur capacité à exprimer la curiosité devient un facteur important affectant l'expérience utilisateur. Cependant, les recherches existantes se concentrent principalement sur la capacité des LLMs à répondre, en négligeant leur capacité à poser des questions et à exprimer la curiosité, particulièrement dans un contexte transculturel.

2. Importance du Problème

La curiosité est un élément clé de l'apprentissage culturel, de l'éducation et de l'interaction homme-machine
Les modes d'expression de la curiosité varient considérablement selon les contextes culturels
Les LLMs doivent posséder une capacité d'expression de la curiosité sensible à la culture pour offrir une meilleure expérience utilisateur

3. Limitations des Approches Existantes

Les recherches transculturelles testent principalement la capacité des LLMs à répondre aux questions, en négligeant la capacité à poser des questions
Absence d'un cadre systématique de comparaison humain-LLM concernant la curiosité
Les recherches existantes sur la curiosité manquent de considérations culturelles détaillées

4. Motivation de la Recherche

Les auteurs proposent trois questions de recherche fondamentales :

Existe-t-il des différences transculturelles dans les questions motivées par la curiosité sur les plateformes en ligne, et les LLMs peuvent-ils reproduire ces modèles ?
Comment induire la curiosité dans les LLMs ?
Quelle est la signification pratique de la curiosité sensible à la culture pour les applications en aval des LLMs ?

Contributions Principales

Proposition du cadre d'évaluation CUEST : Un système d'évaluation complet combinant l'analyse linguistique, l'analyse de contenu et les fondements théoriques culturels
Construction d'un ensemble de données transculturel sur la curiosité : Ensemble de données de questions réelles de 18 pays couvrant 16 thèmes basé sur Yahoo! Answers
Exploration de stratégies d'induction de la curiosité : Amélioration de la capacité d'expression de la curiosité sensible à la culture des LLMs par diverses méthodes d'ajustement fin
Vérification de la valeur pratique : Démonstration du rôle de la curiosité dans l'amélioration de l'adaptabilité culturelle des LLMs sur trois repères transculturels

Détails Méthodologiques

Définition de la Tâche

Cette recherche définit deux tâches fondamentales :

Évaluation de la curiosité sensible à la culture : Comparaison des modes d'expression des questions entre les humains et les LLMs dans différents contextes culturels
Induction de la curiosité : Amélioration de la capacité des LLMs à poser des questions sensibles à la culture par l'entraînement

Cadre d'Évaluation CUEST

1. Analyse de l'Alignement Linguistique (Linguistic Alignment)

Évaluation selon quatre dimensions :

Ambiguïté (Ambiguity) :

L(q) = 1/n (∑w∈W 1[w ∈ A] + ∑w∈W 1[|POS(w)| > 1])

où A est la liste des mots polysémiques et POS(w) est l'ensemble des étiquettes de catégories grammaticales du mot w.

Procédés Rhétoriques (Rhetorical Devices) :

RD = (R + Q + A + P + M)/n

incluant les mots répétés (R), les questions rhétoriques (Q), l'allitération (A), le parallélisme (P) et les marqueurs d'analogie (M).

Caractère Ouvert des Questions (Open-Endedness) :

Ω(u) = 1[starts_with_wh(q) = 1 ∧ NLI(q) ≠ entailment]

Score de Cohésion (Cohesion Score) :

COH(q) = 1/3 (Lx + min(1,Tx) + Sx)

combinant le chevauchement lexical, les mots de transition et la similarité sémantique.

2. Alignement des Préférences Thématiques (Topic Preference Alignment)

Utilisation des coefficients de corrélation de Spearman et Kendall pour comparer les préférences de classement des thèmes entre les humains et les LLMs.

Basé sur quatre cadres théoriques :

Dimensions Culturelles de Hofstede : évitement de l'incertitude, individualisme-collectivisme, etc.
Théorie des Valeurs de Schwartz : ouverture vs conservatisme
Théorie du Contexte de Hall : cultures à haut contexte vs bas contexte
Systèmes Éducatifs : apprentissage par cœur vs apprentissage holistique

Méthodes d'Induction de la Curiosité

Stratégies d'Ajustement Fin

Ajustement Fin Complet (Full Fine-tuning)
Ajustement Fin Basé sur Adaptateurs (Adapter-based Fine-tuning)

Objectifs d'Entraînement

Obj1 : Génération directe de questions spécifiques à un pays
Obj2 : Génération de questions basée sur le contexte conversationnel

Augmentation des Données

Utilisation de techniques de substitution lexicale et de réorganisation des mots pour augmenter les données d'entraînement à 1000 échantillons par pays.

Configuration Expérimentale

Ensembles de Données

Yahoo! Answers : 18 pays, 16 thèmes, couvrant l'Asie, l'Europe, l'Amérique et l'Océanie
Reddit : Questions provenant de r/brazil, r/askuk, r/philippines
Données Générées par LLM : Questions et préférences thématiques générées à l'aide d'invites de personnalité culturelle

Métriques d'Évaluation

Alignement Linguistique : Distance L2 mesurant la divergence entre les scores humains et modèles
Préférences Thématiques : Coefficients de corrélation de Spearman et Kendall
Alignement Socioscientifique : Erreur absolue moyenne basée sur les dimensions LIWC
Curiosité Intrinsèque : Taux de curiosité et scores de pertinence

Méthodes de Comparaison

Test de 6 modèles : GPT-4o, GPT-5, Claude-Sonnet-4, Qwen-3-14b, LLaMA-3-8b, LLaMA-3-70b

Détails d'Implémentation

Utilisation du GPU NVIDIA A40
Adaptateurs LoRA pour l'ajustement fin efficace
Longueur maximale de séquence : 1024 tokens
Chaque expérience exécutée 3 fois avec moyenne

Résultats Expérimentaux

Principales Découvertes

1. Modèles de Différences Transculturelles

Écart-type humain > Écart-type LLM (0,0785 vs 0,029, F-stat : 7,33)
Les LLMs tendent à aplatir les différences transculturelles
Les pays occidentaux affichent le plus haut degré d'alignement humain-modèle

2. Classement des Performances des Modèles

Alignement Linguistique : LLaMA-3-8b (0,25) > LLaMA-3-70b (0,27) > Claude-Sonnet-4 (0,28) = GPT-4o (0,28) > Qwen-3-14b (0,29) > GPT-5 (0,42)

Alignement des Préférences Thématiques : Seul LLaMA-3-8b affiche une corrélation positive (0,17), tous les autres modèles montrent une corrélation négative

3. Alignement Théorique Socioscientifique

Tous les modèles performent mieux dans les pays occidentaux
LLaMA-3-8b est le plus proche des humains sur la plupart des dimensions théoriques
La théorie haute-basse contexte de Hall affiche le plus grand désaccord

Résultats de l'Induction de la Curiosité

Amélioration de la Curiosité Sensible à la Culture

Méthode par adaptateurs > Ajustement fin complet > Méthode basée sur invites
Les données d'entraînement Reddit donnent les meilleurs résultats
L'objectif d'entraînement Obj2 surpasse Obj1

Évaluation de la Curiosité Intrinsèque

Modèles par adaptateurs : Posent des questions dans 75 % des cas
Modèles d'ajustement fin complet : Posent des questions dans 20 % des cas
Modèles basés sur invites uniquement : Taux de questions de 0 %
La pertinence se maintient à 98-100 %

Vérification des Tâches en Aval

Condition	NormAD	CulturalBench	Cultural CS
Non-curieux	70,48 %	64,71 %	48,48 %
Curieux (invites)	72,09 %	67,64 %	49,64 %
Curieux (ajustement fin + invites)	71,06 %	68,21 %	56,16 %

L'induction de la curiosité montre une amélioration des performances sur tous les repères d'adaptabilité culturelle.

Travaux Connexes

Recherches en Psychologie

Théorie du Déficit d'Information (Loewenstein, 1994)
Théorie de la Motivation par la Curiosité (Berlyne, 1960)
Théorie de l'Activation Optimale (Hebb, 1955)

Domaine du TAL

Corpus NatQuest (Ceraolo et al., 2024) : Caractère ouvert et orientation causale des questions naturelles
Recherches sur la Représentation Culturelle : Principalement axées sur l'évaluation des biais et de la perception culturelle, mais manquent d'analyse de la capacité à poser des questions

Recherches Transculturelles sur les LLMs

Les travaux existants testent principalement la capacité à répondre aux questions, utilisant des repères d'enquête (comme WVS, Pew Research). Cet article est le premier à comparer systématiquement les questions humain-LLM transculturelles.

Conclusions et Discussion

Conclusions Principales

Les LLMs aplatissent les différences culturelles : Les résultats des modèles sont davantage conformes aux normes occidentales, manquant de diversité culturelle
Les humains s'écartent des stéréotypes traditionnels : L'expression réelle de la curiosité est plus complexe que prévu par les théories traditionnelles
L'ajustement fin par adaptateurs est efficace : Performances optimales dans l'évaluation de la curiosité sensible à la culture et intrinsèque
La curiosité améliore l'adaptabilité culturelle : Valeur pratique vérifiée sur plusieurs repères

Limitations

Couverture de l'ensemble de données limitée : 18 pays et 16 thèmes ne peuvent pas représenter complètement le paysage culturel mondial
Limitations linguistiques : Utilisation principalement de l'anglais, pouvant introduire des biais WEIRD (occidental, éduqué, industrialisé, riche, démocratique)
Limitations du cadre théorique : Les théories comme celle de Hofstede peuvent ne pas capturer les variations culturelles contemporaines ou sous-culturelles
Subjectivité de l'évaluation : L'évaluation de la curiosité et de la pertinence implique des jugements subjectifs

Directions Futures

Recherches transculturelles multilingues sur la curiosité
Curiosité culturelle dans les systèmes multi-agents
Évolution dynamique de la curiosité dans les dialogues interactifs
Intégration de cadres théoriques culturels plus diversifiés

Évaluation Approfondie

Points Forts

Forte Innovativité : Premier travail systématique étudiant la curiosité transculturelle dans les LLMs
Méthodologie Complète : Le cadre CUEST combine trois dimensions : linguistique, contenu et théorie
Expérimentation Suffisante : Couvre plusieurs modèles, diverses stratégies d'ajustement fin et vérification en aval
Fondements Théoriques Solides : Basé sur des cadres théoriques matures des sciences sociales
Valeur Pratique Élevée : Démontre l'impact réel de la curiosité sur l'adaptabilité culturelle

Insuffisances

Représentation Culturelle Insuffisante : 18 pays ne peuvent couvrir la diversité culturelle mondiale
Impact de la Qualité de Traduction : Google Translate peut perdre des détails culturels
Subjectivité des Critères d'Évaluation : Certaines métriques dépendent du jugement humain, posant des problèmes de cohérence
Manque d'Interprétabilité des Modèles : Analyse insuffisante des raisons profondes de la performance supérieure de LLaMA-3-8b

Impact

Contribution Académique : Fournit un nouveau paradigme d'évaluation pour la recherche en TAL transculturel
Valeur Pratique : Offre des orientations pour construire des systèmes de dialogue sensibles à la culture
Reproductibilité : Les auteurs s'engagent à rendre le code et les données publics
Caractère Inspirant : Pose les fondations pour les recherches futures sur la simulation culturelle multi-agents

Scénarios d'Application

Systèmes de Dialogue Transculturels : Amélioration de l'expérience utilisateur multiculturelle
Technologie Éducative : Développement d'outils d'apprentissage sensibles à la culture
Produits Internationalisés : Amélioration de l'adaptabilité locale des produits d'IA mondialisés
Recherche en Sciences Sociales : Fournit des outils informatiques pour la recherche en psychologie culturelle

Références

Berlyne, D. E. (1960). Conflict, arousal, and curiosity.
Hofstede, G. (2001). Culture's consequences: Comparing values, behaviors, institutions and organizations across nations.
Loewenstein, G. (1994). The psychology of curiosity: A review and reinterpretation.
Ceraolo, R. et al. (2024). Analyzing human questioning behavior and causal curiosity through natural queries.

Résumé de l'Évaluation : Il s'agit d'une recherche pionnière qui explore systématiquement pour la première fois le problème de la curiosité transculturelle dans les LLMs. Le cadre CUEST est bien conçu, la configuration expérimentale est complète, et les résultats ont une importance théorique et pratique significative. Malgré certaines limitations concernant la couverture des données et la subjectivité de l'évaluation, cette recherche ouvre de nouvelles directions pour la recherche en TAL transculturel et possède une valeur académique et un potentiel d'application élevés.