2025-11-13T16:19:11.096230

The Curious Case of Curiosity across Human Cultures and LLMs

Borah, Mihalcea
Recent advances in Large Language Models (LLMs) have expanded their role in human interaction, yet curiosity -- a central driver of inquiry -- remains underexplored in these systems, particularly across cultural contexts. In this work, we investigate cultural variation in curiosity using Yahoo! Answers, a real-world multi-country dataset spanning diverse topics. We introduce CUEST (CUriosity Evaluation across SocieTies), an evaluation framework that measures human-model alignment in curiosity through linguistic (style), topic preference (content) analysis and grounding insights in social science constructs. Across open- and closed-source models, we find that LLMs flatten cross-cultural diversity, aligning more closely with how curiosity is expressed in Western countries. We then explore fine-tuning strategies to induce curiosity in LLMs, narrowing the human-model alignment gap by up to 50\%. Finally, we demonstrate the practical value of curiosity for LLM adaptability across cultures, showing its importance for future NLP research.
academic

Le Cas Curieux de la Curiosité à travers les Cultures Humaines et les LLMs

Informations Fondamentales

  • ID de l'article : 2510.12943
  • Titre : The Curious Case of Curiosity across Human Cultures and LLMs
  • Auteurs : Angana Borah, Rada Mihalcea (Université du Michigan, Ann Arbor)
  • Classification : cs.CL (Linguistique Informatique)
  • Date de publication : 14 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.12943v1

Résumé

Cet article étudie la manifestation transculturelle de la curiosité dans les modèles de langage de grande taille (LLMs). Les auteurs utilisent un ensemble de données multinationales de Yahoo! Answers et proposent le cadre d'évaluation CUEST (CUriosity Evaluation across SocieTies), qui mesure la cohérence entre les humains et les modèles dans l'expression de la curiosité par le biais du style linguistique, des préférences thématiques et des théories des sciences sociales. L'étude révèle que les LLMs aplatissent les différences transculturelles et tendent à privilégier les modes d'expression de la curiosité des pays occidentaux. Grâce à des stratégies d'ajustement fin, les auteurs réduisent l'écart d'alignement humain-modèle de 50 % et démontrent la valeur pratique de la curiosité pour l'adaptabilité transculturelle des LLMs.

Contexte et Motivation de la Recherche

1. Problème Central

La curiosité est un moteur fondamental de l'apprentissage et de l'exploration humains, se manifestant différemment selon les cultures. Avec l'expansion du rôle des LLMs dans l'interaction homme-machine, leur capacité à exprimer la curiosité devient un facteur important affectant l'expérience utilisateur. Cependant, les recherches existantes se concentrent principalement sur la capacité des LLMs à répondre, en négligeant leur capacité à poser des questions et à exprimer la curiosité, particulièrement dans un contexte transculturel.

2. Importance du Problème

  • La curiosité est un élément clé de l'apprentissage culturel, de l'éducation et de l'interaction homme-machine
  • Les modes d'expression de la curiosité varient considérablement selon les contextes culturels
  • Les LLMs doivent posséder une capacité d'expression de la curiosité sensible à la culture pour offrir une meilleure expérience utilisateur

3. Limitations des Approches Existantes

  • Les recherches transculturelles testent principalement la capacité des LLMs à répondre aux questions, en négligeant la capacité à poser des questions
  • Absence d'un cadre systématique de comparaison humain-LLM concernant la curiosité
  • Les recherches existantes sur la curiosité manquent de considérations culturelles détaillées

4. Motivation de la Recherche

Les auteurs proposent trois questions de recherche fondamentales :

  1. Existe-t-il des différences transculturelles dans les questions motivées par la curiosité sur les plateformes en ligne, et les LLMs peuvent-ils reproduire ces modèles ?
  2. Comment induire la curiosité dans les LLMs ?
  3. Quelle est la signification pratique de la curiosité sensible à la culture pour les applications en aval des LLMs ?

Contributions Principales

  1. Proposition du cadre d'évaluation CUEST : Un système d'évaluation complet combinant l'analyse linguistique, l'analyse de contenu et les fondements théoriques culturels
  2. Construction d'un ensemble de données transculturel sur la curiosité : Ensemble de données de questions réelles de 18 pays couvrant 16 thèmes basé sur Yahoo! Answers
  3. Exploration de stratégies d'induction de la curiosité : Amélioration de la capacité d'expression de la curiosité sensible à la culture des LLMs par diverses méthodes d'ajustement fin
  4. Vérification de la valeur pratique : Démonstration du rôle de la curiosité dans l'amélioration de l'adaptabilité culturelle des LLMs sur trois repères transculturels

Détails Méthodologiques

Définition de la Tâche

Cette recherche définit deux tâches fondamentales :

  1. Évaluation de la curiosité sensible à la culture : Comparaison des modes d'expression des questions entre les humains et les LLMs dans différents contextes culturels
  2. Induction de la curiosité : Amélioration de la capacité des LLMs à poser des questions sensibles à la culture par l'entraînement

Cadre d'Évaluation CUEST

1. Analyse de l'Alignement Linguistique (Linguistic Alignment)

Évaluation selon quatre dimensions :

Ambiguïté (Ambiguity) :

L(q) = 1/n (∑w∈W 1[w ∈ A] + ∑w∈W 1[|POS(w)| > 1])

où A est la liste des mots polysémiques et POS(w) est l'ensemble des étiquettes de catégories grammaticales du mot w.

Procédés Rhétoriques (Rhetorical Devices) :

RD = (R + Q + A + P + M)/n

incluant les mots répétés (R), les questions rhétoriques (Q), l'allitération (A), le parallélisme (P) et les marqueurs d'analogie (M).

Caractère Ouvert des Questions (Open-Endedness) :

Ω(u) = 1[starts_with_wh(q) = 1 ∧ NLI(q) ≠ entailment]

Score de Cohésion (Cohesion Score) :

COH(q) = 1/3 (Lx + min(1,Tx) + Sx)

combinant le chevauchement lexical, les mots de transition et la similarité sémantique.

2. Alignement des Préférences Thématiques (Topic Preference Alignment)

Utilisation des coefficients de corrélation de Spearman et Kendall pour comparer les préférences de classement des thèmes entre les humains et les LLMs.

3. Fondements Théoriques des Sciences Sociales (Social Science Grounding)

Basé sur quatre cadres théoriques :

  • Dimensions Culturelles de Hofstede : évitement de l'incertitude, individualisme-collectivisme, etc.
  • Théorie des Valeurs de Schwartz : ouverture vs conservatisme
  • Théorie du Contexte de Hall : cultures à haut contexte vs bas contexte
  • Systèmes Éducatifs : apprentissage par cœur vs apprentissage holistique

Méthodes d'Induction de la Curiosité

Stratégies d'Ajustement Fin

  1. Ajustement Fin Complet (Full Fine-tuning)
  2. Ajustement Fin Basé sur Adaptateurs (Adapter-based Fine-tuning)

Objectifs d'Entraînement

  • Obj1 : Génération directe de questions spécifiques à un pays
  • Obj2 : Génération de questions basée sur le contexte conversationnel

Augmentation des Données

Utilisation de techniques de substitution lexicale et de réorganisation des mots pour augmenter les données d'entraînement à 1000 échantillons par pays.

Configuration Expérimentale

Ensembles de Données

  1. Yahoo! Answers : 18 pays, 16 thèmes, couvrant l'Asie, l'Europe, l'Amérique et l'Océanie
  2. Reddit : Questions provenant de r/brazil, r/askuk, r/philippines
  3. Données Générées par LLM : Questions et préférences thématiques générées à l'aide d'invites de personnalité culturelle

Métriques d'Évaluation

  • Alignement Linguistique : Distance L2 mesurant la divergence entre les scores humains et modèles
  • Préférences Thématiques : Coefficients de corrélation de Spearman et Kendall
  • Alignement Socioscientifique : Erreur absolue moyenne basée sur les dimensions LIWC
  • Curiosité Intrinsèque : Taux de curiosité et scores de pertinence

Méthodes de Comparaison

Test de 6 modèles : GPT-4o, GPT-5, Claude-Sonnet-4, Qwen-3-14b, LLaMA-3-8b, LLaMA-3-70b

Détails d'Implémentation

  • Utilisation du GPU NVIDIA A40
  • Adaptateurs LoRA pour l'ajustement fin efficace
  • Longueur maximale de séquence : 1024 tokens
  • Chaque expérience exécutée 3 fois avec moyenne

Résultats Expérimentaux

Principales Découvertes

1. Modèles de Différences Transculturelles

  • Écart-type humain > Écart-type LLM (0,0785 vs 0,029, F-stat : 7,33)
  • Les LLMs tendent à aplatir les différences transculturelles
  • Les pays occidentaux affichent le plus haut degré d'alignement humain-modèle

2. Classement des Performances des Modèles

Alignement Linguistique : LLaMA-3-8b (0,25) > LLaMA-3-70b (0,27) > Claude-Sonnet-4 (0,28) = GPT-4o (0,28) > Qwen-3-14b (0,29) > GPT-5 (0,42)

Alignement des Préférences Thématiques : Seul LLaMA-3-8b affiche une corrélation positive (0,17), tous les autres modèles montrent une corrélation négative

3. Alignement Théorique Socioscientifique

  • Tous les modèles performent mieux dans les pays occidentaux
  • LLaMA-3-8b est le plus proche des humains sur la plupart des dimensions théoriques
  • La théorie haute-basse contexte de Hall affiche le plus grand désaccord

Résultats de l'Induction de la Curiosité

Amélioration de la Curiosité Sensible à la Culture

  • Méthode par adaptateurs > Ajustement fin complet > Méthode basée sur invites
  • Les données d'entraînement Reddit donnent les meilleurs résultats
  • L'objectif d'entraînement Obj2 surpasse Obj1

Évaluation de la Curiosité Intrinsèque

  • Modèles par adaptateurs : Posent des questions dans 75 % des cas
  • Modèles d'ajustement fin complet : Posent des questions dans 20 % des cas
  • Modèles basés sur invites uniquement : Taux de questions de 0 %
  • La pertinence se maintient à 98-100 %

Vérification des Tâches en Aval

ConditionNormADCulturalBenchCultural CS
Non-curieux70,48 %64,71 %48,48 %
Curieux (invites)72,09 %67,64 %49,64 %
Curieux (ajustement fin + invites)71,06 %68,21 %56,16 %

L'induction de la curiosité montre une amélioration des performances sur tous les repères d'adaptabilité culturelle.

Travaux Connexes

Recherches en Psychologie

  • Théorie du Déficit d'Information (Loewenstein, 1994)
  • Théorie de la Motivation par la Curiosité (Berlyne, 1960)
  • Théorie de l'Activation Optimale (Hebb, 1955)

Domaine du TAL

  • Corpus NatQuest (Ceraolo et al., 2024) : Caractère ouvert et orientation causale des questions naturelles
  • Recherches sur la Représentation Culturelle : Principalement axées sur l'évaluation des biais et de la perception culturelle, mais manquent d'analyse de la capacité à poser des questions

Recherches Transculturelles sur les LLMs

Les travaux existants testent principalement la capacité à répondre aux questions, utilisant des repères d'enquête (comme WVS, Pew Research). Cet article est le premier à comparer systématiquement les questions humain-LLM transculturelles.

Conclusions et Discussion

Conclusions Principales

  1. Les LLMs aplatissent les différences culturelles : Les résultats des modèles sont davantage conformes aux normes occidentales, manquant de diversité culturelle
  2. Les humains s'écartent des stéréotypes traditionnels : L'expression réelle de la curiosité est plus complexe que prévu par les théories traditionnelles
  3. L'ajustement fin par adaptateurs est efficace : Performances optimales dans l'évaluation de la curiosité sensible à la culture et intrinsèque
  4. La curiosité améliore l'adaptabilité culturelle : Valeur pratique vérifiée sur plusieurs repères

Limitations

  1. Couverture de l'ensemble de données limitée : 18 pays et 16 thèmes ne peuvent pas représenter complètement le paysage culturel mondial
  2. Limitations linguistiques : Utilisation principalement de l'anglais, pouvant introduire des biais WEIRD (occidental, éduqué, industrialisé, riche, démocratique)
  3. Limitations du cadre théorique : Les théories comme celle de Hofstede peuvent ne pas capturer les variations culturelles contemporaines ou sous-culturelles
  4. Subjectivité de l'évaluation : L'évaluation de la curiosité et de la pertinence implique des jugements subjectifs

Directions Futures

  1. Recherches transculturelles multilingues sur la curiosité
  2. Curiosité culturelle dans les systèmes multi-agents
  3. Évolution dynamique de la curiosité dans les dialogues interactifs
  4. Intégration de cadres théoriques culturels plus diversifiés

Évaluation Approfondie

Points Forts

  1. Forte Innovativité : Premier travail systématique étudiant la curiosité transculturelle dans les LLMs
  2. Méthodologie Complète : Le cadre CUEST combine trois dimensions : linguistique, contenu et théorie
  3. Expérimentation Suffisante : Couvre plusieurs modèles, diverses stratégies d'ajustement fin et vérification en aval
  4. Fondements Théoriques Solides : Basé sur des cadres théoriques matures des sciences sociales
  5. Valeur Pratique Élevée : Démontre l'impact réel de la curiosité sur l'adaptabilité culturelle

Insuffisances

  1. Représentation Culturelle Insuffisante : 18 pays ne peuvent couvrir la diversité culturelle mondiale
  2. Impact de la Qualité de Traduction : Google Translate peut perdre des détails culturels
  3. Subjectivité des Critères d'Évaluation : Certaines métriques dépendent du jugement humain, posant des problèmes de cohérence
  4. Manque d'Interprétabilité des Modèles : Analyse insuffisante des raisons profondes de la performance supérieure de LLaMA-3-8b

Impact

  1. Contribution Académique : Fournit un nouveau paradigme d'évaluation pour la recherche en TAL transculturel
  2. Valeur Pratique : Offre des orientations pour construire des systèmes de dialogue sensibles à la culture
  3. Reproductibilité : Les auteurs s'engagent à rendre le code et les données publics
  4. Caractère Inspirant : Pose les fondations pour les recherches futures sur la simulation culturelle multi-agents

Scénarios d'Application

  1. Systèmes de Dialogue Transculturels : Amélioration de l'expérience utilisateur multiculturelle
  2. Technologie Éducative : Développement d'outils d'apprentissage sensibles à la culture
  3. Produits Internationalisés : Amélioration de l'adaptabilité locale des produits d'IA mondialisés
  4. Recherche en Sciences Sociales : Fournit des outils informatiques pour la recherche en psychologie culturelle

Références

  1. Berlyne, D. E. (1960). Conflict, arousal, and curiosity.
  2. Hofstede, G. (2001). Culture's consequences: Comparing values, behaviors, institutions and organizations across nations.
  3. Loewenstein, G. (1994). The psychology of curiosity: A review and reinterpretation.
  4. Ceraolo, R. et al. (2024). Analyzing human questioning behavior and causal curiosity through natural queries.

Résumé de l'Évaluation : Il s'agit d'une recherche pionnière qui explore systématiquement pour la première fois le problème de la curiosité transculturelle dans les LLMs. Le cadre CUEST est bien conçu, la configuration expérimentale est complète, et les résultats ont une importance théorique et pratique significative. Malgré certaines limitations concernant la couverture des données et la subjectivité de l'évaluation, cette recherche ouvre de nouvelles directions pour la recherche en TAL transculturel et possède une valeur académique et un potentiel d'application élevés.