2025-11-13T16:19:11.096230

The Curious Case of Curiosity across Human Cultures and LLMs

Borah, Mihalcea
Recent advances in Large Language Models (LLMs) have expanded their role in human interaction, yet curiosity -- a central driver of inquiry -- remains underexplored in these systems, particularly across cultural contexts. In this work, we investigate cultural variation in curiosity using Yahoo! Answers, a real-world multi-country dataset spanning diverse topics. We introduce CUEST (CUriosity Evaluation across SocieTies), an evaluation framework that measures human-model alignment in curiosity through linguistic (style), topic preference (content) analysis and grounding insights in social science constructs. Across open- and closed-source models, we find that LLMs flatten cross-cultural diversity, aligning more closely with how curiosity is expressed in Western countries. We then explore fine-tuning strategies to induce curiosity in LLMs, narrowing the human-model alignment gap by up to 50\%. Finally, we demonstrate the practical value of curiosity for LLM adaptability across cultures, showing its importance for future NLP research.
academic

Il Curioso Caso della Curiosità tra le Culture Umane e gli LLM

Informazioni Fondamentali

  • ID Articolo: 2510.12943
  • Titolo: The Curious Case of Curiosity across Human Cultures and LLMs
  • Autori: Angana Borah, Rada Mihalcea (University of Michigan, Ann Arbor)
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.12943v1

Riassunto

Questo articolo esamina la manifestazione transculturale della curiosità nei modelli linguistici di grandi dimensioni (LLM). Gli autori utilizzano un dataset multipaese di Yahoo! Answers e propongono il framework di valutazione CUEST (CUriosity Evaluation across SocieTies), misurando la coerenza tra umani e modelli nell'espressione della curiosità attraverso lo stile linguistico, le preferenze tematiche e le teorie delle scienze sociali. La ricerca rivela che gli LLM appiattiscono le differenze transculturali, tendendo verso modalità di espressione della curiosità occidentali. Attraverso strategie di fine-tuning, gli autori riducono il divario di allineamento umano-modello del 50% e dimostrano il valore pratico della curiosità per l'adattabilità transculturale degli LLM.

Contesto di Ricerca e Motivazione

1. Problema Centrale

La curiosità è una forza motrice fondamentale nell'apprendimento e nell'esplorazione umana, manifestandosi diversamente in culture differenti. Con l'espansione del ruolo degli LLM nell'interazione uomo-macchina, la loro capacità di esprimere curiosità diventa un fattore importante che influenza l'esperienza dell'utente. Tuttavia, la ricerca esistente si concentra principalmente sulla capacità di risposta degli LLM, trascurando la loro capacità di porre domande ed esprimere curiosità, in particolare in contesti transculturali.

2. Importanza del Problema

  • La curiosità è un elemento chiave nell'apprendimento culturale, nell'educazione e nell'interazione uomo-macchina
  • Esistono differenze significative nel modo in cui la curiosità viene espressa in diversi contesti culturali
  • Gli LLM necessitano di capacità di espressione della curiosità sensibile alla cultura per fornire un'esperienza utente migliore

3. Limitazioni dei Metodi Esistenti

  • La ricerca transculturale si concentra principalmente sul test della capacità di risposta alle domande degli LLM, trascurando la capacità di porre domande
  • Manca un framework sistematico di confronto della curiosità tra umani e LLM
  • La ricerca esistente sulla curiosità manca di considerazioni culturali dettagliate

4. Motivazione della Ricerca

Gli autori propongono tre domande di ricerca fondamentali:

  1. Esistono differenze transculturali nelle domande motivate dalla curiosità su piattaforme online e gli LLM possono riprodurre questi modelli?
  2. Come indurre curiosità negli LLM?
  3. Quale significato pratico ha la curiosità sensibile alla cultura per le applicazioni downstream degli LLM?

Contributi Principali

  1. Proposta del Framework CUEST: Un sistema di valutazione completo che combina analisi linguistica, analisi dei contenuti e fondamenti teorici culturali
  2. Costruzione di un Dataset Transculturale sulla Curiosità: Dataset di domande reali da 18 paesi e 16 argomenti basato su Yahoo! Answers
  3. Esplorazione di Strategie di Induzione della Curiosità: Miglioramento della capacità di espressione della curiosità sensibile alla cultura negli LLM attraverso vari metodi di fine-tuning
  4. Verifica del Valore Pratico: Dimostrazione del ruolo della curiosità nel migliorare l'adattabilità culturale degli LLM su tre benchmark transculturali

Dettagli Metodologici

Definizione del Compito

Questa ricerca definisce due compiti fondamentali:

  1. Valutazione della Curiosità Sensibile alla Cultura: Confronto tra umani e LLM nei modi di esprimere domande in diversi contesti culturali
  2. Induzione della Curiosità: Addestramento degli LLM per sviluppare migliori capacità di porre domande sensibili alla cultura

Framework di Valutazione CUEST

1. Analisi dell'Allineamento Linguistico (Linguistic Alignment)

Valutazione di quattro dimensioni:

Ambiguità (Ambiguity):

L(q) = 1/n (∑w∈W 1[w ∈ A] + ∑w∈W 1[|POS(w)| > 1])

dove A è l'elenco di parole polisemiche e POS(w) è l'insieme di etichette di parte del discorso per la parola w.

Dispositivi Retorici (Rhetorical Devices):

RD = (R + Q + A + P + M)/n

Include ripetizione di parole (R), domande retoriche (Q), allitterazione (A), parallelismo (P) e marcatori di analogia (M).

Apertura della Domanda (Open-Endedness):

Ω(u) = 1[starts_with_wh(q) = 1 ∧ NLI(q) ≠ entailment]

Punteggio di Coesione (Cohesion Score):

COH(q) = 1/3 (Lx + min(1,Tx) + Sx)

Combina sovrapposizione lessicale, parole di transizione e somiglianza semantica.

2. Allineamento delle Preferenze Tematiche (Topic Preference Alignment)

Utilizzo dei coefficienti di correlazione di Spearman e Kendall per confrontare le preferenze di ordinamento tematico tra umani e LLM.

3. Fondamenti delle Scienze Sociali (Social Science Grounding)

Basato su quattro framework teorici:

  • Dimensioni Culturali di Hofstede: Evitamento dell'incertezza, individualismo-collettivismo, ecc.
  • Teoria dei Valori di Schwartz: Apertura vs. conservatorismo
  • Teoria del Contesto di Hall: Culture ad alto contesto vs. basso contesto
  • Sistemi Educativi: Apprendimento mnemonico vs. apprendimento olistico

Metodi di Induzione della Curiosità

Strategie di Fine-tuning

  1. Fine-tuning Completo (Full Fine-tuning)
  2. Fine-tuning Basato su Adattatore (Adapter-based Fine-tuning)

Obiettivi di Addestramento

  • Obj1: Generazione diretta di domande specifiche per paese
  • Obj2: Generazione di domande basata sul contesto conversazionale

Aumento dei Dati

Utilizzo di sostituzione lessicale e inversione dell'ordine delle parole per espandere i dati di addestramento a 1000 campioni per paese.

Configurazione Sperimentale

Dataset

  1. Yahoo! Answers: 18 paesi, 16 argomenti, coprendo Asia, Europa, America e Oceania
  2. Reddit: Domande da r/brazil, r/askuk, r/philippines
  3. Dati Generati da LLM: Domande e preferenze tematiche generate utilizzando prompt con persona culturale

Metriche di Valutazione

  • Allineamento Linguistico: Distanza L2 per misurare la differenza tra i punteggi umani e del modello
  • Preferenze Tematiche: Coefficienti di correlazione di Spearman e Kendall
  • Allineamento delle Scienze Sociali: Errore assoluto medio basato su dimensioni LIWC
  • Curiosità Intrinseca: Tasso di curiosità e punteggi di rilevanza

Metodi di Confronto

Test di 6 modelli: GPT-4o, GPT-5, Claude-Sonnet-4, Qwen-3-14b, LLaMA-3-8b, LLaMA-3-70b

Dettagli di Implementazione

  • Utilizzo di GPU NVIDIA A40
  • Fine-tuning efficiente con adattatori LoRA
  • Lunghezza massima della sequenza: 1024 token
  • Ogni esperimento eseguito 3 volte con media dei risultati

Risultati Sperimentali

Scoperte Principali

1. Modelli di Differenze Transculturali

  • Deviazione Standard Umana > Deviazione Standard LLM (0.0785 vs 0.029, F-stat: 7.33)
  • Gli LLM tendono ad appiattire le differenze transculturali
  • I paesi occidentali mostrano il più alto allineamento umano-modello

2. Ranking delle Prestazioni del Modello

Allineamento Linguistico: LLaMA-3-8b (0.25) > LLaMA-3-70b (0.27) > Claude-Sonnet-4 (0.28) = GPT-4o (0.28) > Qwen-3-14b (0.29) > GPT-5 (0.42)

Allineamento delle Preferenze Tematiche: Solo LLaMA-3-8b mostra correlazione positiva (0.17), tutti gli altri modelli mostrano correlazione negativa

3. Allineamento della Teoria delle Scienze Sociali

  • Tutti i modelli mostrano prestazioni migliori nei paesi occidentali
  • LLaMA-3-8b è il più vicino agli umani nella maggior parte delle dimensioni teoriche
  • La teoria del contesto alto-basso di Hall mostra il maggiore disaccordo

Risultati dell'Induzione della Curiosità

Miglioramento della Curiosità Sensibile alla Cultura

  • Metodo adattatore > Fine-tuning completo > Metodo basato su prompt
  • I dati di addestramento da Reddit mostrano i migliori risultati
  • L'obiettivo di addestramento Obj2 supera Obj1

Valutazione della Curiosità Intrinseca

  • Modello Adattatore: Pone domande nel 75% dei casi
  • Modello Fine-tuning Completo: Pone domande nel 20% dei casi
  • Modello Solo Prompt: Tasso di domande 0%
  • La rilevanza rimane al 98-100%

Verifica dei Compiti Downstream

CondizioneNormADCulturalBenchCultural CS
Non Curioso70.48%64.71%48.48%
Curioso (Prompt)72.09%67.64%49.64%
Curioso (Fine-tuning + Prompt)71.06%68.21%56.16%

L'induzione della curiosità mostra miglioramenti delle prestazioni su tutti i benchmark di adattabilità culturale.

Lavori Correlati

Ricerca Psicologica

  • Teoria del Divario Informativo (Loewenstein, 1994)
  • Teoria della Curiosità Motivata (Berlyne, 1960)
  • Teoria dell'Eccitazione Ottimale (Hebb, 1955)

Campo NLP

  • Corpus NatQuest (Ceraolo et al., 2024): Apertura e orientamento causale delle domande naturali
  • Ricerca sulla Rappresentazione Culturale: Si concentra principalmente su pregiudizi e valutazione della percezione culturale, ma manca l'analisi della capacità di porre domande

Ricerca LLM Transculturale

I lavori esistenti testano principalmente la capacità di risposta alle domande, utilizzando benchmark di indagine (come WVS, Pew Research). Questo articolo è il primo a confrontare sistematicamente le domande umane-LLM transculturali.

Conclusioni e Discussione

Conclusioni Principali

  1. Gli LLM Appiattiscono le Differenze Culturali: L'output del modello è più conforme alle norme occidentali, mancando di diversità culturale
  2. Gli Umani Si Discostano dagli Stereotipi Tradizionali: L'espressione reale della curiosità è più complessa di quanto previsto dalla teoria tradizionale
  3. Il Fine-tuning dell'Adattatore è Efficace: Mostra le migliori prestazioni nella valutazione della curiosità sensibile alla cultura e intrinseca
  4. La Curiosità Migliora l'Adattabilità Culturale: Verificata su più benchmark con valore pratico

Limitazioni

  1. Copertura del Dataset Limitata: 18 paesi e 16 argomenti non possono rappresentare completamente il panorama culturale globale
  2. Limitazioni Linguistiche: Utilizzo principalmente dell'inglese, potrebbe introdurre pregiudizi WEIRD (Occidentale, Istruito, Industrializzato, Ricco, Democratico)
  3. Limitazioni del Framework Teorico: Le teorie di Hofstede potrebbero non catturare variazioni contemporanee o sottoculturali
  4. Soggettività della Valutazione: La valutazione della curiosità e della rilevanza comporta giudizi soggettivi

Direzioni Future

  1. Ricerca Transculturale sulla Curiosità Multilingue
  2. Curiosità Culturale nei Sistemi Multi-Agente
  3. Evoluzione Dinamica della Curiosità nel Dialogo Interattivo
  4. Integrazione di Framework Teorici Culturali più Diversificati

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo studio sistematico della curiosità transculturale negli LLM
  2. Metodologia Completa: Il framework CUEST combina tre dimensioni: linguistica, contenuto e teoria
  3. Sperimentazione Esaustiva: Copre più modelli, varie strategie di fine-tuning e verifica downstream
  4. Fondamenti Teorici Solidi: Basato su framework teorici consolidati delle scienze sociali
  5. Alto Valore Pratico: Dimostra il miglioramento effettivo della curiosità sull'adattabilità culturale

Insufficienze

  1. Rappresentatività Culturale Inadeguata: 18 paesi difficilmente coprono la diversità culturale globale
  2. Impatto della Qualità della Traduzione: Google Translate potrebbe perdere dettagli culturali
  3. Soggettività degli Standard di Valutazione: Alcuni indicatori dipendono dal giudizio umano con possibili problemi di coerenza
  4. Mancanza di Interpretabilità del Modello: Analisi insufficiente delle ragioni profonde delle migliori prestazioni di LLaMA-3-8b

Impatto

  1. Contributo Accademico: Fornisce un nuovo paradigma di valutazione per la ricerca NLP transculturale
  2. Valore Pratico: Fornisce indicazioni per la costruzione di sistemi di dialogo sensibili alla cultura
  3. Riproducibilità: Gli autori si impegnano a rendere open-source il codice e i dati
  4. Natura Ispirativa: Pone le basi per future ricerche sulla simulazione culturale multi-agente

Scenari Applicabili

  1. Sistemi di Dialogo Transculturali: Miglioramento dell'esperienza utente multiculturale
  2. Tecnologia Educativa: Sviluppo di strumenti di supporto all'apprendimento sensibili alla cultura
  3. Prodotti Internazionali: Miglioramento dell'adattabilità di localizzazione dei prodotti AI globalizzati
  4. Ricerca nelle Scienze Sociali: Fornitura di strumenti computazionali per la ricerca in psicologia culturale

Bibliografia

  1. Berlyne, D. E. (1960). Conflict, arousal, and curiosity.
  2. Hofstede, G. (2001). Culture's consequences: Comparing values, behaviors, institutions and organizations across nations.
  3. Loewenstein, G. (1994). The psychology of curiosity: A review and reinterpretation.
  4. Ceraolo, R. et al. (2024). Analyzing human questioning behavior and causal curiosity through natural queries.

Sintesi della Valutazione: Questo è uno studio pioneristico che esplora sistematicamente per la prima volta il problema della curiosità transculturale negli LLM. Il framework CUEST è ben progettato, la configurazione sperimentale è completa e i risultati hanno un significato teorico e pratico importante. Nonostante le limitazioni nella copertura dei dati e nella soggettività della valutazione, apre nuove direzioni per la ricerca NLP transculturale e possiede un elevato valore accademico e potenziale applicativo.