2025-11-13T16:19:11.096230

The Curious Case of Curiosity across Human Cultures and LLMs

Borah, Mihalcea

Recent advances in Large Language Models (LLMs) have expanded their role in human interaction, yet curiosity -- a central driver of inquiry -- remains underexplored in these systems, particularly across cultural contexts. In this work, we investigate cultural variation in curiosity using Yahoo! Answers, a real-world multi-country dataset spanning diverse topics. We introduce CUEST (CUriosity Evaluation across SocieTies), an evaluation framework that measures human-model alignment in curiosity through linguistic (style), topic preference (content) analysis and grounding insights in social science constructs. Across open- and closed-source models, we find that LLMs flatten cross-cultural diversity, aligning more closely with how curiosity is expressed in Western countries. We then explore fine-tuning strategies to induce curiosity in LLMs, narrowing the human-model alignment gap by up to 50\%. Finally, we demonstrate the practical value of curiosity for LLM adaptability across cultures, showing its importance for future NLP research.

academic

El Curioso Caso de la Curiosidad entre Culturas Humanas y LLMs

Información Básica

ID del Artículo: 2510.12943
Título: The Curious Case of Curiosity across Human Cultures and LLMs
Autores: Angana Borah, Rada Mihalcea (Universidad de Michigan, Ann Arbor)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.12943v1

Resumen

Este artículo investiga la manifestación transcultural de la curiosidad en modelos de lenguaje grandes (LLMs). Los autores utilizan un conjunto de datos multinacional de Yahoo! Answers y proponen el marco de evaluación CUEST (CUriosity Evaluation across SocieTies), que mide la coherencia entre humanos y modelos en la expresión de curiosidad a través del estilo lingüístico, preferencias temáticas y teorías de ciencias sociales. El estudio revela que los LLMs uniformizan las diferencias transculturales, tendiendo hacia formas de expresión de curiosidad occidentales. Mediante estrategias de ajuste fino, los autores reducen la brecha de alineación humano-modelo en un 50% y demuestran el valor práctico de la curiosidad para la adaptabilidad transcultural de los LLMs.

Contexto de Investigación y Motivación

1. Problema Central

La curiosidad es un impulsor fundamental del aprendizaje y la exploración humana, manifestándose de formas diversas en diferentes culturas. Con la expansión del papel de los LLMs en la interacción humano-máquina, su capacidad para expresar curiosidad se convierte en un factor importante que afecta la experiencia del usuario. Sin embargo, la investigación existente se centra principalmente en la capacidad de respuesta de los LLMs, descuidando su capacidad para hacer preguntas y expresar curiosidad, especialmente en contextos transculturales.

2. Importancia del Problema

La curiosidad es un elemento clave en el aprendizaje cultural, la educación y la interacción humano-máquina
Existen diferencias significativas en las formas de expresión de curiosidad entre diferentes contextos culturales
Los LLMs necesitan poseer capacidad de expresión de curiosidad culturalmente sensible para proporcionar mejor experiencia al usuario

3. Limitaciones de Métodos Existentes

La investigación transcultural se centra principalmente en probar la capacidad de respuesta de conocimiento de los LLMs, descuidando la capacidad de hacer preguntas
Falta un marco sistemático de comparación de curiosidad humano-LLM
La investigación existente sobre curiosidad carece de consideraciones de detalle cultural

4. Motivación de la Investigación

Los autores plantean tres preguntas de investigación fundamentales:

¿Existen diferencias transculturales en las preguntas impulsadas por curiosidad en plataformas en línea, y pueden los LLMs reproducir estos patrones?
¿Cómo se puede inducir curiosidad en los LLMs?
¿Cuál es el significado práctico de la curiosidad culturalmente sensible para aplicaciones posteriores de los LLMs?

Contribuciones Principales

Propuesta del Marco de Evaluación CUEST: Un sistema de evaluación integral que combina análisis lingüístico, análisis de contenido y bases teóricas culturales
Construcción de Conjunto de Datos Transcultural de Curiosidad: Conjunto de datos de preguntas reales de 18 países y 16 temas basado en Yahoo! Answers
Exploración de Estrategias de Inducción de Curiosidad: Mejora de la capacidad de expresión de curiosidad culturalmente sensible de los LLMs mediante múltiples métodos de ajuste fino
Verificación de Valor Práctico: Demostración del efecto de mejora de la curiosidad en la adaptabilidad cultural de los LLMs en tres pruebas de referencia transculturales

Explicación Detallada de Métodos

Definición de Tareas

Esta investigación define dos tareas fundamentales:

Evaluación de Curiosidad Culturalmente Sensible: Comparación de formas de expresión de preguntas entre humanos y LLMs en diferentes contextos culturales
Inducción de Curiosidad: Entrenamiento de LLMs para poseer mejor capacidad de formulación de preguntas culturalmente sensible

Marco de Evaluación CUEST

1. Análisis de Alineación Lingüística (Linguistic Alignment)

Evaluación de cuatro dimensiones:

Ambigüedad (Ambiguity):

L(q) = 1/n (∑w∈W 1[w ∈ A] + ∑w∈W 1[|POS(w)| > 1])

Donde A es la lista de palabras polisémicas y POS(w) es el conjunto de etiquetas de categoría gramatical para la palabra w.

Dispositivos Retóricos (Rhetorical Devices):

RD = (R + Q + A + P + M)/n

Incluye palabras repetidas (R), preguntas retóricas (Q), aliteración (A), paralelismo (P) y marcadores analógicos (M).

Preguntas Abiertas (Open-Endedness):

Ω(u) = 1[starts_with_wh(q) = 1 ∧ NLI(q) ≠ entailment]

Puntuación de Coherencia (Cohesion Score):

COH(q) = 1/3 (Lx + min(1,Tx) + Sx)

Combina superposición léxica, palabras de transición y similitud semántica.

2. Alineación de Preferencias Temáticas (Topic Preference Alignment)

Utiliza coeficientes de correlación de Spearman y Kendall para comparar preferencias de ordenamiento temático entre humanos y LLMs.

Basada en cuatro marcos teóricos:

Dimensiones Culturales de Hofstede: Evitación de incertidumbre, individualismo-colectivismo, etc.
Teoría de Valores de Schwartz: Apertura vs. conservadurismo
Teoría de Contexto de Hall: Culturas de alto contexto vs. bajo contexto
Sistemas Educativos: Aprendizaje memorístico vs. aprendizaje holístico

Métodos de Inducción de Curiosidad

Estrategias de Ajuste Fino

Ajuste Fino Completo (Full Fine-tuning)
Ajuste Fino Basado en Adaptadores (Adapter-based Fine-tuning)

Objetivos de Entrenamiento

Obj1: Generación directa de preguntas específicas de cada país
Obj2: Generación de preguntas basada en contexto de diálogo

Aumento de Datos

Utiliza sustitución léxica, reordenamiento de palabras y otras técnicas para expandir datos de entrenamiento a 1000 muestras por país.

Configuración Experimental

Conjunto de Datos

Yahoo! Answers: 18 países, 16 temas, cubriendo Asia, Europa, América y Oceanía
Reddit: Preguntas de r/brazil, r/askuk, r/philippines
Datos Generados por LLM: Preguntas y preferencias temáticas generadas usando indicaciones de personajes culturales

Métricas de Evaluación

Alineación Lingüística: Distancia L2 para medir diferencias de puntuación entre humanos y modelos
Preferencias Temáticas: Coeficientes de correlación de Spearman y Kendall
Alineación de Ciencias Sociales: Error absoluto medio basado en dimensiones LIWC
Curiosidad Intrínseca: Tasa de curiosidad y puntuaciones de relevancia

Métodos de Comparación

Se probaron 6 modelos: GPT-4o, GPT-5, Claude-Sonnet-4, Qwen-3-14b, LLaMA-3-8b, LLaMA-3-70b

Detalles de Implementación

Uso de GPU NVIDIA A40
Adaptadores LoRA para ajuste fino eficiente
Longitud máxima de secuencia de 1024 tokens
Cada experimento ejecutado 3 veces y promediado

Resultados Experimentales

Hallazgos Principales

1. Patrones de Diferencias Transculturales

Desviación Estándar Humana > Desviación Estándar de LLM (0.0785 vs 0.029, F-stat: 7.33)
Los LLMs tienden a uniformizar diferencias transculturales
Los países occidentales muestran el mayor grado de alineación humano-modelo

2. Clasificación de Desempeño del Modelo

Alineación Lingüística: LLaMA-3-8b (0.25) > LLaMA-3-70b (0.27) > Claude-Sonnet-4 (0.28) = GPT-4o (0.28) > Qwen-3-14b (0.29) > GPT-5 (0.42)

Alineación de Preferencias Temáticas: Solo LLaMA-3-8b muestra correlación positiva (0.17), otros modelos muestran correlación negativa

3. Alineación de Teoría de Ciencias Sociales

Todos los modelos muestran mejor desempeño en países occidentales
LLaMA-3-8b está más cerca de los humanos en la mayoría de dimensiones teóricas
La teoría de contexto alto-bajo de Hall muestra la mayor divergencia

Resultados de Inducción de Curiosidad

Mejora de Curiosidad Culturalmente Sensible

Método de adaptadores > Ajuste fino completo > Método basado en indicaciones
Datos de entrenamiento de Reddit muestran mejor efecto
Objetivo de entrenamiento Obj2 superior a Obj1

Evaluación de Curiosidad Intrínseca

Modelo de Adaptadores: Formulan preguntas en el 75% de los casos
Modelo de Ajuste Fino Completo: Formulan preguntas en el 20% de los casos
Modelo Solo con Indicaciones: Tasa de preguntas del 0%
Relevancia se mantiene en 98-100%

Verificación de Tareas Posteriores

Condición	NormAD	CulturalBench	Cultural CS
Sin Curiosidad	70.48%	64.71%	48.48%
Curiosidad (Indicación)	72.09%	67.64%	49.64%
Curiosidad (Ajuste Fino + Indicación)	71.06%	68.21%	56.16%

La inducción de curiosidad muestra mejora de desempeño en todos los puntos de referencia de adaptabilidad cultural.

Trabajo Relacionado

Investigación Psicológica

Teoría de la Brecha de Información (Loewenstein, 1994)
Teoría Impulsada por Curiosidad (Berlyne, 1960)
Teoría de Activación Óptima (Hebb, 1955)

Campo de PNL

Corpus NatQuest (Ceraolo et al., 2024): Apertura y orientación causal de preguntas naturales
Investigación de Representación Cultural: Se centra principalmente en evaluación de sesgos y percepción cultural, pero carece de análisis de capacidad de formulación de preguntas

Investigación de LLMs Transculturales

El trabajo existente prueba principalmente la capacidad de respuesta de conocimiento, utilizando puntos de referencia de encuestas (como WVS, Pew Research). Este artículo es el primero en comparar sistemáticamente preguntas humano-LLM transculturales.

Conclusiones y Discusión

Conclusiones Principales

Los LLMs Uniformizan Diferencias Culturales: La salida del modelo se ajusta más a las normas occidentales, careciendo de diversidad cultural
Los Humanos Se Desvían de Estereotipos Tradicionales: La expresión real de curiosidad es más compleja que lo predicho por teorías tradicionales
El Ajuste Fino de Adaptadores es Efectivo: Muestra mejor desempeño en evaluación de curiosidad culturalmente sensible e intrínseca
La Curiosidad Mejora la Adaptabilidad Cultural: Verificada en múltiples pruebas de referencia

Limitaciones

Cobertura de Conjunto de Datos Limitada: 18 países y 16 temas, no pueden representar completamente el panorama cultural global
Restricción de Idioma: Uso principalmente de inglés, puede introducir sesgo WEIRD (Occidental, Educado, Industrializado, Rico, Democrático)
Limitaciones de Marco Teórico: Las teorías de Hofstede y otras pueden no capturar variaciones contemporáneas o subcultural
Subjetividad de Evaluación: La evaluación de curiosidad y relevancia implica juicio subjetivo

Direcciones Futuras

Investigación Transcultural de Curiosidad Multilingüe
Curiosidad Cultural en Sistemas Multiagente
Evolución Dinámica de Curiosidad en Diálogo Interactivo
Integración de Marcos Teóricos Culturales Más Diversos

Evaluación Profunda

Fortalezas

Fuerte Innovación: Primer trabajo que investiga sistemáticamente la curiosidad transcultural en LLMs
Metodología Integral: El marco CUEST combina tres dimensiones: lingüística, contenido y teoría
Experimentación Suficiente: Cubre múltiples modelos, diversas estrategias de ajuste fino y verificación posterior
Fundamento Teórico Sólido: Basado en marcos teóricos maduros de ciencias sociales
Alto Valor Práctico: Demuestra el efecto de mejora real de la curiosidad en la adaptabilidad cultural

Insuficiencias

Representación Cultural Inadecuada: 18 países difícilmente cubren la diversidad cultural global
Impacto de Calidad de Traducción: Google Translate puede perder detalles culturales
Estándares de Evaluación Subjetivos: Algunos indicadores dependen de juicio humano, con problemas de consistencia
Falta de Explicabilidad del Modelo: Análisis insuficiente de razones profundas del mejor desempeño de LLaMA-3-8b

Impacto

Contribución Académica: Proporciona nuevo paradigma de evaluación para investigación PNL transcultural
Valor Práctico: Proporciona orientación para construir sistemas de diálogo culturalmente sensibles
Reproducibilidad: Los autores se comprometen a abrir código y datos
Inspiración: Sienta las bases para futuras investigaciones de simulación cultural multiagente

Escenarios Aplicables

Sistemas de Diálogo Transculturales: Mejora la experiencia de usuarios multiculturales
Tecnología Educativa: Desarrollo de herramientas de apoyo al aprendizaje culturalmente sensibles
Productos Internacionalizados: Mejora la adaptabilidad de localización de productos de IA globalizados
Investigación en Ciencias Sociales: Proporciona herramientas computacionales para investigación en psicología cultural

Referencias

Berlyne, D. E. (1960). Conflict, arousal, and curiosity.
Hofstede, G. (2001). Culture's consequences: Comparing values, behaviors, institutions and organizations across nations.
Loewenstein, G. (1994). The psychology of curiosity: A review and reinterpretation.
Ceraolo, R. et al. (2024). Analyzing human questioning behavior and causal curiosity through natural queries.

Resumen de Evaluación: Esta es una investigación pionera que explora sistemáticamente por primera vez el problema de la curiosidad transcultural en LLMs. El marco CUEST está bien diseñado, la configuración experimental es integral y los resultados tienen significado teórico y práctico importante. Aunque existen limitaciones en cobertura de datos y subjetividad de evaluación, abre nuevas direcciones para investigación PNL transcultural, con considerable valor académico y potencial de aplicación.