2025-11-13T16:19:11.096230

The Curious Case of Curiosity across Human Cultures and LLMs

Borah, Mihalcea
Recent advances in Large Language Models (LLMs) have expanded their role in human interaction, yet curiosity -- a central driver of inquiry -- remains underexplored in these systems, particularly across cultural contexts. In this work, we investigate cultural variation in curiosity using Yahoo! Answers, a real-world multi-country dataset spanning diverse topics. We introduce CUEST (CUriosity Evaluation across SocieTies), an evaluation framework that measures human-model alignment in curiosity through linguistic (style), topic preference (content) analysis and grounding insights in social science constructs. Across open- and closed-source models, we find that LLMs flatten cross-cultural diversity, aligning more closely with how curiosity is expressed in Western countries. We then explore fine-tuning strategies to induce curiosity in LLMs, narrowing the human-model alignment gap by up to 50\%. Finally, we demonstrate the practical value of curiosity for LLM adaptability across cultures, showing its importance for future NLP research.
academic

El Curioso Caso de la Curiosidad entre Culturas Humanas y LLMs

Información Básica

  • ID del Artículo: 2510.12943
  • Título: The Curious Case of Curiosity across Human Cultures and LLMs
  • Autores: Angana Borah, Rada Mihalcea (Universidad de Michigan, Ann Arbor)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.12943v1

Resumen

Este artículo investiga la manifestación transcultural de la curiosidad en modelos de lenguaje grandes (LLMs). Los autores utilizan un conjunto de datos multinacional de Yahoo! Answers y proponen el marco de evaluación CUEST (CUriosity Evaluation across SocieTies), que mide la coherencia entre humanos y modelos en la expresión de curiosidad a través del estilo lingüístico, preferencias temáticas y teorías de ciencias sociales. El estudio revela que los LLMs uniformizan las diferencias transculturales, tendiendo hacia formas de expresión de curiosidad occidentales. Mediante estrategias de ajuste fino, los autores reducen la brecha de alineación humano-modelo en un 50% y demuestran el valor práctico de la curiosidad para la adaptabilidad transcultural de los LLMs.

Contexto de Investigación y Motivación

1. Problema Central

La curiosidad es un impulsor fundamental del aprendizaje y la exploración humana, manifestándose de formas diversas en diferentes culturas. Con la expansión del papel de los LLMs en la interacción humano-máquina, su capacidad para expresar curiosidad se convierte en un factor importante que afecta la experiencia del usuario. Sin embargo, la investigación existente se centra principalmente en la capacidad de respuesta de los LLMs, descuidando su capacidad para hacer preguntas y expresar curiosidad, especialmente en contextos transculturales.

2. Importancia del Problema

  • La curiosidad es un elemento clave en el aprendizaje cultural, la educación y la interacción humano-máquina
  • Existen diferencias significativas en las formas de expresión de curiosidad entre diferentes contextos culturales
  • Los LLMs necesitan poseer capacidad de expresión de curiosidad culturalmente sensible para proporcionar mejor experiencia al usuario

3. Limitaciones de Métodos Existentes

  • La investigación transcultural se centra principalmente en probar la capacidad de respuesta de conocimiento de los LLMs, descuidando la capacidad de hacer preguntas
  • Falta un marco sistemático de comparación de curiosidad humano-LLM
  • La investigación existente sobre curiosidad carece de consideraciones de detalle cultural

4. Motivación de la Investigación

Los autores plantean tres preguntas de investigación fundamentales:

  1. ¿Existen diferencias transculturales en las preguntas impulsadas por curiosidad en plataformas en línea, y pueden los LLMs reproducir estos patrones?
  2. ¿Cómo se puede inducir curiosidad en los LLMs?
  3. ¿Cuál es el significado práctico de la curiosidad culturalmente sensible para aplicaciones posteriores de los LLMs?

Contribuciones Principales

  1. Propuesta del Marco de Evaluación CUEST: Un sistema de evaluación integral que combina análisis lingüístico, análisis de contenido y bases teóricas culturales
  2. Construcción de Conjunto de Datos Transcultural de Curiosidad: Conjunto de datos de preguntas reales de 18 países y 16 temas basado en Yahoo! Answers
  3. Exploración de Estrategias de Inducción de Curiosidad: Mejora de la capacidad de expresión de curiosidad culturalmente sensible de los LLMs mediante múltiples métodos de ajuste fino
  4. Verificación de Valor Práctico: Demostración del efecto de mejora de la curiosidad en la adaptabilidad cultural de los LLMs en tres pruebas de referencia transculturales

Explicación Detallada de Métodos

Definición de Tareas

Esta investigación define dos tareas fundamentales:

  1. Evaluación de Curiosidad Culturalmente Sensible: Comparación de formas de expresión de preguntas entre humanos y LLMs en diferentes contextos culturales
  2. Inducción de Curiosidad: Entrenamiento de LLMs para poseer mejor capacidad de formulación de preguntas culturalmente sensible

Marco de Evaluación CUEST

1. Análisis de Alineación Lingüística (Linguistic Alignment)

Evaluación de cuatro dimensiones:

Ambigüedad (Ambiguity):

L(q) = 1/n (∑w∈W 1[w ∈ A] + ∑w∈W 1[|POS(w)| > 1])

Donde A es la lista de palabras polisémicas y POS(w) es el conjunto de etiquetas de categoría gramatical para la palabra w.

Dispositivos Retóricos (Rhetorical Devices):

RD = (R + Q + A + P + M)/n

Incluye palabras repetidas (R), preguntas retóricas (Q), aliteración (A), paralelismo (P) y marcadores analógicos (M).

Preguntas Abiertas (Open-Endedness):

Ω(u) = 1[starts_with_wh(q) = 1 ∧ NLI(q) ≠ entailment]

Puntuación de Coherencia (Cohesion Score):

COH(q) = 1/3 (Lx + min(1,Tx) + Sx)

Combina superposición léxica, palabras de transición y similitud semántica.

2. Alineación de Preferencias Temáticas (Topic Preference Alignment)

Utiliza coeficientes de correlación de Spearman y Kendall para comparar preferencias de ordenamiento temático entre humanos y LLMs.

3. Fundamentación en Teoría de Ciencias Sociales (Social Science Grounding)

Basada en cuatro marcos teóricos:

  • Dimensiones Culturales de Hofstede: Evitación de incertidumbre, individualismo-colectivismo, etc.
  • Teoría de Valores de Schwartz: Apertura vs. conservadurismo
  • Teoría de Contexto de Hall: Culturas de alto contexto vs. bajo contexto
  • Sistemas Educativos: Aprendizaje memorístico vs. aprendizaje holístico

Métodos de Inducción de Curiosidad

Estrategias de Ajuste Fino

  1. Ajuste Fino Completo (Full Fine-tuning)
  2. Ajuste Fino Basado en Adaptadores (Adapter-based Fine-tuning)

Objetivos de Entrenamiento

  • Obj1: Generación directa de preguntas específicas de cada país
  • Obj2: Generación de preguntas basada en contexto de diálogo

Aumento de Datos

Utiliza sustitución léxica, reordenamiento de palabras y otras técnicas para expandir datos de entrenamiento a 1000 muestras por país.

Configuración Experimental

Conjunto de Datos

  1. Yahoo! Answers: 18 países, 16 temas, cubriendo Asia, Europa, América y Oceanía
  2. Reddit: Preguntas de r/brazil, r/askuk, r/philippines
  3. Datos Generados por LLM: Preguntas y preferencias temáticas generadas usando indicaciones de personajes culturales

Métricas de Evaluación

  • Alineación Lingüística: Distancia L2 para medir diferencias de puntuación entre humanos y modelos
  • Preferencias Temáticas: Coeficientes de correlación de Spearman y Kendall
  • Alineación de Ciencias Sociales: Error absoluto medio basado en dimensiones LIWC
  • Curiosidad Intrínseca: Tasa de curiosidad y puntuaciones de relevancia

Métodos de Comparación

Se probaron 6 modelos: GPT-4o, GPT-5, Claude-Sonnet-4, Qwen-3-14b, LLaMA-3-8b, LLaMA-3-70b

Detalles de Implementación

  • Uso de GPU NVIDIA A40
  • Adaptadores LoRA para ajuste fino eficiente
  • Longitud máxima de secuencia de 1024 tokens
  • Cada experimento ejecutado 3 veces y promediado

Resultados Experimentales

Hallazgos Principales

1. Patrones de Diferencias Transculturales

  • Desviación Estándar Humana > Desviación Estándar de LLM (0.0785 vs 0.029, F-stat: 7.33)
  • Los LLMs tienden a uniformizar diferencias transculturales
  • Los países occidentales muestran el mayor grado de alineación humano-modelo

2. Clasificación de Desempeño del Modelo

Alineación Lingüística: LLaMA-3-8b (0.25) > LLaMA-3-70b (0.27) > Claude-Sonnet-4 (0.28) = GPT-4o (0.28) > Qwen-3-14b (0.29) > GPT-5 (0.42)

Alineación de Preferencias Temáticas: Solo LLaMA-3-8b muestra correlación positiva (0.17), otros modelos muestran correlación negativa

3. Alineación de Teoría de Ciencias Sociales

  • Todos los modelos muestran mejor desempeño en países occidentales
  • LLaMA-3-8b está más cerca de los humanos en la mayoría de dimensiones teóricas
  • La teoría de contexto alto-bajo de Hall muestra la mayor divergencia

Resultados de Inducción de Curiosidad

Mejora de Curiosidad Culturalmente Sensible

  • Método de adaptadores > Ajuste fino completo > Método basado en indicaciones
  • Datos de entrenamiento de Reddit muestran mejor efecto
  • Objetivo de entrenamiento Obj2 superior a Obj1

Evaluación de Curiosidad Intrínseca

  • Modelo de Adaptadores: Formulan preguntas en el 75% de los casos
  • Modelo de Ajuste Fino Completo: Formulan preguntas en el 20% de los casos
  • Modelo Solo con Indicaciones: Tasa de preguntas del 0%
  • Relevancia se mantiene en 98-100%

Verificación de Tareas Posteriores

CondiciónNormADCulturalBenchCultural CS
Sin Curiosidad70.48%64.71%48.48%
Curiosidad (Indicación)72.09%67.64%49.64%
Curiosidad (Ajuste Fino + Indicación)71.06%68.21%56.16%

La inducción de curiosidad muestra mejora de desempeño en todos los puntos de referencia de adaptabilidad cultural.

Trabajo Relacionado

Investigación Psicológica

  • Teoría de la Brecha de Información (Loewenstein, 1994)
  • Teoría Impulsada por Curiosidad (Berlyne, 1960)
  • Teoría de Activación Óptima (Hebb, 1955)

Campo de PNL

  • Corpus NatQuest (Ceraolo et al., 2024): Apertura y orientación causal de preguntas naturales
  • Investigación de Representación Cultural: Se centra principalmente en evaluación de sesgos y percepción cultural, pero carece de análisis de capacidad de formulación de preguntas

Investigación de LLMs Transculturales

El trabajo existente prueba principalmente la capacidad de respuesta de conocimiento, utilizando puntos de referencia de encuestas (como WVS, Pew Research). Este artículo es el primero en comparar sistemáticamente preguntas humano-LLM transculturales.

Conclusiones y Discusión

Conclusiones Principales

  1. Los LLMs Uniformizan Diferencias Culturales: La salida del modelo se ajusta más a las normas occidentales, careciendo de diversidad cultural
  2. Los Humanos Se Desvían de Estereotipos Tradicionales: La expresión real de curiosidad es más compleja que lo predicho por teorías tradicionales
  3. El Ajuste Fino de Adaptadores es Efectivo: Muestra mejor desempeño en evaluación de curiosidad culturalmente sensible e intrínseca
  4. La Curiosidad Mejora la Adaptabilidad Cultural: Verificada en múltiples pruebas de referencia

Limitaciones

  1. Cobertura de Conjunto de Datos Limitada: 18 países y 16 temas, no pueden representar completamente el panorama cultural global
  2. Restricción de Idioma: Uso principalmente de inglés, puede introducir sesgo WEIRD (Occidental, Educado, Industrializado, Rico, Democrático)
  3. Limitaciones de Marco Teórico: Las teorías de Hofstede y otras pueden no capturar variaciones contemporáneas o subcultural
  4. Subjetividad de Evaluación: La evaluación de curiosidad y relevancia implica juicio subjetivo

Direcciones Futuras

  1. Investigación Transcultural de Curiosidad Multilingüe
  2. Curiosidad Cultural en Sistemas Multiagente
  3. Evolución Dinámica de Curiosidad en Diálogo Interactivo
  4. Integración de Marcos Teóricos Culturales Más Diversos

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación: Primer trabajo que investiga sistemáticamente la curiosidad transcultural en LLMs
  2. Metodología Integral: El marco CUEST combina tres dimensiones: lingüística, contenido y teoría
  3. Experimentación Suficiente: Cubre múltiples modelos, diversas estrategias de ajuste fino y verificación posterior
  4. Fundamento Teórico Sólido: Basado en marcos teóricos maduros de ciencias sociales
  5. Alto Valor Práctico: Demuestra el efecto de mejora real de la curiosidad en la adaptabilidad cultural

Insuficiencias

  1. Representación Cultural Inadecuada: 18 países difícilmente cubren la diversidad cultural global
  2. Impacto de Calidad de Traducción: Google Translate puede perder detalles culturales
  3. Estándares de Evaluación Subjetivos: Algunos indicadores dependen de juicio humano, con problemas de consistencia
  4. Falta de Explicabilidad del Modelo: Análisis insuficiente de razones profundas del mejor desempeño de LLaMA-3-8b

Impacto

  1. Contribución Académica: Proporciona nuevo paradigma de evaluación para investigación PNL transcultural
  2. Valor Práctico: Proporciona orientación para construir sistemas de diálogo culturalmente sensibles
  3. Reproducibilidad: Los autores se comprometen a abrir código y datos
  4. Inspiración: Sienta las bases para futuras investigaciones de simulación cultural multiagente

Escenarios Aplicables

  1. Sistemas de Diálogo Transculturales: Mejora la experiencia de usuarios multiculturales
  2. Tecnología Educativa: Desarrollo de herramientas de apoyo al aprendizaje culturalmente sensibles
  3. Productos Internacionalizados: Mejora la adaptabilidad de localización de productos de IA globalizados
  4. Investigación en Ciencias Sociales: Proporciona herramientas computacionales para investigación en psicología cultural

Referencias

  1. Berlyne, D. E. (1960). Conflict, arousal, and curiosity.
  2. Hofstede, G. (2001). Culture's consequences: Comparing values, behaviors, institutions and organizations across nations.
  3. Loewenstein, G. (1994). The psychology of curiosity: A review and reinterpretation.
  4. Ceraolo, R. et al. (2024). Analyzing human questioning behavior and causal curiosity through natural queries.

Resumen de Evaluación: Esta es una investigación pionera que explora sistemáticamente por primera vez el problema de la curiosidad transcultural en LLMs. El marco CUEST está bien diseñado, la configuración experimental es integral y los resultados tienen significado teórico y práctico importante. Aunque existen limitaciones en cobertura de datos y subjetividad de evaluación, abre nuevas direcciones para investigación PNL transcultural, con considerable valor académico y potencial de aplicación.