2025-11-13T16:19:11.096230

The Curious Case of Curiosity across Human Cultures and LLMs

Borah, Mihalcea
Recent advances in Large Language Models (LLMs) have expanded their role in human interaction, yet curiosity -- a central driver of inquiry -- remains underexplored in these systems, particularly across cultural contexts. In this work, we investigate cultural variation in curiosity using Yahoo! Answers, a real-world multi-country dataset spanning diverse topics. We introduce CUEST (CUriosity Evaluation across SocieTies), an evaluation framework that measures human-model alignment in curiosity through linguistic (style), topic preference (content) analysis and grounding insights in social science constructs. Across open- and closed-source models, we find that LLMs flatten cross-cultural diversity, aligning more closely with how curiosity is expressed in Western countries. We then explore fine-tuning strategies to induce curiosity in LLMs, narrowing the human-model alignment gap by up to 50\%. Finally, we demonstrate the practical value of curiosity for LLM adaptability across cultures, showing its importance for future NLP research.
academic

Der merkwürdige Fall der Neugier über menschliche Kulturen und LLMs hinweg

Grundinformationen

  • Paper-ID: 2510.12943
  • Titel: The Curious Case of Curiosity across Human Cultures and LLMs
  • Autoren: Angana Borah, Rada Mihalcea (University of Michigan, Ann Arbor)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.12943v1

Zusammenfassung

Dieses Paper untersucht die kulturübergreifende Manifestation von Neugier in großen Sprachmodellen (LLMs). Die Autoren verwenden einen multinationalen Datensatz von Yahoo! Answers und schlagen das CUEST-Framework (CUriosity Evaluation across SocieTies) vor, um die Konsistenz zwischen Menschen und Modellen in der Neugierausdrucksweise durch Sprachstil, Themenpräferenzen und sozialwissenschaftliche Theorien zu messen. Die Forschung zeigt, dass LLMs kulturelle Unterschiede nivellieren und eher westliche Ausdrucksformen von Neugier bevorzugen. Durch Feinabstimmungsstrategien reduzieren die Autoren die Mensch-Modell-Ausrichtungslücke um 50% und demonstrieren den praktischen Wert von Neugier für die kulturübergreifende Anpassung von LLMs.

Forschungshintergrund und Motivation

1. Kernproblem

Neugier ist eine zentrale Triebkraft für menschliches Lernen und Erkunden und manifestiert sich in verschiedenen Kulturen unterschiedlich. Mit der wachsenden Rolle von LLMs in der Mensch-Maschine-Interaktion wird die Fähigkeit zur Neugierausdrucksweise zu einem wichtigen Faktor für die Benutzerexperience. Allerdings konzentriert sich die bestehende Forschung hauptsächlich auf die Antwortkompetenz von LLMs und vernachlässigt deren Fähigkeit zum Fragen stellen und zur Neugierausdrucksweise, besonders im kulturübergreifenden Kontext.

2. Bedeutung des Problems

  • Neugier ist ein Schlüsselelement für kulturelles Lernen, Bildung und Mensch-Maschine-Interaktion
  • Die Ausdrucksformen von Neugier unterscheiden sich erheblich zwischen verschiedenen Kulturen
  • LLMs benötigen kulturell sensible Neugierausdrucksfähigkeiten für bessere Benutzerexperience

3. Limitierungen bestehender Methoden

  • Kulturübergreifende Forschung testet hauptsächlich die Wissensantwortkompetenz von LLMs und vernachlässigt die Fragestellungskompetenz
  • Es fehlt ein systematisches Vergleichsframework für Mensch-LLM-Neugier
  • Bestehende Neugierforschung berücksichtigt kulturelle Nuancen unzureichend

4. Forschungsmotivation

Die Autoren stellen drei zentrale Forschungsfragen:

  1. Gibt es kulturübergreifende Unterschiede bei neugiergetriebenen Fragen auf Online-Plattformen, und können LLMs diese Muster reproduzieren?
  2. Wie kann man Neugier in LLMs induzieren?
  3. Welchen praktischen Wert hat kulturell sensible Neugier für nachgelagerte Anwendungen von LLMs?

Kernbeiträge

  1. Vorschlag des CUEST-Evaluierungsframeworks: Ein umfassendes Evaluierungssystem, das Sprachanalyse, Inhaltsanalyse und kulturtheoretische Grundlagen kombiniert
  2. Konstruktion eines kulturübergreifenden Neugier-Datensatzes: Ein Datensatz echter Fragen aus 18 Ländern zu 16 Themen basierend auf Yahoo! Answers
  3. Erforschung von Neugier-Induktionsstrategien: Verbesserung der kulturell sensiblen Neugierausdrucksfähigkeit von LLMs durch verschiedene Feinabstimmungsmethoden
  4. Validierung des praktischen Wertes: Nachweis der Verbesserung der kulturellen Anpassungsfähigkeit von LLMs durch Neugier in drei kulturübergreifenden Benchmarks

Methodische Details

Aufgabendefinition

Diese Forschung definiert zwei zentrale Aufgaben:

  1. Kulturell sensible Neugier-Evaluierung: Vergleich der Frageausdrucksweisen zwischen Menschen und LLMs in verschiedenen kulturellen Kontexten
  2. Neugier-Induktion: Verbesserung der kulturell sensiblen Fragestellungsfähigkeit von LLMs durch Training

CUEST-Evaluierungsframework

1. Linguistische Ausrichtungsanalyse (Linguistic Alignment)

Evaluierung von vier Dimensionen:

Mehrdeutigkeit (Ambiguity):

L(q) = 1/n (∑w∈W 1[w ∈ A] + ∑w∈W 1[|POS(w)| > 1])

wobei A eine Liste polysemer Wörter ist und POS(w) die Wortartenmarkierungsmenge für Wort w ist.

Rhetorische Mittel (Rhetorical Devices):

RD = (R + Q + A + P + M)/n

einschließlich Wortwiederholungen (R), rhetorische Fragen (Q), Alliteration (A), Parallelismus (P) und Analogiemarker (M).

Offenheit (Open-Endedness):

Ω(u) = 1[starts_with_wh(q) = 1 ∧ NLI(q) ≠ entailment]

Kohäsionswert (Cohesion Score):

COH(q) = 1/3 (Lx + min(1,Tx) + Sx)

kombiniert lexikalische Überlappung, Übergangswörter und semantische Ähnlichkeit.

2. Themenpräferenz-Ausrichtung (Topic Preference Alignment)

Verwendung von Spearman- und Kendall-Korrelationskoeffizienten zum Vergleich der Themenpräferenzordnung zwischen Menschen und LLMs.

3. Sozialwissenschaftliche Theoretische Grundlagen (Social Science Grounding)

Basierend auf vier theoretischen Rahmenwerken:

  • Hofstedes Kulturdimensionen: Unsicherheitsvermeidung, Individualismus-Kollektivismus usw.
  • Schwartz-Wertetheorie: Offenheit vs. Konservativismus
  • Halls Kontexttheorie: Hochkontext- vs. Niedrigkontextkulturen
  • Bildungssysteme: Auswendiglernen vs. ganzheitliches Lernen

Neugier-Induktionsmethoden

Feinabstimmungsstrategien

  1. Vollständige Feinabstimmung (Full Fine-tuning)
  2. Adapter-basierte Feinabstimmung (Adapter-based Fine-tuning)

Trainingsziele

  • Obj1: Direkte Generierung von Fragen für spezifische Länder
  • Obj2: Fragengenerierung basierend auf Dialogkontext

Datenerweiterung

Verwendung von Lexikaustausch und Wortordnungsvertauschung zur Erweiterung der Trainingsdaten auf 1000 Samples pro Land.

Experimentelle Einrichtung

Datensätze

  1. Yahoo! Answers: 18 Länder, 16 Themen, abdeckend Asien, Europa, Amerika und Ozeanien
  2. Reddit: Fragen aus r/brazil, r/askuk, r/philippines
  3. LLM-generierte Daten: Fragen und Themenpräferenzen, die mit kulturellen Persona-Prompts generiert wurden

Evaluierungsmetriken

  • Linguistische Ausrichtung: L2-Distanz zur Messung der Differenz zwischen Menschen- und Modellwerten
  • Themenpräferenz: Spearman- und Kendall-Korrelationskoeffizienten
  • Sozialwissenschaftliche Ausrichtung: Mittlerer absoluter Fehler basierend auf LIWC-Dimensionen
  • Innere Neugier: Neugierrate und Relevanzwertungen

Vergleichsmethoden

Getestete 6 Modelle: GPT-4o, GPT-5, Claude-Sonnet-4, Qwen-3-14b, LLaMA-3-8b, LLaMA-3-70b

Implementierungsdetails

  • Verwendung von NVIDIA A40 GPU
  • LoRA-Adapter für effiziente Feinabstimmung
  • Maximale Sequenzlänge 1024 Tokens
  • Jedes Experiment dreimal durchgeführt und gemittelt

Experimentelle Ergebnisse

Hauptergebnisse

1. Kulturübergreifende Differenzmuster

  • Menschliche Standardabweichung > LLM-Standardabweichung (0,0785 vs. 0,029, F-Statistik: 7,33)
  • LLMs neigen dazu, kulturelle Unterschiede zu nivellieren
  • Westliche Länder zeigen die höchste Mensch-Modell-Ausrichtung

2. Modellleistungsranking

Linguistische Ausrichtung: LLaMA-3-8b (0,25) > LLaMA-3-70b (0,27) > Claude-Sonnet-4 (0,28) = GPT-4o (0,28) > Qwen-3-14b (0,29) > GPT-5 (0,42)

Themenpräferenz-Ausrichtung: Nur LLaMA-3-8b zeigt positive Korrelation (0,17), alle anderen Modelle zeigen negative Korrelation

3. Sozialwissenschaftliche Theorieausrichtung

  • Alle Modelle zeigen bessere Leistung in westlichen Ländern
  • LLaMA-3-8b ist in den meisten theoretischen Dimensionen dem Menschen am nächsten
  • Halls Hochkontext-Niedrigkontext-Theorie zeigt die größten Abweichungen

Neugier-Induktionsergebnisse

Verbesserung der kulturell sensiblen Neugier

  • Adapter-Methode > vollständige Feinabstimmung > Prompt-basierte Methode
  • Reddit-Trainingsdaten zeigen beste Ergebnisse
  • Trainingsziel Obj2 übertrifft Obj1

Evaluierung der inneren Neugier

  • Adapter-Modell: Stellt in 75% der Fälle Fragen
  • Vollständig feinabgestimmtes Modell: Stellt in 20% der Fälle Fragen
  • Nur Prompt-Modell: 0% Fragequote
  • Relevanz bleibt bei 98-100%

Validierung nachgelagerter Aufgaben

BedingungNormADCulturalBenchCultural CS
Nicht neugierig70,48%64,71%48,48%
Neugierig (Prompt)72,09%67,64%49,64%
Neugierig (Feinabstimmung+Prompt)71,06%68,21%56,16%

Die Neugier-Induktion zeigt Leistungsverbesserungen bei allen kulturellen Anpassungs-Benchmarks.

Verwandte Arbeiten

Psychologische Forschung

  • Informationslückentheorie (Loewenstein, 1994)
  • Neugier-Antriebstheorie (Berlyne, 1960)
  • Optimale Erregungstheorie (Hebb, 1955)

NLP-Bereich

  • NatQuest-Korpus (Ceraolo et al., 2024): Offenheit und kausale Ausrichtung natürlicher Fragen
  • Kulturelle Repräsentationsforschung: Konzentriert sich hauptsächlich auf Verzerrungen und kulturelle Wahrnehmungsbewertung, fehlt aber Analyse der Fragestellungskompetenz

Kulturübergreifende LLM-Forschung

Bestehende Arbeiten testen hauptsächlich Wissensantwortkompetenz unter Verwendung von Umfrage-Benchmarks (wie WVS, Pew Research). Dieses Paper ist das erste, das systematisch kulturübergreifende Mensch-LLM-Fragen vergleicht.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. LLMs nivellieren kulturelle Unterschiede: Modellausgaben entsprechen eher westlichen Normen und fehlt kulturelle Vielfalt
  2. Menschen weichen von traditionellen Stereotypen ab: Echte Neugierausdrucksweisen sind komplexer als traditionelle Theorien erwarten
  3. Adapter-Feinabstimmung ist effektiv: Zeigt beste Leistung bei kulturell sensiblen und inneren Neugier-Evaluierungen
  4. Neugier verbessert kulturelle Anpassungsfähigkeit: Validiert in mehreren Benchmarks

Limitierungen

  1. Begrenzte Datensatzabdeckung: 18 Länder und 16 Themen können die globale Kulturlandschaft nicht vollständig repräsentieren
  2. Sprachliche Einschränkungen: Hauptsächlich Englisch, könnte WEIRD-Verzerrung (Western, Educated, Industrialized, Rich, Democratic) einführen
  3. Theoretische Rahmenwerk-Limitierungen: Hofstede und andere Theorien können möglicherweise zeitgenössische oder subkulturelle Variationen nicht erfassen
  4. Evaluierungssubjektivität: Neugier- und Relevanzbeurteilungen beinhalten subjektive Urteile

Zukünftige Richtungen

  1. Mehrsprachige kulturübergreifende Neugierforschung
  2. Kulturelle Neugier in Multi-Agent-Systemen
  3. Dynamische Neugierentwicklung in interaktiven Dialogen
  4. Integration vielfältigerer kultureller theoretischer Rahmenwerke

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erste systematische Untersuchung von LLM-Neugier über Kulturen hinweg
  2. Umfassende Methodik: CUEST-Framework kombiniert linguistische, inhaltliche und theoretische Dimensionen
  3. Ausreichende Experimente: Abdeckung mehrerer Modelle, verschiedener Feinabstimmungsstrategien und nachgelagerter Validierung
  4. Solide theoretische Grundlagen: Basierend auf etablierten sozialwissenschaftlichen Rahmenwerken
  5. Hoher praktischer Wert: Demonstriert tatsächliche Verbesserung der kulturellen Anpassungsfähigkeit durch Neugier

Mängel

  1. Unzureichende kulturelle Repräsentation: 18 Länder können globale kulturelle Vielfalt nicht vollständig abdecken
  2. Auswirkungen der Übersetzungsqualität: Google Translate könnte kulturelle Nuancen verlieren
  3. Subjektive Evaluierungsstandards: Einige Metriken hängen von manuellen Beurteilungen ab und weisen Konsistenzprobleme auf
  4. Mangelnde Modellinterpretierbarkeit: Unzureichende Analyse der tieferen Gründe für die beste Leistung von LLaMA-3-8b

Auswirkungen

  1. Akademischer Beitrag: Bietet neues Evaluierungsparadigma für kulturübergreifende NLP-Forschung
  2. Praktischer Wert: Bietet Orientierung für die Entwicklung kulturell sensibler Dialogsysteme
  3. Reproduzierbarkeit: Autoren verpflichten sich zur Veröffentlichung von Code und Daten
  4. Inspirationskraft: Legt Grundlagen für zukünftige Multi-Agent-Kultursimulationsforschung

Anwendungsszenarien

  1. Kulturübergreifende Dialogsysteme: Verbesserung der Benutzerexperience für multikulturelle Nutzer
  2. Bildungstechnologie: Entwicklung kulturell sensibler Lernhilfewerkzeuge
  3. Internationalisierte Produkte: Verbesserung der Lokalisierungsadaptivität globalisierter KI-Produkte
  4. Sozialwissenschaftliche Forschung: Bereitstellung von Rechenwerkzeugen für kulturpsychologische Forschung

Literaturverzeichnis

  1. Berlyne, D. E. (1960). Conflict, arousal, and curiosity.
  2. Hofstede, G. (2001). Culture's consequences: Comparing values, behaviors, institutions and organizations across nations.
  3. Loewenstein, G. (1994). The psychology of curiosity: A review and reinterpretation.
  4. Ceraolo, R. et al. (2024). Analyzing human questioning behavior and causal curiosity through natural queries.

Bewertungszusammenfassung: Dies ist eine bahnbrechende Forschungsarbeit, die erstmals systematisch das Problem der kulturübergreifenden Neugier in LLMs untersucht. Das CUEST-Framework ist gut konzipiert, die experimentelle Einrichtung umfassend, und die Ergebnisse haben wichtige theoretische und praktische Bedeutung. Trotz Limitierungen bei der Datensatzabdeckung und Evaluierungssubjektivität eröffnet diese Arbeit neue Richtungen für kulturübergreifende NLP-Forschung und hat hohes akademisches und Anwendungspotenzial.