2025-11-13T16:19:11.096230

The Curious Case of Curiosity across Human Cultures and LLMs

Borah, Mihalcea
Recent advances in Large Language Models (LLMs) have expanded their role in human interaction, yet curiosity -- a central driver of inquiry -- remains underexplored in these systems, particularly across cultural contexts. In this work, we investigate cultural variation in curiosity using Yahoo! Answers, a real-world multi-country dataset spanning diverse topics. We introduce CUEST (CUriosity Evaluation across SocieTies), an evaluation framework that measures human-model alignment in curiosity through linguistic (style), topic preference (content) analysis and grounding insights in social science constructs. Across open- and closed-source models, we find that LLMs flatten cross-cultural diversity, aligning more closely with how curiosity is expressed in Western countries. We then explore fine-tuning strategies to induce curiosity in LLMs, narrowing the human-model alignment gap by up to 50\%. Finally, we demonstrate the practical value of curiosity for LLM adaptability across cultures, showing its importance for future NLP research.
academic

حالة الفضول الغريبة عبر الثقافات البشرية ونماذج اللغة الكبيرة

المعلومات الأساسية

  • معرّف الورقة: 2510.12943
  • العنوان: The Curious Case of Curiosity across Human Cultures and LLMs
  • المؤلفون: أنجانا بوراه، رادا ميهالتشيا (جامعة ميشيغان، آن أربور)
  • التصنيف: cs.CL (اللسانيات الحاسوبية)
  • تاريخ النشر: 14 أكتوبر 2025 (نسخة أولية على arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.12943v1

الملخص

تبحث هذه الورقة عن التعبير عن الفضول عبر الثقافات في نماذج اللغة الكبيرة (LLMs). يستخدم المؤلفون مجموعة بيانات Yahoo! Answers متعددة الدول، ويقترحون إطار عمل CUEST (تقييم الفضول عبر المجتمعات) لقياس الاتساق بين البشر والنماذج في التعبير عن الفضول من خلال أسلوب اللغة وتفضيلات الموضوعات والنظريات العلمية الاجتماعية. تكشف الدراسة أن نماذج اللغة الكبيرة تمحو الاختلافات عبر الثقافات وتميل نحو طرق التعبير عن الفضول الغربية. من خلال استراتيجيات الضبط الدقيق، قلل المؤلفون فجوة المحاذاة بين البشر والنموذج بنسبة 50%، وأثبتوا القيمة العملية للفضول في التكيف عبر الثقافات لنماذج اللغة الكبيرة.

خلفية البحث والدافع

1. المشكلة الأساسية

الفضول هو القوة الدافعة الأساسية للتعلم والاستكشاف البشري، وتختلف أشكال تعبيره عبر الثقافات المختلفة. مع توسع دور نماذج اللغة الكبيرة في التفاعل بين الإنسان والآلة، أصبحت قدرتها على التعبير عن الفضول عاملاً مهماً يؤثر على تجربة المستخدم. ومع ذلك، يركز البحث الحالي بشكل أساسي على قدرة نماذج اللغة الكبيرة على الإجابة، متجاهلاً قدرتها على طرح الأسئلة والتعبير عن الفضول، خاصة في السياق عبر الثقافي.

2. أهمية المشكلة

  • الفضول عنصر أساسي في التعلم الثقافي والتعليم والتفاعل بين الإنسان والآلة
  • توجد اختلافات كبيرة في طرق التعبير عن الفضول عبر الخلفيات الثقافية المختلفة
  • تحتاج نماذج اللغة الكبيرة إلى امتلاك القدرة على التعبير عن الفضول الحساس ثقافياً لتوفير تجربة مستخدم أفضل

3. قيود الطرق الموجودة

  • يركز البحث عبر الثقافات بشكل أساسي على اختبار قدرة نماذج اللغة الكبيرة على الإجابة عن الأسئلة، متجاهلاً قدرة طرح الأسئلة
  • يفتقد إطار عمل منهجي لمقارنة الفضول بين البشر ونماذج اللغة الكبيرة
  • يفتقد البحث الحالي حول الفضول إلى الاعتبارات الثقافية التفصيلية

4. دافع البحث

يقترح المؤلفون ثلاث أسئلة بحثية أساسية:

  1. هل توجد اختلافات عبر ثقافية في الأسئلة المدفوعة بالفضول على المنصات الإلكترونية، وهل يمكن لنماذج اللغة الكبيرة إعادة إنتاج هذه الأنماط؟
  2. كيف يمكن استحثاث الفضول في نماذج اللغة الكبيرة؟
  3. ما هي الأهمية العملية للفضول الحساس ثقافياً في التطبيقات النهائية لنماذج اللغة الكبيرة؟

المساهمات الأساسية

  1. اقتراح إطار عمل CUEST: نظام تقييم شامل يجمع بين التحليل اللغوي وتحليل المحتوى والأساس النظري الثقافي
  2. بناء مجموعة بيانات الفضول عبر الثقافات: مجموعة بيانات حقيقية من 18 دولة و16 موضوعاً بناءً على Yahoo! Answers
  3. استكشاف استراتيجيات استحثاث الفضول: تحسين قدرة نماذج اللغة الكبيرة على التعبير عن الفضول الحساس ثقافياً من خلال طرق ضبط دقيق متعددة
  4. التحقق من القيمة العملية: إثبات تأثير الفضول على تحسين التكيف الثقافي لنماذج اللغة الكبيرة في ثلاث معايير عبر ثقافية

شرح الطريقة

تعريف المهمة

يعرّف هذا البحث مهمتين أساسيتين:

  1. تقييم الفضول الحساس ثقافياً: مقارنة طرق التعبير عن الأسئلة بين البشر ونماذج اللغة الكبيرة في خلفيات ثقافية مختلفة
  2. استحثاث الفضول: تحسين قدرة نماذج اللغة الكبيرة على طرح الأسئلة الحساسة ثقافياً من خلال التدريب

إطار عمل CUEST

1. تحليل المحاذاة اللغوية (Linguistic Alignment)

تقييم أربعة أبعاد:

الغموض (Ambiguity):

L(q) = 1/n (∑w∈W 1[w ∈ A] + ∑w∈W 1[|POS(w)| > 1])

حيث A قائمة الكلمات متعددة المعاني، و POS(w) مجموعة علامات الكلام للكلمة w.

الأجهزة البلاغية (Rhetorical Devices):

RD = (R + Q + A + P + M)/n

تشمل تكرار الكلمات (R)، والأسئلة الاستنكارية (Q)، والجناس (A)، والتوازي (P)، والتشبيهات (M).

الأسئلة المفتوحة (Open-Endedness):

Ω(u) = 1[starts_with_wh(q) = 1 ∧ NLI(q) ≠ entailment]

درجة التماسك (Cohesion Score):

COH(q) = 1/3 (Lx + min(1,Tx) + Sx)

يجمع بين التداخل المعجمي والكلمات الانتقالية والتشابه الدلالي.

2. محاذاة تفضيلات الموضوعات (Topic Preference Alignment)

استخدام معاملات Spearman و Kendall لمقارنة تفضيلات ترتيب الموضوعات بين البشر ونماذج اللغة الكبيرة.

3. الأساس النظري العلمي الاجتماعي (Social Science Grounding)

بناءً على أربع أطر نظرية:

  • أبعاد ثقافة هوفستيد: تجنب عدم اليقين، الفردية مقابل الجماعية، وغيرها
  • نظرية قيم شوارتز: الانفتاح مقابل المحافظة
  • نظرية السياق لهول: ثقافات السياق العالي مقابل المنخفض
  • الأنظمة التعليمية: الحفظ مقابل التعلم الشامل

طرق استحثاث الفضول

استراتيجيات الضبط الدقيق

  1. الضبط الدقيق الكامل (Full Fine-tuning)
  2. الضبط الدقيق القائم على المحولات (Adapter-based Fine-tuning)

أهداف التدريب

  • Obj1: إنشاء أسئلة خاصة بدول معينة مباشرة
  • Obj2: إنشاء أسئلة بناءً على سياق الحوار

تعزيز البيانات

استخدام استبدال المفردات وتبديل ترتيب الكلمات لتوسيع بيانات التدريب إلى 1000 عينة لكل دولة.

إعداد التجارب

مجموعات البيانات

  1. Yahoo! Answers: 18 دولة، 16 موضوعاً، يغطي آسيا وأوروبا والأمريكتين وأوقيانوسيا
  2. Reddit: أسئلة من r/brazil و r/askuk و r/philippines
  3. البيانات المولدة بواسطة نماذج اللغة الكبيرة: أسئلة وتفضيلات موضوعات مولدة باستخدام تعليمات شخصيات ثقافية

مقاييس التقييم

  • المحاذاة اللغوية: مسافة L2 لقياس الفرق بين درجات البشر والنموذج
  • تفضيلات الموضوعات: معاملات Spearman و Kendall
  • المحاذاة العلمية الاجتماعية: متوسط الخطأ المطلق بناءً على أبعاد LIWC
  • الفضول الجوهري: معدل الفضول ودرجات الصلة

طرق المقارنة

اختبار ستة نماذج: GPT-4o و GPT-5 و Claude-Sonnet-4 و Qwen-3-14b و LLaMA-3-8b و LLaMA-3-70b

تفاصيل التنفيذ

  • استخدام وحدة معالجة الرسومات NVIDIA A40
  • محولات LoRA للضبط الدقيق الفعال
  • الحد الأقصى لطول التسلسل 1024 رمز
  • تشغيل كل تجربة 3 مرات وأخذ المتوسط

نتائج التجارب

النتائج الرئيسية

1. أنماط الاختلافات عبر الثقافات

  • الانحراف المعياري البشري > الانحراف المعياري لنموذج اللغة الكبيرة (0.0785 مقابل 0.029، F-stat: 7.33)
  • تميل نماذج اللغة الكبيرة إلى محو الاختلافات عبر الثقافات
  • تظهر الدول الغربية أعلى درجات محاذاة بين البشر والنموذج

2. ترتيب أداء النموذج

المحاذاة اللغوية: LLaMA-3-8b (0.25) > LLaMA-3-70b (0.27) > Claude-Sonnet-4 (0.28) = GPT-4o (0.28) > Qwen-3-14b (0.29) > GPT-5 (0.42)

محاذاة تفضيلات الموضوعات: فقط LLaMA-3-8b يظهر ارتباطاً إيجابياً (0.17)، بينما تظهر جميع النماذج الأخرى ارتباطاً سلبياً

3. محاذاة النظرية العلمية الاجتماعية

  • جميع النماذج تظهر أداءً أفضل في الدول الغربية
  • LLaMA-3-8b هو الأقرب إلى البشر في معظم الأبعاد النظرية
  • تظهر نظرية هول للسياق العالي والمنخفض أكبر الاختلافات

نتائج استحثاث الفضول

تحسين الفضول الحساس ثقافياً

  • طريقة المحول > الضبط الدقيق الكامل > الطرق القائمة على التعليمات
  • بيانات تدريب Reddit تظهر أفضل النتائج
  • هدف التدريب Obj2 أفضل من Obj1

تقييم الفضول الجوهري

  • نموذج المحول: يطرح أسئلة في 75% من الحالات
  • نموذج الضبط الدقيق الكامل: يطرح أسئلة في 20% من الحالات
  • نموذج التعليمات فقط: معدل طرح أسئلة 0%
  • تبقى الصلة عند 98-100%

التحقق من المهام النهائية

الحالةNormADCulturalBenchCultural CS
بدون فضول70.48%64.71%48.48%
فضول (تعليمات)72.09%67.64%49.64%
فضول (ضبط دقيق + تعليمات)71.06%68.21%56.16%

يظهر استحثاث الفضول تحسناً في الأداء عبر جميع معايير التكيف الثقافي.

الأعمال ذات الصلة

البحث النفسي

  • نظرية فجوة المعلومات (Loewenstein, 1994)
  • نظرية الفضول الدافعة (Berlyne, 1960)
  • نظرية الإثارة المثلى (Hebb, 1955)

مجال معالجة اللغات الطبيعية

  • مجموعة بيانات NatQuest (Ceraolo et al., 2024): الانفتاح والتوجه السببي للأسئلة الطبيعية
  • أبحاث التمثيل الثقافي: تركز بشكل أساسي على التقييمات المتعلقة بالانحياز والإدراك الثقافي، لكنها تفتقد تحليل قدرة طرح الأسئلة

البحث عبر الثقافات في نماذج اللغة الكبيرة

تركز الأعمال الموجودة بشكل أساسي على اختبار قدرة الإجابة عن الأسئلة، باستخدام معايير المسح (مثل WVS و Pew Research)، وهذه الورقة هي الأولى التي تقارن بشكل منهجي أسئلة البشر ونماذج اللغة الكبيرة عبر الثقافات.

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. نماذج اللغة الكبيرة تمحو الاختلافات الثقافية: يتوافق إخراج النموذج بشكل أكبر مع المعايير الغربية، ويفتقد التنوع الثقافي
  2. البشر ينحرفون عن الصور النمطية التقليدية: التعبير الحقيقي عن الفضول أكثر تعقيداً مما تتوقعه النظريات التقليدية
  3. الضبط الدقيق للمحول فعال: يظهر أفضل أداء في تقييمات الفضول الحساس ثقافياً والفضول الجوهري
  4. الفضول يحسن التكيف الثقافي: تم التحقق من القيمة العملية في معايير اختبار متعددة

القيود

  1. تغطية مجموعة البيانات محدودة: 18 دولة و16 موضوعاً، لا يمكن تمثيل المشهد الثقافي العالمي بالكامل
  2. قيود اللغة: يستخدم بشكل أساسي اللغة الإنجليزية، قد يؤدي إلى انحياز WEIRD (الغربي والمتعلم والصناعي والغني والديمقراطي)
  3. قيود الإطار النظري: قد لا تتمكن نظريات مثل هوفستيد من التقاط التباينات المعاصرة أو الثقافات الفرعية
  4. الذاتية في التقييم: يتضمن تقييم الفضول والصلة أحكاماً ذاتية

الاتجاهات المستقبلية

  1. البحث عن الفضول عبر الثقافات متعدد اللغات
  2. الفضول الثقافي في الأنظمة متعددة الوكلاء
  3. ديناميكية الفضول في الحوار التفاعلي
  4. دمج أطر نظرية ثقافية أكثر تنوعاً

التقييم المتعمق

المميزات

  1. الابتكار قوي: أول دراسة منهجية لفضول نماذج اللغة الكبيرة عبر الثقافات
  2. الطريقة شاملة: يجمع إطار عمل CUEST بين ثلاثة أبعاد: اللغوية والمحتوى والنظرية
  3. التجارب كافية: تغطي نماذج متعددة واستراتيجيات ضبط دقيق متنوعة والتحقق النهائي
  4. الأساس النظري متين: يعتمد على أطر نظرية اجتماعية راسخة
  5. القيمة العملية عالية: أثبت التأثير الفعلي للفضول على تحسين التكيف الثقافي

أوجه القصور

  1. عدم كفاية التمثيل الثقافي: 18 دولة غير كافية لتغطية التنوع الثقافي العالمي
  2. تأثير جودة الترجمة: قد تفقد Google Translate التفاصيل الثقافية
  3. ذاتية معايير التقييم: تعتمد بعض المؤشرات على الحكم البشري، مع مشاكل الاتساق
  4. نقص تفسير النموذج: تحليل غير كافٍ للأسباب العميقة لأداء LLaMA-3-8b الأفضل

التأثير

  1. المساهمة الأكاديمية: توفير نموذج تقييم جديد لأبحاث اللسانيات الحاسوبية عبر الثقافات
  2. القيمة العملية: توفير إرشادات لبناء أنظمة حوار حساسة ثقافياً
  3. قابلية التكرار: التزام المؤلفين بفتح الكود والبيانات
  4. الإلهام: وضع أساس لأبحاث محاكاة ثقافية متعددة الوكلاء في المستقبل

السيناريوهات القابلة للتطبيق

  1. أنظمة الحوار عبر الثقافات: تحسين تجربة المستخدمين متعددي الثقافات
  2. تكنولوجيا التعليم: تطوير أدوات مساعدة تعليمية حساسة ثقافياً
  3. المنتجات الدولية: تحسين التكيف المحلي لمنتجات الذكاء الاصطناعي العالمية
  4. البحث العلمي الاجتماعي: توفير أدوات حسابية لأبحاث علم النفس الثقافي

المراجع

  1. Berlyne, D. E. (1960). Conflict, arousal, and curiosity.
  2. Hofstede, G. (2001). Culture's consequences: Comparing values, behaviors, institutions and organizations across nations.
  3. Loewenstein, G. (1994). The psychology of curiosity: A review and reinterpretation.
  4. Ceraolo, R. et al. (2024). Analyzing human questioning behavior and causal curiosity through natural queries.

ملخص التقييم: هذا بحث رائد يستكشف لأول مرة بشكل منهجي مسألة الفضول عبر الثقافات في نماذج اللغة الكبيرة. يتمتع إطار عمل CUEST بتصميم معقول، وإعداد التجارب شامل، والنتائج ذات أهمية نظرية وعملية كبيرة. على الرغم من وجود قيود في تغطية البيانات والذاتية في التقييم، فإن هذا البحث يفتح اتجاهاً جديداً لأبحاث اللسانيات الحاسوبية عبر الثقافات، ويتمتع بقيمة أكاديمية وإمكانية تطبيق عالية.