2025-11-13T16:19:11.096230

The Curious Case of Curiosity across Human Cultures and LLMs

Borah, Mihalcea
Recent advances in Large Language Models (LLMs) have expanded their role in human interaction, yet curiosity -- a central driver of inquiry -- remains underexplored in these systems, particularly across cultural contexts. In this work, we investigate cultural variation in curiosity using Yahoo! Answers, a real-world multi-country dataset spanning diverse topics. We introduce CUEST (CUriosity Evaluation across SocieTies), an evaluation framework that measures human-model alignment in curiosity through linguistic (style), topic preference (content) analysis and grounding insights in social science constructs. Across open- and closed-source models, we find that LLMs flatten cross-cultural diversity, aligning more closely with how curiosity is expressed in Western countries. We then explore fine-tuning strategies to induce curiosity in LLMs, narrowing the human-model alignment gap by up to 50\%. Finally, we demonstrate the practical value of curiosity for LLM adaptability across cultures, showing its importance for future NLP research.
academic

Любопытный случай любопытства в различных культурах человека и LLM

Основная информация

  • ID статьи: 2510.12943
  • Название: The Curious Case of Curiosity across Human Cultures and LLMs
  • Авторы: Angana Borah, Rada Mihalcea (Университет Мичигана, Анн-Арбор)
  • Классификация: cs.CL (Компьютерная лингвистика)
  • Дата публикации: 14 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.12943v1

Аннотация

В данной работе исследуется кросс-культурное проявление любопытства в больших языковых моделях (LLM). Авторы используют многонациональный набор данных Yahoo! Answers и предлагают оценочную базу CUEST (CUriosity Evaluation across SocieTies) для измерения согласованности между человеком и моделью в выражении любопытства через лингвистический стиль, предпочтения тем и теории социальных наук. Исследование показывает, что LLM нивелируют кросс-культурные различия, отдавая предпочтение западным способам выражения любопытства. Посредством стратегий тонкой настройки авторы сокращают разрыв в выравнивании человека и модели на 50% и демонстрируют практическую ценность любопытства для кросс-культурной адаптации LLM.

Предпосылки и мотивация исследования

1. Основная проблема

Любопытство является ключевым движущим фактором обучения и исследования человека, проявляясь по-разному в различных культурах. По мере расширения роли LLM в человеко-машинном взаимодействии их способность выражать любопытство становится важным фактором, влияющим на пользовательский опыт. Однако существующие исследования сосредоточены главным образом на способности LLM отвечать на вопросы, игнорируя их способность задавать вопросы и выражать любопытство, особенно в кросс-культурном контексте.

2. Значимость проблемы

  • Любопытство является ключевым элементом культурного обучения, образования и человеко-машинного взаимодействия
  • Существуют значительные различия в способах выражения любопытства в различных культурных контекстах
  • LLM должны обладать культурно-чувствительной способностью выражать любопытство для обеспечения лучшего пользовательского опыта

3. Ограничения существующих методов

  • Кросс-культурные исследования в основном проверяют способность LLM отвечать на вопросы, игнорируя способность задавать вопросы
  • Отсутствует систематическая база для сравнения любопытства человека и LLM
  • Существующие исследования любопытства не учитывают культурные особенности

4. Мотивация исследования

Авторы выдвигают три основных исследовательских вопроса:

  1. Существуют ли кросс-культурные различия в вопросах, вызванных любопытством на онлайн-платформах, и могут ли LLM воспроизвести эти закономерности?
  2. Как вызвать любопытство в LLM?
  3. Какое практическое значение имеет культурно-чувствительное любопытство для нижестоящих приложений LLM?

Основные вклады

  1. Предложение базы оценки CUEST: Комплексная система оценки, сочетающая лингвистический анализ, анализ содержания и культурно-теоретическую основу
  2. Создание кросс-культурного набора данных о любопытстве: Набор реальных вопросов из 18 стран по 16 темам на основе Yahoo! Answers
  3. Исследование стратегий вызывания любопытства: Повышение способности LLM выражать культурно-чувствительное любопытство посредством различных методов тонкой настройки
  4. Проверка практической ценности: Демонстрация роли любопытства в повышении культурной адаптивности LLM на трех кросс-культурных эталонах

Подробное описание методологии

Определение задачи

Исследование определяет две основные задачи:

  1. Оценка культурно-чувствительного любопытства: Сравнение способов выражения вопросов человеком и LLM в различных культурных контекстах
  2. Вызывание любопытства: Обучение LLM лучшей способности задавать культурно-чувствительные вопросы

База оценки CUEST

1. Анализ лингвистического выравнивания (Linguistic Alignment)

Оценка по четырем измерениям:

Неоднозначность (Ambiguity):

L(q) = 1/n (∑w∈W 1[w ∈ A] + ∑w∈W 1[|POS(w)| > 1])

где A — список многозначных слов, POS(w) — набор меток части речи для слова w.

Риторические приемы (Rhetorical Devices):

RD = (R + Q + A + P + M)/n

включая повторение слов (R), риторические вопросы (Q), аллитерацию (A), параллелизм (P), метафорические маркеры (M).

Открытость вопроса (Open-Endedness):

Ω(u) = 1[starts_with_wh(q) = 1 ∧ NLI(q) ≠ entailment]

Оценка связности (Cohesion Score):

COH(q) = 1/3 (Lx + min(1,Tx) + Sx)

объединяющая лексическое перекрытие, переходные слова и семантическое сходство.

2. Выравнивание предпочтений тем (Topic Preference Alignment)

Использование коэффициентов корреляции Спирмена и Кендалла для сравнения предпочтений упорядочения тем человеком и LLM.

3. Основание социальной науки (Social Science Grounding)

Основано на четырех теоретических рамках:

  • Культурные измерения Хофстеде: избегание неопределенности, индивидуализм-коллективизм и др.
  • Теория ценностей Шварца: открытость vs консервативность
  • Теория контекста Холла: высокий контекст vs низкий контекст культур
  • Образовательные системы: механическое запоминание vs целостное обучение

Методы вызывания любопытства

Стратегии тонкой настройки

  1. Полная тонкая настройка (Full Fine-tuning)
  2. Адаптер-ориентированная тонкая настройка (Adapter-based Fine-tuning)

Цели обучения

  • Obj1: Прямое создание вопросов для конкретной страны
  • Obj2: Создание вопросов на основе контекста диалога

Расширение данных

Использование замены словаря и перестановки слов для расширения обучающих данных до 1000 образцов на страну.

Экспериментальная установка

Наборы данных

  1. Yahoo! Answers: 18 стран, 16 тем, охватывающих Азию, Европу, Америку и Океанию
  2. Reddit: Вопросы из r/brazil, r/askuk, r/philippines
  3. Данные, созданные LLM: Вопросы и предпочтения тем, созданные с использованием культурных подсказок

Метрики оценки

  • Лингвистическое выравнивание: L2-расстояние для измерения различий в оценках человека и модели
  • Предпочтения тем: Коэффициенты корреляции Спирмена и Кендалла
  • Выравнивание социальной науки: Средняя абсолютная ошибка на основе измерений LIWC
  • Внутреннее любопытство: Коэффициент любопытства и оценки релевантности

Сравниваемые методы

Тестирование 6 моделей: GPT-4o, GPT-5, Claude-Sonnet-4, Qwen-3-14b, LLaMA-3-8b, LLaMA-3-70b

Детали реализации

  • Использование GPU NVIDIA A40
  • Адаптеры LoRA для эффективной тонкой настройки
  • Максимальная длина последовательности 1024 токена
  • Каждый эксперимент запущен 3 раза с усреднением результатов

Результаты экспериментов

Основные выводы

1. Закономерности кросс-культурных различий

  • Стандартное отклонение человека > стандартное отклонение LLM (0,0785 vs 0,029, F-stat: 7,33)
  • LLM имеют тенденцию нивелировать кросс-культурные различия
  • Западные страны показывают наивысшую степень выравнивания человека и модели

2. Рейтинг производительности моделей

Лингвистическое выравнивание: LLaMA-3-8b (0,25) > LLaMA-3-70b (0,27) > Claude-Sonnet-4 (0,28) = GPT-4o (0,28) > Qwen-3-14b (0,29) > GPT-5 (0,42)

Выравнивание предпочтений тем: Только LLaMA-3-8b показывает положительную корреляцию (0,17), остальные модели показывают отрицательную корреляцию

3. Выравнивание теории социальной науки

  • Все модели показывают лучшие результаты в западных странах
  • LLaMA-3-8b наиболее близка к человеку по большинству теоретических измерений
  • Теория высокого-низкого контекста Холла показывает наибольшие расхождения

Результаты вызывания любопытства

Повышение культурно-чувствительного любопытства

  • Метод адаптера > полная тонкая настройка > метод на основе подсказок
  • Обучающие данные Reddit показывают лучший результат
  • Цель обучения Obj2 превосходит Obj1

Оценка внутреннего любопытства

  • Модель адаптера: задает вопросы в 75% случаев
  • Модель полной тонкой настройки: задает вопросы в 20% случаев
  • Модель только с подсказками: 0% вопросов
  • Релевантность остается на уровне 98-100%

Проверка нижестоящих задач

УсловиеNormADCulturalBenchCultural CS
Без любопытства70,48%64,71%48,48%
Любопытство (подсказка)72,09%67,64%49,64%
Любопытство (тонкая настройка + подсказка)71,06%68,21%56,16%

Вызывание любопытства показывает повышение производительности на всех эталонах культурной адаптивности.

Связанные работы

Психологические исследования

  • Теория информационного разрыва (Loewenstein, 1994)
  • Теория любопытства (Berlyne, 1960)
  • Теория оптимального возбуждения (Hebb, 1955)

Область NLP

  • Корпус NatQuest (Ceraolo et al., 2024): открытость и причинная направленность естественных вопросов
  • Исследования культурного представления: в основном сосредоточены на предвзятости и оценке культурного восприятия, но не анализируют способность задавать вопросы

Кросс-культурные исследования LLM

Существующие работы в основном проверяют способность ответов на вопросы, используя эталоны опросов (такие как WVS, Pew Research). Данная работа является первым систематическим сравнением кросс-культурных вопросов человека и LLM.

Заключение и обсуждение

Основные выводы

  1. LLM нивелируют культурные различия: выходные данные модели более соответствуют западным нормам, не хватает культурного разнообразия
  2. Люди отклоняются от традиционных стереотипов: реальное выражение любопытства сложнее, чем предполагают традиционные теории
  3. Адаптер-ориентированная тонкая настройка эффективна: показывает лучшие результаты в оценке культурной чувствительности и внутреннего любопытства
  4. Любопытство повышает культурную адаптивность: подтверждено практическое значение на нескольких эталонах

Ограничения

  1. Ограниченное покрытие набора данных: 18 стран и 16 тем не могут полностью представить глобальный культурный ландшафт
  2. Языковые ограничения: в основном используется английский язык, что может привести к смещению WEIRD (западный, образованный, индустриализированный, богатый, демократический)
  3. Ограничения теоретической базы: теории Хофстеде и др. могут не охватить современные или субкультурные вариации
  4. Субъективность оценки: оценка любопытства и релевантности включает субъективные суждения

Будущие направления

  1. Многоязычные кросс-культурные исследования любопытства
  2. Культурное любопытство в многоагентных системах
  3. Динамическая эволюция любопытства в интерактивном диалоге
  4. Интеграция более разнообразных культурных теоретических рамок

Глубокая оценка

Преимущества

  1. Высокая инновационность: первая систематическая работа по изучению кросс-культурного любопытства в LLM
  2. Комплексная методология: база CUEST объединяет лингвистическое, содержательное и теоретическое измерения
  3. Достаточные эксперименты: охватывают несколько моделей, различные стратегии тонкой настройки и нижестоящую проверку
  4. Прочная теоретическая основа: основана на зрелых социально-научных теоретических рамках
  5. Высокая практическая ценность: демонстрирует реальное повышение культурной адаптивности благодаря любопытству

Недостатки

  1. Недостаточная культурная репрезентативность: 18 стран не могут охватить глобальное культурное разнообразие
  2. Влияние качества перевода: Google Translate может потерять культурные детали
  3. Субъективность критериев оценки: некоторые показатели зависят от человеческого суждения, существуют проблемы согласованности
  4. Недостаток интерпретируемости модели: недостаточный анализ глубинных причин лучшей производительности LLaMA-3-8b

Влияние

  1. Академический вклад: предоставляет новую парадигму оценки для кросс-культурных исследований NLP
  2. Практическая ценность: предоставляет руководство для построения культурно-чувствительных диалоговых систем
  3. Воспроизводимость: авторы обещают открыть исходный код и данные
  4. Вдохновляющее значение: закладывает основу для будущих исследований культурной симуляции многоагентных систем

Применимые сценарии

  1. Кросс-культурные диалоговые системы: повышение пользовательского опыта для многокультурных пользователей
  2. Образовательные технологии: разработка культурно-чувствительных инструментов обучения
  3. Международные продукты: улучшение локализации и адаптации глобализированных продуктов AI
  4. Исследования социальных наук: предоставление вычислительных инструментов для исследований культурной психологии

Библиография

  1. Berlyne, D. E. (1960). Conflict, arousal, and curiosity.
  2. Hofstede, G. (2001). Culture's consequences: Comparing values, behaviors, institutions and organizations across nations.
  3. Loewenstein, G. (1994). The psychology of curiosity: A review and reinterpretation.
  4. Ceraolo, R. et al. (2024). Analyzing human questioning behavior and causal curiosity through natural queries.

Итоговая оценка: Это новаторское исследование, впервые систематически исследующее проблему кросс-культурного любопытства в LLM. База CUEST хорошо спроектирована, экспериментальная установка комплексна, результаты имеют важное теоретическое и практическое значение. Несмотря на ограничения в охвате данных и субъективности оценки, исследование открывает новое направление в кросс-культурных исследованиях NLP и обладает высокой академической ценностью и потенциалом применения.