2025-11-13T16:19:11.096230

The Curious Case of Curiosity across Human Cultures and LLMs

Borah, Mihalcea

Recent advances in Large Language Models (LLMs) have expanded their role in human interaction, yet curiosity -- a central driver of inquiry -- remains underexplored in these systems, particularly across cultural contexts. In this work, we investigate cultural variation in curiosity using Yahoo! Answers, a real-world multi-country dataset spanning diverse topics. We introduce CUEST (CUriosity Evaluation across SocieTies), an evaluation framework that measures human-model alignment in curiosity through linguistic (style), topic preference (content) analysis and grounding insights in social science constructs. Across open- and closed-source models, we find that LLMs flatten cross-cultural diversity, aligning more closely with how curiosity is expressed in Western countries. We then explore fine-tuning strategies to induce curiosity in LLMs, narrowing the human-model alignment gap by up to 50\%. Finally, we demonstrate the practical value of curiosity for LLM adaptability across cultures, showing its importance for future NLP research.

academic

Любопытный случай любопытства в различных культурах человека и LLM

Основная информация

ID статьи: 2510.12943
Название: The Curious Case of Curiosity across Human Cultures and LLMs
Авторы: Angana Borah, Rada Mihalcea (Университет Мичигана, Анн-Арбор)
Классификация: cs.CL (Компьютерная лингвистика)
Дата публикации: 14 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.12943v1

Аннотация

В данной работе исследуется кросс-культурное проявление любопытства в больших языковых моделях (LLM). Авторы используют многонациональный набор данных Yahoo! Answers и предлагают оценочную базу CUEST (CUriosity Evaluation across SocieTies) для измерения согласованности между человеком и моделью в выражении любопытства через лингвистический стиль, предпочтения тем и теории социальных наук. Исследование показывает, что LLM нивелируют кросс-культурные различия, отдавая предпочтение западным способам выражения любопытства. Посредством стратегий тонкой настройки авторы сокращают разрыв в выравнивании человека и модели на 50% и демонстрируют практическую ценность любопытства для кросс-культурной адаптации LLM.

Предпосылки и мотивация исследования

1. Основная проблема

Любопытство является ключевым движущим фактором обучения и исследования человека, проявляясь по-разному в различных культурах. По мере расширения роли LLM в человеко-машинном взаимодействии их способность выражать любопытство становится важным фактором, влияющим на пользовательский опыт. Однако существующие исследования сосредоточены главным образом на способности LLM отвечать на вопросы, игнорируя их способность задавать вопросы и выражать любопытство, особенно в кросс-культурном контексте.

2. Значимость проблемы

Любопытство является ключевым элементом культурного обучения, образования и человеко-машинного взаимодействия
Существуют значительные различия в способах выражения любопытства в различных культурных контекстах
LLM должны обладать культурно-чувствительной способностью выражать любопытство для обеспечения лучшего пользовательского опыта

3. Ограничения существующих методов

Кросс-культурные исследования в основном проверяют способность LLM отвечать на вопросы, игнорируя способность задавать вопросы
Отсутствует систематическая база для сравнения любопытства человека и LLM
Существующие исследования любопытства не учитывают культурные особенности

4. Мотивация исследования

Авторы выдвигают три основных исследовательских вопроса:

Существуют ли кросс-культурные различия в вопросах, вызванных любопытством на онлайн-платформах, и могут ли LLM воспроизвести эти закономерности?
Как вызвать любопытство в LLM?
Какое практическое значение имеет культурно-чувствительное любопытство для нижестоящих приложений LLM?

Основные вклады

Предложение базы оценки CUEST: Комплексная система оценки, сочетающая лингвистический анализ, анализ содержания и культурно-теоретическую основу
Создание кросс-культурного набора данных о любопытстве: Набор реальных вопросов из 18 стран по 16 темам на основе Yahoo! Answers
Исследование стратегий вызывания любопытства: Повышение способности LLM выражать культурно-чувствительное любопытство посредством различных методов тонкой настройки
Проверка практической ценности: Демонстрация роли любопытства в повышении культурной адаптивности LLM на трех кросс-культурных эталонах

Подробное описание методологии

Определение задачи

Исследование определяет две основные задачи:

Оценка культурно-чувствительного любопытства: Сравнение способов выражения вопросов человеком и LLM в различных культурных контекстах
Вызывание любопытства: Обучение LLM лучшей способности задавать культурно-чувствительные вопросы

База оценки CUEST

1. Анализ лингвистического выравнивания (Linguistic Alignment)

Оценка по четырем измерениям:

Неоднозначность (Ambiguity):

L(q) = 1/n (∑w∈W 1[w ∈ A] + ∑w∈W 1[|POS(w)| > 1])

где A — список многозначных слов, POS(w) — набор меток части речи для слова w.

Риторические приемы (Rhetorical Devices):

RD = (R + Q + A + P + M)/n

включая повторение слов (R), риторические вопросы (Q), аллитерацию (A), параллелизм (P), метафорические маркеры (M).

Открытость вопроса (Open-Endedness):

Ω(u) = 1[starts_with_wh(q) = 1 ∧ NLI(q) ≠ entailment]

Оценка связности (Cohesion Score):

COH(q) = 1/3 (Lx + min(1,Tx) + Sx)

объединяющая лексическое перекрытие, переходные слова и семантическое сходство.

2. Выравнивание предпочтений тем (Topic Preference Alignment)

Использование коэффициентов корреляции Спирмена и Кендалла для сравнения предпочтений упорядочения тем человеком и LLM.

Основано на четырех теоретических рамках:

Культурные измерения Хофстеде: избегание неопределенности, индивидуализм-коллективизм и др.
Теория ценностей Шварца: открытость vs консервативность
Теория контекста Холла: высокий контекст vs низкий контекст культур
Образовательные системы: механическое запоминание vs целостное обучение

Методы вызывания любопытства

Стратегии тонкой настройки

Полная тонкая настройка (Full Fine-tuning)
Адаптер-ориентированная тонкая настройка (Adapter-based Fine-tuning)

Цели обучения

Obj1: Прямое создание вопросов для конкретной страны
Obj2: Создание вопросов на основе контекста диалога

Расширение данных

Использование замены словаря и перестановки слов для расширения обучающих данных до 1000 образцов на страну.

Экспериментальная установка

Наборы данных

Yahoo! Answers: 18 стран, 16 тем, охватывающих Азию, Европу, Америку и Океанию
Reddit: Вопросы из r/brazil, r/askuk, r/philippines
Данные, созданные LLM: Вопросы и предпочтения тем, созданные с использованием культурных подсказок

Метрики оценки

Лингвистическое выравнивание: L2-расстояние для измерения различий в оценках человека и модели
Предпочтения тем: Коэффициенты корреляции Спирмена и Кендалла
Выравнивание социальной науки: Средняя абсолютная ошибка на основе измерений LIWC
Внутреннее любопытство: Коэффициент любопытства и оценки релевантности

Сравниваемые методы

Тестирование 6 моделей: GPT-4o, GPT-5, Claude-Sonnet-4, Qwen-3-14b, LLaMA-3-8b, LLaMA-3-70b

Детали реализации

Использование GPU NVIDIA A40
Адаптеры LoRA для эффективной тонкой настройки
Максимальная длина последовательности 1024 токена
Каждый эксперимент запущен 3 раза с усреднением результатов

Результаты экспериментов

Основные выводы

1. Закономерности кросс-культурных различий

Стандартное отклонение человека > стандартное отклонение LLM (0,0785 vs 0,029, F-stat: 7,33)
LLM имеют тенденцию нивелировать кросс-культурные различия
Западные страны показывают наивысшую степень выравнивания человека и модели

2. Рейтинг производительности моделей

Лингвистическое выравнивание: LLaMA-3-8b (0,25) > LLaMA-3-70b (0,27) > Claude-Sonnet-4 (0,28) = GPT-4o (0,28) > Qwen-3-14b (0,29) > GPT-5 (0,42)

Выравнивание предпочтений тем: Только LLaMA-3-8b показывает положительную корреляцию (0,17), остальные модели показывают отрицательную корреляцию

3. Выравнивание теории социальной науки

Все модели показывают лучшие результаты в западных странах
LLaMA-3-8b наиболее близка к человеку по большинству теоретических измерений
Теория высокого-низкого контекста Холла показывает наибольшие расхождения

Результаты вызывания любопытства

Повышение культурно-чувствительного любопытства

Метод адаптера > полная тонкая настройка > метод на основе подсказок
Обучающие данные Reddit показывают лучший результат
Цель обучения Obj2 превосходит Obj1

Оценка внутреннего любопытства

Модель адаптера: задает вопросы в 75% случаев
Модель полной тонкой настройки: задает вопросы в 20% случаев
Модель только с подсказками: 0% вопросов
Релевантность остается на уровне 98-100%

Проверка нижестоящих задач

Условие	NormAD	CulturalBench	Cultural CS
Без любопытства	70,48%	64,71%	48,48%
Любопытство (подсказка)	72,09%	67,64%	49,64%
Любопытство (тонкая настройка + подсказка)	71,06%	68,21%	56,16%

Вызывание любопытства показывает повышение производительности на всех эталонах культурной адаптивности.

Связанные работы

Психологические исследования

Теория информационного разрыва (Loewenstein, 1994)
Теория любопытства (Berlyne, 1960)
Теория оптимального возбуждения (Hebb, 1955)

Область NLP

Корпус NatQuest (Ceraolo et al., 2024): открытость и причинная направленность естественных вопросов
Исследования культурного представления: в основном сосредоточены на предвзятости и оценке культурного восприятия, но не анализируют способность задавать вопросы

Кросс-культурные исследования LLM

Существующие работы в основном проверяют способность ответов на вопросы, используя эталоны опросов (такие как WVS, Pew Research). Данная работа является первым систематическим сравнением кросс-культурных вопросов человека и LLM.

Заключение и обсуждение

Основные выводы

LLM нивелируют культурные различия: выходные данные модели более соответствуют западным нормам, не хватает культурного разнообразия
Люди отклоняются от традиционных стереотипов: реальное выражение любопытства сложнее, чем предполагают традиционные теории
Адаптер-ориентированная тонкая настройка эффективна: показывает лучшие результаты в оценке культурной чувствительности и внутреннего любопытства
Любопытство повышает культурную адаптивность: подтверждено практическое значение на нескольких эталонах

Ограничения

Ограниченное покрытие набора данных: 18 стран и 16 тем не могут полностью представить глобальный культурный ландшафт
Языковые ограничения: в основном используется английский язык, что может привести к смещению WEIRD (западный, образованный, индустриализированный, богатый, демократический)
Ограничения теоретической базы: теории Хофстеде и др. могут не охватить современные или субкультурные вариации
Субъективность оценки: оценка любопытства и релевантности включает субъективные суждения

Будущие направления

Многоязычные кросс-культурные исследования любопытства
Культурное любопытство в многоагентных системах
Динамическая эволюция любопытства в интерактивном диалоге
Интеграция более разнообразных культурных теоретических рамок

Глубокая оценка

Преимущества

Высокая инновационность: первая систематическая работа по изучению кросс-культурного любопытства в LLM
Комплексная методология: база CUEST объединяет лингвистическое, содержательное и теоретическое измерения
Достаточные эксперименты: охватывают несколько моделей, различные стратегии тонкой настройки и нижестоящую проверку
Прочная теоретическая основа: основана на зрелых социально-научных теоретических рамках
Высокая практическая ценность: демонстрирует реальное повышение культурной адаптивности благодаря любопытству

Недостатки

Недостаточная культурная репрезентативность: 18 стран не могут охватить глобальное культурное разнообразие
Влияние качества перевода: Google Translate может потерять культурные детали
Субъективность критериев оценки: некоторые показатели зависят от человеческого суждения, существуют проблемы согласованности
Недостаток интерпретируемости модели: недостаточный анализ глубинных причин лучшей производительности LLaMA-3-8b

Влияние

Академический вклад: предоставляет новую парадигму оценки для кросс-культурных исследований NLP
Практическая ценность: предоставляет руководство для построения культурно-чувствительных диалоговых систем
Воспроизводимость: авторы обещают открыть исходный код и данные
Вдохновляющее значение: закладывает основу для будущих исследований культурной симуляции многоагентных систем

Применимые сценарии

Кросс-культурные диалоговые системы: повышение пользовательского опыта для многокультурных пользователей
Образовательные технологии: разработка культурно-чувствительных инструментов обучения
Международные продукты: улучшение локализации и адаптации глобализированных продуктов AI
Исследования социальных наук: предоставление вычислительных инструментов для исследований культурной психологии

Библиография

Berlyne, D. E. (1960). Conflict, arousal, and curiosity.
Hofstede, G. (2001). Culture's consequences: Comparing values, behaviors, institutions and organizations across nations.
Loewenstein, G. (1994). The psychology of curiosity: A review and reinterpretation.
Ceraolo, R. et al. (2024). Analyzing human questioning behavior and causal curiosity through natural queries.

Итоговая оценка: Это новаторское исследование, впервые систематически исследующее проблему кросс-культурного любопытства в LLM. База CUEST хорошо спроектирована, экспериментальная установка комплексна, результаты имеют важное теоретическое и практическое значение. Несмотря на ограничения в охвате данных и субъективности оценки, исследование открывает новое направление в кросс-культурных исследованиях NLP и обладает высокой академической ценностью и потенциалом применения.