2025-11-14T03:31:11.744871

Semantic, Orthographic, and Phonological Biases in Humans' Wordle Gameplay

Liang, Kabbara, Liu et al.

We show that human players' gameplay in the game of Wordle is influenced by the semantics, orthography, and phonology of the player's previous guesses. We compare actual human players' guesses with near-optimal guesses using NLP techniques. We study human language use in the constrained environment of Wordle, which is situated between natural language use and the artificial word association task

academic

Семантические, орфографические и фонологические предубеждения в игре Wordle у людей

Основная информация

ID статьи: 2411.18634
Название: Semantic, Orthographic, and Phonological Biases in Humans' Wordle Gameplay
Авторы: Jiadong Liang, Adam Kabbara, Jiaying Liu, Ronaldo Luo, Kina Kim, Michael Guerzhoy (Университет Торонто)
Категория: cs.CL (Вычислительная лингвистика)
Дата публикации: 13 ноября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2411.18634

Аннотация

В данном исследовании путём анализа поведения человеческих игроков в игре Wordle выявлены систематические влияния семантических, орфографических и фонологических характеристик предыдущих попыток на процесс угадывания слов. Исследование сравнивает предположения реальных игроков с квазиоптимальной стратегией, основанной на эвристике максимальной энтропии, демонстрируя закономерности когнитивных предубеждений в использовании языка человеком в ограниченной среде, находящейся между свободным использованием естественного языка и искусственными задачами словесных ассоциаций.

Исследовательский контекст и мотивация

1. Исследовательский вопрос

Исследование рассматривает, систематически ли отклоняется поведение человека при угадывании слов в Wordle от оптимальной стратегии, и влияют ли эти отклонения на когнитивные предубеждения (в частности, эффект прайминга).

2. Значимость проблемы

Ценность для когнитивной науки: Wordle предоставляет уникальную исследовательскую среду, находящуюся между полностью свободным использованием естественного языка и высоко контролируемыми задачами словесных ассоциаций, предлагая новый экологичный сценарий для изучения когнитивных аспектов языка
Теоретическое значение: Проверка применимости теории эффекта прайминга из психологии в реальных игровых сценариях
Методологический вклад: Демонстрация использования методов обработки естественного языка для количественной оценки когнитивных предубеждений человека

3. Ограничения существующих исследований

Традиционные исследования словесных ассоциаций часто проводятся в искусственных лабораторных условиях, что снижает экологичность
Сценарии использования естественного языка слишком сложны для контроля переменных
Отсутствуют систематические исследования когнитивных предубеждений в задачах ограниченного словообразования

4. Исследовательская мотивация

Исследователи выдвигают гипотезу:

Эффект прайминга влияет на выбор слов в игре Wordle
Люди склонны выбирать слова, похожие на предыдущие попытки, чтобы снизить когнитивную нагрузку
Эти предубеждения можно количественно оценить путём сравнения с квазиоптимальной стратегией

Основные вклады

Первое систематическое доказательство: Существование когнитивных предубеждений у человека в игре Wordle по трём измерениям: семантическому, орфографическому и фонологическому
Методология количественной оценки: Предложена полная методология с использованием различных методов обработки естественного языка (встраивания GloVe, расстояние редактирования, фонетическая транскрипция и т.д.) для количественной оценки различий между человеческими и оптимальными стратегиями
Анализ больших данных: Эмпирическое исследование, основанное на 83 000 реальных игровых данных, собранных с Reddit
Обнаружение зависимости от контекста: Выявлена связь между интенсивностью когнитивного предубеждения и степенью ограничения игрового состояния — чем больше свобода, тем более выраженное предубеждение
Междисциплинарный вклад: Предоставляет парадигму кросс-дисциплинарного исследования для когнитивной психологии, вычислительной лингвистики и исследований игр

Подробное описание методологии

Определение задачи

Входные данные: Последовательность попыток в игре Wordle
Выходные данные: Количественная оценка различий между предположениями человека и квазиоптимальной стратегией по нескольким измерениям
Ограничения:

Каждое предположение должно быть действительным пятибуквенным английским словом
Игроки корректируют последующие попытки на основе обратной связи (зелёный/жёлтый/серый)
Цель — угадать целевое слово в течение 6 попыток

Базовая квазиоптимальная стратегия

Исследование использует решатель на основе энтропии Doddle в качестве квазиоптимальной стратегии:

Оптимальное решение (Bertsimas & Paskov 2024): Метод динамического программирования, среднее количество попыток 3,421
Эвристика минимакса глубины 1: Наихудший случай 5 попыток, среднее 3,482 попытки
Эвристика энтропии (используется в данном исследовании): Гарантирует завершение за 6 попыток, среднее 3,432 попытки

Причина выбора эвристики вместо точного оптимального решения — вычислительная эффективность, но различие в производительности минимально (всего 0,011 попытки).

Система измеряемых показателей

1. Расстояние Левенштейна (сходство орфографии)

Определение: Минимальное количество операций редактирования (вставка, удаление, замена), необходимых для преобразования одного слова в другое
Когнитивное значение: Меньшее расстояние указывает на склонность игрока выбирать слова со схожей структурой, что может отражать стремление снизить когнитивные усилия
Расчёт: Сравнение расстояния редактирования между последовательными попытками

2. Семантическое расстояние (GloVe)

Определение: Отрицательное косинусное сходство векторов слов GloVe
Формула: $d_{semantic} = 1 - \cos(v_a, v_b)$ , где $v_a, v_b$ — векторы слов
Когнитивное значение: Проверка, склонны ли люди угадывать семантически связанные слова (например, "BREAD" после "TOAST")

3. Расстояние Хэмминга (позиционные различия)

Определение: Количество позиций, в которых различаются символы двух строк одинаковой длины
Когнитивное значение: Более строгое, чем расстояние Левенштейна, сосредоточено только на различиях в фиксированных позициях, лучше соответствует механике обратной связи Wordle

4. Рифмовка (фонологическое совпадение)

Реализация: Использование словаря произношения CMU для фонетической транскрипции
Критерий определения: Совершенная рифма — совпадение фонетического окончания и наличие ударного гласного
Когнитивное значение: Проверка влияния фонологического сходства на выбор слов

Кодирование игрового состояния

Игровое состояние кодируется символом (cg, cy, cb):

cg: Количество зелёных квадратов (правильная буква в правильной позиции)
cy: Количество жёлтых квадратов (правильная буква в неправильной позиции)
cb: Количество серых квадратов (неправильная буква)

Пример: (2, 0, 3) означает 2 зелёных, 0 жёлтых, 3 серых квадрата.

Методы статистического анализа

Размер эффекта: Использование Cohen's d для измерения различий между распределениями человека и оптимальной стратегии $d = \frac{\mu_{human} - \mu_{optimal}}{\sigma_{pooled}}$
Проверка значимости: Расчёт p-значения на основе t-статистики
Слоистый анализ: Отдельный анализ по игровым состояниям для выявления влияния степени ограничения

Экспериментальная установка

Набор данных

Источник: Подраздел r/Wordle на Reddit
Масштаб: 83 000 записей игр
Метод сбора: Использование регулярных выражений для извлечения данных игр, которыми пользователи делятся в стандартном формате
Поставщик данных: Дамп данных Reddit от Watchful1 (2023)
Временной диапазон: Июнь 2005 г. — декабрь 2023 г.

Характеристики данных:

Поведение реальных игроков в естественной игровой среде
Добровольное распространение, возможна предвзятость отбора
Ограничено английской версией игры Wordle

Показатели оценки

Cohen's d: Количественная оценка размера эффекта
- |d| < 0,2: Малый эффект
- 0,2 ≤ |d| < 0,5: Средний эффект
- |d| ≥ 0,5: Большой эффект
P-значение: Статистическая значимость (пороговое значение p < 0,001)
Визуализация распределения: Гистограммы, скрипичные диаграммы, диаграммы размаха

Метод сравнения

Единственный базовый показатель: Решатель на основе энтропии Doddle

Метод представляет квазиоптимальную стратегию
Производительность близка к теоретически оптимальной (отличие всего 0,011 попытки)
Вычислительно осуществимо, может генерировать оптимальные предположения для всех 83 000 записей данных

Детали реализации

Модель GloVe: Предварительно обученные векторы слов (Pennington et al. 2014)
Библиотека произношения: CMU Pronouncing Dictionary
Расстояние редактирования: Стандартный алгоритм Левенштейна
Анализ корреляции: Коэффициент корреляции Пирсона
Визуализация: Использование matplotlib и seaborn в Python

Результаты экспериментов

Основные результаты

1. Фонологическое предубеждение (глобальная статистика)

Оптимальная стратегия: 7,3% предположений рифмуются с предыдущей попыткой
Человеческие игроки: 9,3% предположений рифмуются с предыдущей попыткой
Значимость: p < 0,001
Интерпретация: Люди значительно склонны выбирать фонологически похожие слова

2. Орфографическое предубеждение (зависимое от состояния)

Случай 1: (0, 0, 5) — полностью неинформативное состояние

Cohen's d = -0,0854 (расстояние Левенштейна)
Люди и оптимальная стратегия склонны выбирать слова с расстоянием 5 (полностью различные)
Однако люди субоптимально повторно используют известные неправильные буквы (см. рис. 1a)

Случай 2: (2, 0, 3) — частично ограниченное состояние

Cohen's d = -1,13 (расстояние Левенштейна, большой эффект)
p < 10^-12
Люди значительно недооценивают исследование: склонны выбирать слова, похожие на предыдущие (см. рис. 1b)
Это один из самых сильных сигналов предубеждения

3. Семантическое предубеждение (зависимое от состояния)

Случай 1: (0, 0, 5) — неограниченное состояние

Cohen's d = -0,437 (расстояние GloVe)
p = 1,07×10^-189
Люди склонны выбирать семантически более близкие слова (см. рис. 1c)

Случай 2: (3, 2, 0) — высоко ограниченное состояние

Cohen's d = 0,00451
p = 0,318 (не значимо)
При сильном ограничении семантическое предубеждение исчезает (см. рис. 1d)

4. Предубеждение расстояния Хэмминга

Случай 1: (0, 0, 5)

Cohen's d = 0,157
Люди субоптимально повторно используют известные неправильные символы (см. рис. 1e)

Случай 2: (2, 2, 1)

Cohen's d = 0,289
Люди субоптимально используют новые символы вместо оптимизации известной информации (см. рис. 1f)

Систематические закономерности

Связь между ограничением и предубеждением (рис. 3 и 4)

Количество зелёных квадратов и предубеждение:

Чем больше зелёных (сильнее ограничение), тем меньше семантическое предубеждение
0 зелёных: Cohen's d примерно -0,4 до -0,6
4 зелёных: Cohen's d близко к 0

Количество серых квадратов и предубеждение:

Чем больше серых (больше информации об исключении), тем слабее предубеждение
Указывает на то, что при усилении ограничения люди ближе к оптимальной стратегии

Ключевое открытие:

"Люди проявляют более сильные когнитивные предубеждения при большой свободе действий и приближаются к оптимальной стратегии при высоком ограничении"

Анализ корреляции между показателями

Расстояние Левенштейна и Хэмминга:

Все пары слов: Pearson r = 0,95 (сильная корреляция)
Различие символов < 5: Pearson r = 0,81
Интерпретация: Оба измеряют орфографическое сходство, высоко коррелированы

Расстояние Левенштейна и семантическое расстояние GloVe:

Pearson r = 0,06 (слабая корреляция)
Интерпретация: Орфографическое сходство и семантическое сходство практически независимы
Значение: Семантическое и орфографическое предубеждения — это независимо действующие когнитивные механизмы (см. рис. 2)

Анализ конкретных случаев

Хотя в статье не приводятся конкретные примеры пар слов, из результатов можно вывести:

Пример семантического предубеждения:

Последовательность предположений может включать: "BREAD" → "TOAST" → "ROAST"
Семантическое поле остаётся в области пищи/кулинарии

Пример орфографического предубеждения:

В состоянии (2,0,3): "CRANE" → "CRATE" → "CRAZE"
Сохранение префикса с постепенной корректировкой

Пример фонологического предубеждения:

Рифмующаяся последовательность: "LIGHT" → "FIGHT" → "SIGHT"

Связанные работы

1. Эффект прайминга в когнитивной психологии

Schacter & Buckner (1998):

Определение прайминга как явления, при котором прошлый опыт бессознательно влияет на поведение
Данное исследование применяет эту теорию к игровым сценариям

Nelson et al. (1987):

Исследование влияния рифмовки на память и словесные ассоциации
Обнаружение: Эффект рифмовки проявляется только когда испытуемые активно обращают внимание на рифму
Соответствует результатам данного исследования о 9,3% vs 7,3% фонологическом предубеждении

Deese (1962), De Deyne & Storms (2008):

Исследование влияния грамматических категорий на словесные ассоциации
Предоставляет теоретическую основу для семантического предубеждения в данном исследовании

2. Словесные сети и семантическая структура

Steyvers & Tenenbaum (2005):

Анализ разреженности сетей словесных ассоциаций (каждое слово связано только с 0,44% других слов)
Словесные сети демонстрируют свойства малого мира и степенное распределение
Поддерживает гипотезу данного исследования о семантическом предубеждении

3. Исследование оптимальной стратегии Wordle

Bertsimas & Paskov (2024):

Использование динамического программирования для нахождения точного оптимального решения
Лучшее начальное слово: "SALET"
Минимальное среднее количество попыток: 3,421

Cross (2022) - Doddle:

Эвристика минимакса глубины 1: среднее 3,482 попытки
Эвристика энтропии: среднее 3,432 попытки
Базовый метод, используемый в данном исследовании

4. Решение словесных головоломок

Underwood et al. (1994):

Исследование способности экспертов кроссвордов к извлечению слов
Обнаружение: Эксперты лучше справляются с анаграммами и манипуляциями морфемами
Указывает на то, что извлечение слов и фонологическое осознание критичны для задач ограниченного словообразования
Предоставляет доказательства аналогичных механизмов в Wordle

5. Вычислительные модели словесных ассоциаций

Matusevych & Stevenson (2018):

Исследование словесных ассоциаций человека на основе свойств слов
Данное исследование расширяет это на игровые сценарии

Luo et al. (2025):

Прогнозирование эмоциональных реакций в игре Wordle
Использование аналогичных признаков, но сосредоточение на эмоциях, а не на когнитивных предубеждениях

Уникальный вклад данного исследования

Отличия от связанных работ:

Экологичность: Реальные игровые данные vs. лабораторные задачи
Многомерность: Одновременное рассмотрение семантического, орфографического и фонологического измерений
Зависимость от контекста: Выявление роли степени ограничения в модулировании предубеждений
Вычислительный метод: Использование методов обработки естественного языка для количественной оценки когнитивных предубеждений

Выводы и обсуждение

Основные выводы

Существование систематических предубеждений: Предположения человека в Wordle систематически отклоняются от оптимальной стратегии, проявляясь в:
- Семантическом измерении: Склонность выбирать семантически связанные со своими предыдущими предположениями слова
- Орфографическом измерении: Склонность выбирать слова с меньшим расстоянием редактирования
- Фонологическом измерении: Более частый выбор рифмующихся слов (9,3% vs 7,3%)
Неслучайность предубеждений: Эти предубеждения не являются случайными ошибками, а отражают закономерности когнитивной обработки
Модулирующая роль ограничения:
- При высокой свободе действий (например, 0g0y5b) предубеждения наиболее выражены
- При высоком ограничении (например, 3g2y0b) люди приближаются к оптимальной стратегии
- Указывает на то, что когнитивные предубеждения более выражены в творческих задачах
Независимые механизмы: Слабая корреляция между семантическим и орфографическим предубеждениями (r=0,06) указывает на независимые когнитивные процессы
Ценность исследовательской парадигмы: Wordle предоставляет идеальную исследовательскую среду между использованием естественного языка и искусственными экспериментальными задачами

Ограничения

Статья явно обсуждает следующие ограничения в разделе 8:

Предвзятость источника данных:
- Зависимость от добровольно поделённых данных Reddit
- Возможность эффекта отбора (игроки с лучшими результатами более склонны делиться)
- Пользователи Reddit могут не представлять общую популяцию
Демографические факторы:
- Отсутствие информации о возрасте, образовании, языковом происхождении игроков
- Невозможность контролировать эти смешивающие переменные
Языковые ограничения:
- Исследование ограничено английской версией Wordle
- Результаты могут не применяться к другим языкам
Вычислительное приближение:
- Использование эвристики вместо точного оптимального решения (хотя различие минимально)
Причинно-следственный вывод:
- Наблюдательное исследование не может полностью установить причинно-следственные связи
- Невозможно исключить альтернативные объяснения (например, игроки намеренно выбирают интересные слова)

Направления будущих исследований

Хотя статья не содержит явного списка, можно вывести следующие направления:

Кросс-языковые исследования: Проверка выводов в версиях Wordle на других языках
Экспериментальная проверка: Разработка контролируемых экспериментов для прямого манипулирования стимулами прайминга
Индивидуальные различия: Исследование различий между игроками разного уровня навыков и когнитивных стилей
Временная динамика: Анализ того, как предубеждения эволюционируют по ходу игры
Расширение приложений: Применение методологии к другим задачам ограниченного творчества

Глубокая оценка

Преимущества

1. Методологические инновации

Междисциплинарная интеграция: Умелое сочетание теории когнитивной психологии с методами обработки естественного языка
Высокая экологичность: Использование реальных игровых данных вместо лабораторных задач
Многомерное измерение: Одновременное рассмотрение трёх независимых измерений: семантического, орфографического и фонологического
Контекстная чувствительность: Обнаружение модулирующей роли степени ограничения, повышающее объяснительную силу

2. Эмпирическая строгость

Большой размер выборки: 83 000 записей данных обеспечивают достаточную статистическую мощность
Отчётность о размере эффекта: Не только p-значения, но и Cohen's d
Систематический анализ: Слоистый анализ по игровым состояниям (рис. 3, 4)
Проверка независимости показателей: Проверка корреляции между показателями (r=0,06)

3. Теоретический вклад

Новые доказательства эффекта прайминга: Проверка классической теории в естественном игровом сценарии
Ограничение и творчество: Выявление закономерности, что ограничение снижает когнитивные предубеждения
Независимые механизмы: Доказательство независимого действия семантического и орфографического предубеждений

4. Ясность изложения

Логичная структура от предпосылок к методологии и результатам
Эффективная визуализация (сравнение на рис. 1 интуитивно понятно)
Ясная система обозначений (cg, cy, cb)

Недостатки

1. Ограничения причинно-следственного вывода

Наблюдательное исследование не может установить причинно-следственные связи
Невозможно исключить альтернативные объяснения:
- Игроки могут намеренно выбирать интересные/рифмующиеся слова для увеличения удовольствия от игры
- Доступность слов (некоторые слова легче вспомнить) может смешиваться с эффектом прайминга

2. Проблемы репрезентативности данных

Пользователи Reddit могут быть моложе и более технически подкованы
Добровольное распространение может селективно исключать неудачные игры
Отсутствие демографической информации затрудняет оценку обобщаемости

3. Недостаточное объяснение механизмов

Недостаточное исследование почему ограничение снижает предубеждения
- Изменение распределения когнитивных ресурсов?
- Или естественный результат сокращения пространства доступных слов?
Отсутствие обсуждения индивидуальных различий (все игроки рассматриваются как однородная группа)

4. Отсутствие методологических деталей

Не указано, как обрабатывались пропущенные данные или выбросы
Не обсуждается проблема множественных сравнений (проведено множество проверок гипотез)
Не указаны конкретные параметры модели GloVe (размерность, корпус обучения)

5. Ограничения экспериментального дизайна

Рассмотрены только последовательные два предположения, не учитывается более длинная история
Не контролируется влияние начального слова (разные начальные слова могут вызывать разные предубеждения)
Не анализируется сложность игры (некоторые целевые слова могут быть изначально сложнее)

6. Статистические проблемы

При большом размере выборки почти любое различие будет значимым (p<0,001)
Размер эффекта более важен, но некоторые эффекты небольшие (например, -0,0854)
Не проведена коррекция для множественных сравнений (Bonferroni или FDR)

Влияние

1. Академический вклад

Когнитивная наука: Новые экологичные доказательства эффекта прайминга
Вычислительная лингвистика: Демонстрация применения методов обработки естественного языка в когнитивных исследованиях
Исследования игр: Открытие парадигмы использования игр как когнитивной лаборатории

2. Методологическая ценность

Предоставляет воспроизводимый процесс анализа
Открытые инструменты (Doddle) облегчают последующие исследования
Данные общедоступны (данные Reddit)

3. Практическая ценность

Дизайн игр: Понимание поведения игроков может оптимизировать сложность игры
Образовательные приложения: Wordle можно использовать для обучения словарю, понимание когнитивных предубеждений помогает разработать вмешательства
Вспомогательный ИИ: Можно разработать интеллектуальные системы подсказок, учитывающие человеческие предубеждения

4. Влияние ограничений

Предвзятость данных может ограничить обобщаемость
Слабый причинно-следственный вывод снижает практическую ценность
Требуется экспериментальная проверка

Применимые сценарии

1. Прямое применение

Анализ других словесных игр (Spelling Bee, Scrabble)
Исследование когнитивных предубеждений в задачах ограниченного творчества
Разработка игрового ИИ, учитывающего человеческие предубеждения

2. Расширенное применение

Образовательные технологии: Дизайн программного обеспечения для обучения словарю
Взаимодействие человека и компьютера: Понимание поведения пользователя в сценариях ограниченного ввода
Когнитивная оценка: Wordle как инструмент тестирования когнитивных функций

3. Неприменимые сценарии

Полностью свободное творческое письмо (слишком мало ограничений)
Языки, отличные от английского (требуется переповерка)
Задачи, не связанные со словами (например, числовые игры)

Оценка воспроизводимости

Высокая:

Данные общедоступны (Reddit)
Использование открытых инструментов (Doddle)
Ясное описание методологии
Стандартные статистические методы

Потенциальные препятствия:

Версия модели GloVe не указана явно
Недостаточно деталей о предварительной обработке данных
Требования к вычислительным ресурсам (83 000 записей)

Ключевые ссылки

Bertsimas & Paskov (2024): Оптимальное решение Wordle с использованием динамического программирования
Schacter & Buckner (1998): Нейронаучные основы эффекта прайминга
Nelson et al. (1987): Влияние рифмовки на словесные ассоциации и память
Steyvers & Tenenbaum (2005): Крупномасштабная структура семантических сетей
Pennington et al. (2014): Метод встраивания слов GloVe
Underwood et al. (1994): Извлечение слов у экспертов кроссвордов
Levelt (1989): Модель извлечения слов при речепроизводстве

Общая оценка

Это высокого качества исследовательская работа с сильной методологической инновацией, строгой эмпирией и значительным междисциплинарным значением. Её основная ценность заключается в:

Новаторском использовании Wordle как "квазиестественной лаборатории" для когнитивных исследований
Систематической количественной оценке когнитивных предубеждений по трём независимым измерениям
Обнаружении важной закономерности о модулирующей роли ограничения на предубеждения

Основные недостатки связаны с ограничениями причинно-следственного вывода и проблемами репрезентативности данных, но это неотъемлемые ограничения наблюдательных исследований, которые не снижают ценность работы как разведывательного исследования.

Статья предоставляет прочную основу для последующих исследований, особенно в области когнитивной науки игр и экологичных исследований обработки естественного языка. Рекомендуется проведение контролируемых экспериментов для дальнейшей проверки причинных механизмов и расширение на более разнообразные популяции и языки.

Рекомендуемая аудитория: Исследователи и студенты в области когнитивной науки, вычислительной лингвистики, исследований игр и взаимодействия человека и компьютера.