We show that human players' gameplay in the game of Wordle is influenced by the semantics, orthography, and phonology of the player's previous guesses. We compare actual human players' guesses with near-optimal guesses using NLP techniques. We study human language use in the constrained environment of Wordle, which is situated between natural language use and the artificial word association task
Semantic, Orthographic, and Phonological Biases in Humans' Wordle Gameplay
- 论文ID: 2411.18634
- 标题: Semantic, Orthographic, and Phonological Biases in Humans' Wordle Gameplay
- 作者: Jiadong Liang, Adam Kabbara, Jiaying Liu, Ronaldo Luo, Kina Kim, Michael Guerzhoy (University of Toronto)
- 分类: cs.CL (Computational Linguistics)
- 发表时间: 2025年11月13日 (arXiv v2)
- 论文链接: https://arxiv.org/abs/2411.18634
本研究通过分析Wordle游戏中人类玩家的行为,揭示了人类猜词过程受到先前猜测的语义、拼写和语音特征的系统性影响。研究将真实人类玩家的猜测与基于最大熵启发式的近最优策略进行对比,展示了在这个介于自然语言使用和人工词汇联想任务之间的约束环境中,人类语言使用的认知偏差模式。
本研究探讨人类在Wordle游戏中的猜词行为是否系统性地偏离最优策略,以及这些偏离是否受到认知偏差(特别是启动效应priming)的影响。
- 认知科学价值:Wordle提供了一个独特的研究环境,介于完全自由的自然语言使用和高度受控的词汇联想任务之间,为研究人类语言认知提供了新的生态化场景
- 理论意义:验证心理学中的启动效应理论在真实游戏场景中的适用性
- 方法论贡献:展示如何利用NLP技术量化人类认知偏差
- 传统词汇联想研究多在实验室人工任务中进行,缺乏生态效度
- 自然语言使用场景过于复杂,难以控制变量
- 缺乏对约束性词汇生成任务中认知偏差的系统性研究
研究者假设:
- 启动效应(priming)会影响Wordle游戏中的猜词选择
- 人类倾向于选择与先前猜测相似的词汇以减少认知负荷
- 这些偏差可以通过与近最优策略的对比被量化
- 首次系统性证明:人类在Wordle游戏中存在语义、拼写和语音三个维度的认知偏差
- 量化方法:提出了一套完整的方法论,使用多种NLP技术(GloVe嵌入、编辑距离、语音转录等)量化人类与最优策略的差异
- 大规模数据分析:基于Reddit收集的83,000条真实游戏数据进行实证研究
- 情境依赖发现:揭示了认知偏差的强度与游戏状态约束程度的关系——自由度越大,偏差越明显
- 跨学科贡献:为认知心理学、计算语言学和游戏研究提供了交叉领域的研究范式
输入:Wordle游戏中连续的猜测序列
输出:量化人类猜测与近最优策略在多个维度上的差异
约束条件:
- 每个猜测必须是5字母的有效英文单词
- 玩家根据反馈(绿色/黄色/灰色)调整后续猜测
- 目标是在6次尝试内猜中目标单词
研究使用Doddle的基于熵的启发式求解器作为近最优策略:
- 最优解(Bertsimas & Paskov 2024):动态规划方法,平均猜测次数3.421
- 深度1极小极大启发式:最坏情况5次,平均3.482次
- 熵启发式(本研究采用):保证6次内完成,平均3.432次
选择启发式而非精确最优解的原因是计算效率,但性能差异极小(仅0.011次猜测)。
- 定义:将一个单词转换为另一个单词所需的最少编辑操作次数(插入、删除、替换)
- 认知意义:较小的距离表明玩家倾向于选择结构相似的词汇,可能反映了减少认知努力的倾向
- 计算:比较连续两次猜测之间的编辑距离
- 定义:使用GloVe词嵌入的负余弦相似度
- 公式:dsemantic=1−cos(va,vb),其中va,vb是词向量
- 认知意义:检验人类是否倾向于猜测语义相关的词汇(如"BREAD"后猜"TOAST")
- 定义:两个等长字符串对应位置不同字符的数量
- 认知意义:比Levenshtein更严格,只关注固定位置的差异,更符合Wordle的反馈机制
- 实现:使用CMU发音词典进行语音转录
- 判定标准:完美韵(perfect rhyme)——语音结尾匹配且包含重读元音
- 认知意义:检验语音相似性是否影响词汇选择
使用符号 (cg, cy, cb) 表示游戏状态:
- cg:绿色方块数量(正确字母在正确位置)
- cy:黄色方块数量(正确字母在错误位置)
- cb:灰色方块数量(错误字母)
例如:(2, 0, 3)表示2个绿色、0个黄色、3个灰色。
- 效应量:使用Cohen's d衡量人类与近最优策略分布的差异
d=σpooledμhuman−μoptimal
- 显著性检验:基于t统计量计算p值
- 分层分析:按游戏状态分别分析,揭示约束程度对偏差的影响
来源:Reddit的r/Wordle子版块
规模:83,000条游戏记录
收集方法:使用正则表达式提取用户以标准格式分享的游戏数据
数据提供者:Watchful1 (2023)的Reddit数据转储
时间范围:2005-06至2023-12
数据特点:
- 真实玩家在自然游戏环境中的行为
- 自愿分享,可能存在选择偏差
- 仅限英语Wordle游戏
- Cohen's d:量化效应大小
- |d| < 0.2:小效应
- 0.2 ≤ |d| < 0.5:中等效应
- |d| ≥ 0.5:大效应
- p值:统计显著性(阈值p < 0.001)
- 分布可视化:直方图、小提琴图、箱线图
唯一基准:Doddle的基于熵的启发式求解器
- 该方法代表近最优策略
- 性能接近理论最优(仅差0.011次猜测)
- 计算可行,可为所有83,000条数据生成对应的最优猜测
- GloVe模型:预训练的词向量(Pennington et al. 2014)
- 发音库:CMU Pronouncing Dictionary
- 编辑距离:标准Levenshtein算法
- 相关性分析:Pearson相关系数
- 可视化:使用Python的matplotlib和seaborn
- 最优策略:7.3%的猜测与前一次押韵
- 人类玩家:9.3%的猜测与前一次押韵
- 显著性:p < 0.001
- 解释:人类显著倾向于选择语音相似的词汇
案例1:(0, 0, 5) - 完全无信息状态
- Cohen's d = -0.0854 (Levenshtein)
- 人类和最优策略都倾向于选择距离5的词(完全不同)
- 但人类亚优地重复使用已知错误的字母(见图1a)
案例2:(2, 0, 3) - 部分约束状态
- Cohen's d = -1.13 (Levenshtein,大效应)
- p < 10^-12
- 人类显著低估探索:倾向于选择与前次相似的词(见图1b)
- 这是最强的偏差信号之一
案例1:(0, 0, 5) - 无约束
- Cohen's d = -0.437 (GloVe距离)
- p = 1.07×10^-189
- 人类倾向于选择语义更接近的词(见图1c)
案例2:(3, 2, 0) - 高度约束
- Cohen's d = 0.00451
- p = 0.318(不显著)
- 约束强时,语义偏差消失(见图1d)
案例1:(0, 0, 5)
- Cohen's d = 0.157
- 人类亚优地重用已知错误的字符(见图1e)
案例2:(2, 2, 1)
- Cohen's d = 0.289
- 人类亚优地使用新字符而非优化已知信息(见图1f)
绿色方块数量与偏差:
- 绿色越多(约束越强),语义偏差越小
- 0个绿色:Cohen's d约-0.4至-0.6
- 4个绿色:Cohen's d接近0
灰色方块数量与偏差:
- 灰色越多(排除信息越多),偏差减弱
- 表明约束增强时,人类更接近最优策略
关键发现:
"人类在自由度大时表现出更强的认知偏差,而在高度约束时接近最优策略"
Levenshtein与Hamming:
- 所有词对:Pearson r = 0.95(强相关)
- 字符差异<5:Pearson r = 0.81
- 解释:两者都测量拼写相似度,高度相关
Levenshtein与GloVe语义距离:
- Pearson r = 0.06(弱相关)
- 解释:拼写相似度与语义相似度基本独立
- 意义:语义和拼写偏差是独立运作的认知机制(见图2)
虽然论文未提供具体词对案例,但从结果可推断:
语义偏差示例:
- 猜测序列可能包含:"BREAD" → "TOAST" → "ROAST"
- 语义场保持在食物/烹饪领域
拼写偏差示例:
- 在(2,0,3)状态:"CRANE" → "CRATE" → "CRAZE"
- 保留前缀,逐步调整
语音偏差示例:
- 押韵序列:"LIGHT" → "FIGHT" → "SIGHT"
Schacter & Buckner (1998):
- 定义启动为过去经验在无意识情况下影响行为的现象
- 本研究将这一理论应用于游戏场景
Nelson et al. (1987):
- 研究韵律对记忆和词汇联想的影响
- 发现:当被试主动关注韵律时,押韵效应才显现
- 与本研究的9.3% vs 7.3%韵律偏差呼应
Deese (1962), De Deyne & Storms (2008):
- 研究语法类别对词汇联想的影响
- 为本研究的语义偏差提供理论基础
Steyvers & Tenenbaum (2005):
- 分析词汇联想网络的稀疏性(每个词仅连接0.44%的其他词)
- 词汇网络表现出小世界特性和幂律分布
- 支持本研究关于语义偏差的假设
Bertsimas & Paskov (2024):
- 使用动态规划找到精确最优解
- 最佳起始词:"SALET"
- 最小平均猜测次数:3.421
Cross (2022) - Doddle:
- 深度1极小极大启发式:平均3.482次
- 熵启发式:平均3.432次
- 本研究采用的基准方法
Underwood et al. (1994):
- 研究填字游戏专家的词汇检索能力
- 发现专家在字谜、词素操作方面更强
- 表明词汇检索和语音意识对约束性词汇生成任务至关重要
- 为Wordle中的类似机制提供证据
Matusevych & Stevenson (2018):
Luo et al. (2025):
- 预测Wordle游戏中的娱乐反应
- 使用类似特征,但关注情感而非认知偏差
与相关工作的区别:
- 生态效度:真实游戏数据 vs. 实验室任务
- 多维度:同时考察语义、拼写、语音三个维度
- 情境依赖:揭示约束程度对偏差的调节作用
- 计算方法:NLP技术量化认知偏差
- 系统性偏差存在:人类在Wordle中的猜测系统性地偏离最优策略,表现在:
- 语义维度:倾向于选择与先前猜测语义相关的词
- 拼写维度:倾向于选择编辑距离较小的词
- 语音维度:更频繁地选择押韵的词(9.3% vs 7.3%)
- 偏差非随机:这些偏差不是随机误差,而是反映了认知加工的规律性
- 约束的调节作用:
- 自由度高时(如0g0y5b),偏差最显著
- 高度约束时(如3g2y0b),人类接近最优策略
- 表明认知偏差在创造性任务中更明显
- 独立机制:语义和拼写偏差相关性极弱(r=0.06),表明是独立的认知过程
- 研究范式价值:Wordle提供了介于自然语言使用和人工实验任务之间的理想研究环境
论文在第8节明确讨论了以下限制:
- 数据来源偏差:
- 依赖Reddit自愿分享的数据
- 可能存在选择效应(表现好的玩家更愿意分享)
- Reddit用户群体可能不代表一般人口
- 人口统计学因素:
- 缺乏玩家的年龄、教育背景、语言背景等信息
- 无法控制这些混淆变量
- 语言限制:
- 计算近似:
- 因果推断:
- 观察性研究,无法完全确立因果关系
- 无法排除其他解释(如玩家故意选择有趣的词)
虽然论文未明确列出,但可推断的研究方向:
- 跨语言研究:在其他语言的Wordle中验证发现
- 实验验证:设计受控实验直接操纵启动刺激
- 个体差异:研究不同技能水平、认知风格玩家的差异
- 时间动态:分析偏差如何随游戏进程演变
- 应用扩展:将方法应用于其他约束性创造任务
- 跨学科整合:巧妙结合认知心理学理论与NLP技术
- 生态效度高:使用真实游戏数据而非实验室任务
- 多维度测量:同时考察语义、拼写、语音三个独立维度
- 情境敏感:发现约束程度的调节作用,增强解释力
- 大样本:83,000条数据提供充足统计功效
- 效应量报告:不仅报告p值,还报告Cohen's d
- 系统性分析:按游戏状态分层分析(图3、图4)
- 相关性检验:验证指标独立性(r=0.06)
- 启动效应的新证据:在自然游戏场景中验证经典理论
- 约束与创造性:揭示约束减少认知偏差的现象
- 独立机制:证明语义和拼写偏差独立运作
- 结构清晰,从背景到方法到结果逻辑连贯
- 可视化有效(图1的对比直观)
- 符号系统清晰(cg, cy, cb)
- 观察性研究无法确立因果关系
- 无法排除替代解释:
- 玩家可能故意选择有趣/押韵的词以增加游戏乐趣
- 词汇可得性(某些词更容易想到)可能混淆启动效应
- Reddit用户可能更年轻、更精通技术
- 自愿分享可能选择性排除失败游戏
- 缺乏人口统计学信息无法评估泛化性
- 未深入探讨为什么约束减少偏差
- 是认知资源分配改变?
- 还是可用词汇空间缩小的自然结果?
- 未讨论个体差异(所有玩家被当作同质群体)
- 未报告如何处理缺失数据或异常值
- 未说明如何处理多重比较问题(进行了大量假设检验)
- GloVe模型的具体参数(维度、训练语料)未说明
- 仅比较连续两次猜测,未考虑更长历史的影响
- 未控制起始词的影响(不同起始词可能引发不同偏差)
- 未分析游戏难度(某些目标词本身可能更难)
- 大样本下几乎任何差异都会显著(p<0.001)
- 效应量更重要,但部分效应量较小(如-0.0854)
- 未进行多重比较校正(Bonferroni或FDR)
- 认知科学:为启动效应提供新的生态化证据
- 计算语言学:展示NLP技术在认知研究中的应用
- 游戏研究:开创游戏作为认知实验室的范式
- 提供了可复制的分析流程
- 开源工具(Doddle)便于后续研究
- 数据公开可用(Reddit数据)
- 游戏设计:理解玩家行为可优化游戏难度
- 教育应用:Wordle可用于词汇教学,了解认知偏差有助于设计干预
- AI辅助:可开发考虑人类偏差的智能提示系统
- 数据偏差可能限制泛化性
- 因果推断弱化应用价值
- 需要实验研究验证
- 分析其他词汇游戏(如Spelling Bee、Scrabble)
- 研究约束性创造任务中的认知偏差
- 设计考虑人类偏差的游戏AI
- 教育技术:词汇学习软件设计
- 人机交互:理解用户在受限输入场景中的行为
- 认知评估:Wordle作为认知功能测试工具
- 完全自由的创造性写作(约束太少)
- 非英语语言(需要重新验证)
- 非词汇任务(如数字游戏)
高:
- 数据公开可得(Reddit)
- 使用开源工具(Doddle)
- 方法描述清晰
- 统计方法标准
潜在障碍:
- GloVe模型版本未明确
- 数据清洗细节不足
- 计算资源需求(83,000条数据)
- Bertsimas & Paskov (2024): 动态规划的Wordle最优解
- Schacter & Buckner (1998): 启动效应的神经科学基础
- Nelson et al. (1987): 韵律对词汇联想的影响
- Steyvers & Tenenbaum (2005): 语义网络的大规模结构
- Pennington et al. (2014): GloVe词嵌入方法
- Underwood et al. (1994): 填字游戏专家的词汇检索
- Levelt (1989): 言语产生中的词汇提取模型
这是一篇方法论创新性强、实证严谨、跨学科意义显著的优秀研究论文。其核心价值在于:
- 开创性地将Wordle作为认知研究的"准自然实验室"
- 系统性地量化了三个维度的认知偏差
- 发现了约束程度对偏差的调节作用这一重要模式
主要不足在于因果推断的限制和数据代表性问题,但这些是观察性研究的固有局限,不影响其作为探索性研究的价值。
论文为后续研究提供了坚实基础,特别是在游戏认知科学和生态化NLP研究方面具有示范意义。建议后续通过受控实验进一步验证因果机制,并扩展到更多样化的人群和语言。
推荐阅读对象:认知科学、计算语言学、游戏研究、人机交互领域的研究者和学生。