We show that human players' gameplay in the game of Wordle is influenced by the semantics, orthography, and phonology of the player's previous guesses. We compare actual human players' guesses with near-optimal guesses using NLP techniques. We study human language use in the constrained environment of Wordle, which is situated between natural language use and the artificial word association task
Biais Sémantiques, Orthographiques et Phonologiques dans le Jeu Wordle chez les Humains
- ID de l'article : 2411.18634
- Titre : Semantic, Orthographic, and Phonological Biases in Humans' Wordle Gameplay
- Auteurs : Jiadong Liang, Adam Kabbara, Jiaying Liu, Ronaldo Luo, Kina Kim, Michael Guerzhoy (Université de Toronto)
- Classification : cs.CL (Linguistique Computationnelle)
- Date de publication : 13 novembre 2025 (arXiv v2)
- Lien de l'article : https://arxiv.org/abs/2411.18634
Cette étude révèle, par l'analyse du comportement des joueurs humains dans le jeu Wordle, que le processus de devinage des mots est systématiquement influencé par les caractéristiques sémantiques, orthographiques et phonologiques des suppositions précédentes. L'étude compare les suppositions de véritables joueurs humains avec une stratégie quasi-optimale basée sur l'heuristique d'entropie maximale, mettant en évidence les schémas de biais cognitifs dans l'utilisation du langage humain dans cet environnement contraint, situé entre l'utilisation naturelle du langage et les tâches d'association lexicale artificielles.
Cette étude examine si le comportement de devinage des mots chez les humains dans Wordle s'écarte systématiquement de la stratégie optimale, et si ces écarts sont influencés par des biais cognitifs (en particulier l'effet d'amorçage ou priming).
- Valeur en sciences cognitives : Wordle offre un environnement de recherche unique, situé entre l'utilisation complètement libre du langage naturel et les tâches d'association lexicale hautement contrôlées, fournissant un scénario écologiquement valide pour l'étude de la cognition linguistique humaine
- Signification théorique : Vérifier l'applicabilité de la théorie de l'effet d'amorçage en psychologie dans des scénarios de jeu réels
- Contribution méthodologique : Démontrer comment utiliser les techniques de TAL pour quantifier les biais cognitifs humains
- Les études traditionnelles d'association lexicale se déroulent principalement dans des tâches artificielles en laboratoire, manquant de validité écologique
- Les scénarios d'utilisation du langage naturel sont trop complexes pour contrôler les variables
- Absence d'étude systématique des biais cognitifs dans les tâches de génération lexicale contraintes
Les chercheurs supposent que :
- L'effet d'amorçage (priming) influence les choix de devinage dans Wordle
- Les humains tendent à sélectionner des mots similaires aux suppositions précédentes pour réduire la charge cognitive
- Ces écarts peuvent être quantifiés par comparaison avec une stratégie quasi-optimale
- Première démonstration systématique : L'existence de biais cognitifs chez les humains dans Wordle selon trois dimensions : sémantique, orthographique et phonologique
- Méthode de quantification : Proposition d'une méthodologie complète utilisant diverses techniques de TAL (plongements GloVe, distance d'édition, transcription phonétique, etc.) pour quantifier les différences entre les humains et la stratégie optimale
- Analyse de données à grande échelle : Étude empirique basée sur 83 000 données de jeu réelles collectées sur Reddit
- Découvertes contextuelles : Révélation de la relation entre l'intensité des biais cognitifs et le degré de contrainte de l'état du jeu — plus la liberté est grande, plus l'écart est manifeste
- Contribution interdisciplinaire : Fourniture d'un paradigme de recherche interdisciplinaire pour la psychologie cognitive, la linguistique computationnelle et les études de jeu
Entrée : Séquence de suppositions consécutives dans le jeu Wordle
Sortie : Quantification des différences entre les suppositions humaines et la stratégie quasi-optimale selon plusieurs dimensions
Conditions de contrainte :
- Chaque supposition doit être un mot anglais valide de 5 lettres
- Les joueurs ajustent les suppositions suivantes en fonction du retour d'information (vert/jaune/gris)
- L'objectif est de deviner le mot cible en 6 tentatives maximum
L'étude utilise le solveur heuristique basé sur l'entropie de Doddle comme stratégie quasi-optimale :
- Solution optimale (Bertsimas & Paskov 2024) : Approche de programmation dynamique, moyenne de 3,421 suppositions
- Heuristique minimax de profondeur 1 : Pire cas 5, moyenne 3,482 suppositions
- Heuristique d'entropie (adoptée dans cette étude) : Garantit l'achèvement en 6 tentatives, moyenne 3,432 suppositions
Le choix d'une heuristique plutôt qu'une solution exacte optimale est justifié par l'efficacité computationnelle, mais la différence de performance est minime (seulement 0,011 suppositions).
- Définition : Nombre minimum d'opérations d'édition (insertion, suppression, substitution) nécessaires pour transformer un mot en un autre
- Signification cognitive : Une distance plus petite indique que le joueur tend à sélectionner des mots structurellement similaires, reflétant potentiellement une tendance à réduire l'effort cognitif
- Calcul : Comparaison de la distance d'édition entre deux suppositions consécutives
- Définition : Similarité cosinus négative des plongements de mots GloVe
- Formule : dseˊmantique=1−cos(va,vb), où va,vb sont les vecteurs de mots
- Signification cognitive : Vérifier si les humains tendent à deviner des mots sémantiquement liés (par exemple, "BREAD" suivi de "TOAST")
- Définition : Nombre de caractères différents aux positions correspondantes dans deux chaînes de même longueur
- Signification cognitive : Plus stricte que Levenshtein, se concentrant uniquement sur les différences de position fixe, s'alignant mieux avec le mécanisme de retour d'information de Wordle
- Implémentation : Utilisation du dictionnaire de prononciation CMU pour la transcription phonétique
- Critère de jugement : Rime parfaite (perfect rhyme) — correspondance des terminaisons phonétiques et inclusion d'une voyelle accentuée
- Signification cognitive : Vérifier si la similarité phonétique influence la sélection lexicale
Utilisation du symbole (cg, cy, cb) pour représenter l'état du jeu :
- cg : Nombre de carrés verts (lettre correcte à la bonne position)
- cy : Nombre de carrés jaunes (lettre correcte à la mauvaise position)
- cb : Nombre de carrés gris (lettre incorrecte)
Par exemple : (2, 0, 3) représente 2 verts, 0 jaune, 3 gris.
- Taille d'effet : Utilisation de d de Cohen pour mesurer la différence entre les distributions humaines et quasi-optimales
d=σregroupeˊμhumain−μoptimal
- Test de signification : Calcul de la valeur p basé sur la statistique t
- Analyse stratifiée : Analyse séparée par état du jeu, révélant l'impact du degré de contrainte sur l'écart
Source : Sous-section r/Wordle de Reddit
Taille : 83 000 enregistrements de jeu
Méthode de collecte : Extraction utilisant des expressions régulières des données de jeu partagées par les utilisateurs dans un format standard
Fournisseur de données : Watchful1 (2023) Reddit Data Dump
Plage temporelle : Juin 2005 - Décembre 2023
Caractéristiques des données :
- Comportement de véritables joueurs dans un environnement de jeu naturel
- Partage volontaire, pouvant présenter un biais de sélection
- Limité au jeu Wordle en anglais
- d de Cohen : Quantification de la taille d'effet
- |d| < 0,2 : Petit effet
- 0,2 ≤ |d| < 0,5 : Effet moyen
- |d| ≥ 0,5 : Grand effet
- Valeur p : Signification statistique (seuil p < 0,001)
- Visualisation de distribution : Histogrammes, graphiques en violon, boîtes à moustaches
Référence unique : Solveur heuristique basé sur l'entropie de Doddle
- Cette méthode représente la stratégie quasi-optimale
- Les performances sont proches de l'optimum théorique (différence de seulement 0,011 suppositions)
- Calculable, capable de générer les suppositions optimales correspondantes pour les 83 000 données
- Modèle GloVe : Vecteurs de mots pré-entraînés (Pennington et al. 2014)
- Bibliothèque de prononciation : CMU Pronouncing Dictionary
- Distance d'édition : Algorithme standard de Levenshtein
- Analyse de corrélation : Coefficient de corrélation de Pearson
- Visualisation : Utilisation de matplotlib et seaborn de Python
- Stratégie optimale : 7,3 % des suppositions riment avec la précédente
- Joueurs humains : 9,3 % des suppositions riment avec la précédente
- Signification : p < 0,001
- Interprétation : Les humains tendent significativement à sélectionner des mots phonétiquement similaires
Cas 1 : (0, 0, 5) - État complètement non informatif
- d de Cohen = -0,0854 (Levenshtein)
- Les humains et la stratégie optimale tendent tous deux à sélectionner des mots à distance 5 (complètement différents)
- Cependant, les humains sous-optimalement réutilisent les lettres déjà connues comme incorrectes (voir figure 1a)
Cas 2 : (2, 0, 3) - État partiellement contraint
- d de Cohen = -1,13 (Levenshtein, grand effet)
- p < 10^-12
- Les humains sous-estiment significativement l'exploration : tendance à sélectionner des mots similaires à la supposition précédente (voir figure 1b)
- C'est l'un des signaux d'écart les plus forts
Cas 1 : (0, 0, 5) - Non contraint
- d de Cohen = -0,437 (distance GloVe)
- p = 1,07×10^-189
- Les humains tendent à sélectionner des mots sémantiquement plus proches (voir figure 1c)
Cas 2 : (3, 2, 0) - Hautement contraint
- d de Cohen = 0,00451
- p = 0,318 (non significatif)
- Lorsque la contrainte est forte, l'écart sémantique disparaît (voir figure 1d)
Cas 1 : (0, 0, 5)
- d de Cohen = 0,157
- Les humains sous-optimalement réutilisent les caractères déjà connus comme incorrects (voir figure 1e)
Cas 2 : (2, 2, 1)
- d de Cohen = 0,289
- Les humains sous-optimalement utilisent de nouveaux caractères plutôt que d'optimiser les informations connues (voir figure 1f)
Nombre de carrés verts et écart :
- Plus il y a de verts (contrainte plus forte), plus l'écart sémantique est petit
- 0 vert : d de Cohen environ -0,4 à -0,6
- 4 verts : d de Cohen proche de 0
Nombre de carrés gris et écart :
- Plus il y a de gris (plus d'informations d'exclusion), plus l'écart s'affaiblit
- Indique que lorsque la contrainte augmente, les humains se rapprochent de la stratégie optimale
Découverte clé :
« Les humains présentent des biais cognitifs plus forts lorsque la liberté est grande, tandis qu'ils se rapprochent de la stratégie optimale lorsque la contrainte est forte »
Levenshtein et Hamming :
- Toutes les paires de mots : Pearson r = 0,95 (corrélation forte)
- Différence de caractères < 5 : Pearson r = 0,81
- Interprétation : Les deux mesurent la similarité orthographique, hautement corrélées
Levenshtein et Distance Sémantique GloVe :
- Pearson r = 0,06 (corrélation faible)
- Interprétation : La similarité orthographique et la similarité sémantique sont essentiellement indépendantes
- Signification : Les biais sémantiques et orthographiques fonctionnent comme des mécanismes cognitifs indépendants (voir figure 2)
Bien que l'article ne fournisse pas d'exemples spécifiques de paires de mots, les résultats permettent de déduire :
Exemple d'écart sémantique :
- La séquence de suppositions pourrait inclure : « BREAD » → « TOAST » → « ROAST »
- Le champ sémantique reste dans le domaine alimentaire/culinaire
Exemple d'écart orthographique :
- À l'état (2,0,3) : « CRANE » → « CRATE » → « CRAZE »
- Préservation du préfixe, ajustement progressif
Exemple d'écart phonologique :
- Séquence rimée : « LIGHT » → « FIGHT » → « SIGHT »
Schacter & Buckner (1998) :
- Définition de l'amorçage comme l'influence inconsciente des expériences passées sur le comportement
- Cette étude applique cette théorie au contexte du jeu
Nelson et al. (1987) :
- Étude de l'influence de la rime sur la mémoire et l'association lexicale
- Découverte : L'effet de rime n'apparaît que lorsque les participants se concentrent activement sur la rime
- Correspond à l'écart de rime de 9,3 % vs 7,3 % de cette étude
Deese (1962), De Deyne & Storms (2008) :
- Étude de l'influence de la catégorie grammaticale sur l'association lexicale
- Fournit une base théorique pour l'écart sémantique de cette étude
Steyvers & Tenenbaum (2005) :
- Analyse de la parcimonie des réseaux d'association lexicale (chaque mot ne se connecte qu'à 0,44 % des autres mots)
- Les réseaux lexicaux présentent des propriétés de petit monde et une distribution en loi de puissance
- Soutient l'hypothèse de cette étude concernant l'écart sémantique
Bertsimas & Paskov (2024) :
- Utilisation de la programmation dynamique pour trouver la solution exacte optimale
- Meilleur mot de départ : « SALET »
- Nombre minimum moyen de suppositions : 3,421
Cross (2022) - Doddle :
- Heuristique minimax de profondeur 1 : moyenne 3,482 suppositions
- Heuristique d'entropie : moyenne 3,432 suppositions
- Méthode de référence adoptée par cette étude
Underwood et al. (1994) :
- Étude de la capacité de récupération lexicale des experts en mots croisés
- Découverte : Les experts sont plus forts dans la manipulation de mots croisés et de morphèmes
- Indique que la récupération lexicale et la conscience phonétique sont cruciales pour les tâches de génération lexicale contraintes
- Fournit des preuves de mécanismes similaires dans Wordle
Matusevych & Stevenson (2018) :
- Étude de l'association lexicale humaine basée sur les propriétés lexicales
- Cette étude étend le travail au contexte du jeu
Luo et al. (2025) :
- Prédiction des réactions de divertissement dans le jeu Wordle
- Utilise des caractéristiques similaires, mais se concentre sur l'émotion plutôt que sur les biais cognitifs
Différences par rapport aux travaux connexes :
- Validité écologique : Données de jeu réelles vs. tâches en laboratoire
- Multidimensionnalité : Examen simultané de trois dimensions : sémantique, orthographique, phonologique
- Dépendance contextuelle : Révélation du rôle modérateur du degré de contrainte sur l'écart
- Méthode computationnelle : Utilisation de techniques de TAL pour quantifier les biais cognitifs
- Existence d'écarts systématiques : Les suppositions humaines dans Wordle s'écartent systématiquement de la stratégie optimale, se manifestant par :
- Dimension sémantique : Tendance à sélectionner des mots sémantiquement liés aux suppositions précédentes
- Dimension orthographique : Tendance à sélectionner des mots avec une distance d'édition plus petite
- Dimension phonologique : Sélection plus fréquente de mots rimés (9,3 % vs 7,3 %)
- Non-aléatoire des écarts : Ces écarts ne sont pas des erreurs aléatoires, mais reflètent la régularité du traitement cognitif
- Rôle modérateur de la contrainte :
- Lorsque la liberté est grande (comme 0g0y5b), l'écart est le plus manifeste
- Lorsque la contrainte est forte (comme 3g2y0b), les humains se rapprochent de la stratégie optimale
- Indique que les biais cognitifs sont plus évidents dans les tâches créatives
- Mécanismes indépendants : La corrélation extrêmement faible entre les biais sémantiques et orthographiques (r=0,06) indique qu'il s'agit de processus cognitifs indépendants
- Valeur du paradigme de recherche : Wordle offre un environnement de recherche idéal situé entre l'utilisation naturelle du langage et les tâches expérimentales artificielles
L'article discute explicitement les limitations suivantes à la section 8 :
- Biais de source de données :
- Dépendance aux données volontairement partagées sur Reddit
- Possible effet de sélection (les joueurs performants sont plus enclins à partager)
- La population Reddit peut ne pas représenter la population générale
- Facteurs démographiques :
- Absence d'informations sur l'âge, le niveau d'éducation, l'origine linguistique des joueurs, etc.
- Impossibilité de contrôler ces variables confondantes
- Limitation linguistique :
- Étude limitée à Wordle en anglais
- Les résultats peuvent ne pas s'appliquer à d'autres langues
- Approximation computationnelle :
- Utilisation d'une heuristique plutôt que de la solution exacte optimale (bien que la différence soit minime)
- Inférence causale :
- Étude observationnelle, impossible d'établir complètement la causalité
- Impossible d'exclure d'autres explications (par exemple, les joueurs choisissent intentionnellement des mots intéressants)
Bien que l'article ne les énumère pas explicitement, les directions de recherche déductibles incluent :
- Recherche multilingue : Vérification des découvertes dans Wordle dans d'autres langues
- Vérification expérimentale : Conception d'expériences contrôlées manipulant directement les stimuli d'amorçage
- Différences individuelles : Étude des différences entre joueurs de niveaux de compétence et styles cognitifs différents
- Dynamique temporelle : Analyse de l'évolution des biais au cours du jeu
- Extension d'application : Application de la méthode à d'autres tâches créatives contraintes
- Intégration interdisciplinaire : Combinaison ingénieuse de la théorie de psychologie cognitive avec les techniques de TAL
- Validité écologique élevée : Utilisation de données de jeu réelles plutôt que de tâches en laboratoire
- Mesure multidimensionnelle : Examen simultané de trois dimensions indépendantes : sémantique, orthographique, phonologique
- Sensibilité contextuelle : Découverte du rôle modérateur du degré de contrainte, renforçant le pouvoir explicatif
- Grand échantillon : 83 000 données fournissent une puissance statistique suffisante
- Rapport de taille d'effet : Rapport non seulement des valeurs p, mais aussi du d de Cohen
- Analyse systématique : Analyse stratifiée par état du jeu (figures 3, 4)
- Vérification de corrélation : Vérification de l'indépendance des indicateurs (r=0,06)
- Nouvelle preuve de l'effet d'amorçage : Vérification de la théorie classique dans un scénario de jeu naturel
- Contrainte et créativité : Révélation du phénomène selon lequel la contrainte réduit les biais cognitifs
- Mécanismes indépendants : Preuve que les biais sémantiques et orthographiques fonctionnent indépendamment
- Structure claire, logique cohérente du contexte à la méthode aux résultats
- Visualisation efficace (les comparaisons de la figure 1 sont intuitives)
- Système de notation clair (cg, cy, cb)
- Étude observationnelle incapable d'établir la causalité
- Impossible d'exclure les explications alternatives :
- Les joueurs peuvent intentionnellement choisir des mots intéressants/rimés pour augmenter le plaisir du jeu
- La disponibilité lexicale (certains mots sont plus faciles à concevoir) peut confondre l'effet d'amorçage
- Les utilisateurs de Reddit peuvent être plus jeunes et plus avertis technologiquement
- Le partage volontaire peut exclure sélectivement les jeux perdus
- L'absence d'informations démographiques rend impossible l'évaluation de la généralisabilité
- Exploration insuffisante du pourquoi la contrainte réduit les écarts
- L'allocation des ressources cognitives change-t-elle ?
- Ou est-ce simplement le résultat naturel de la réduction de l'espace lexical disponible ?
- Absence de discussion sur les différences individuelles (tous les joueurs traités comme un groupe homogène)
- Absence de rapport sur le traitement des données manquantes ou des valeurs aberrantes
- Absence de mention du traitement du problème de comparaisons multiples (nombreux tests d'hypothèse effectués)
- Paramètres spécifiques du modèle GloVe (dimension, corpus d'entraînement) non spécifiés
- Comparaison limitée à deux suppositions consécutives, sans considération de l'historique plus long
- Absence de contrôle de l'effet du mot de départ (différents mots de départ peuvent induire différents écarts)
- Absence d'analyse de la difficulté du jeu (certains mots cibles peuvent être intrinsèquement plus difficiles)
- Avec de grands échantillons, presque toute différence devient significative (p<0,001)
- La taille d'effet est plus importante, mais certains effets sont petits (par exemple, -0,0854)
- Absence de correction pour comparaisons multiples (Bonferroni ou FDR)
- Sciences cognitives : Fournit de nouvelles preuves écologiquement valides de l'effet d'amorçage
- Linguistique computationnelle : Démontre l'application des techniques de TAL à la recherche cognitive
- Études de jeu : Inaugure le paradigme du jeu comme laboratoire cognitif
- Fournit un processus d'analyse reproductible
- Les outils open-source (Doddle) facilitent la recherche ultérieure
- Les données sont accessibles au public (données Reddit)
- Conception de jeu : La compréhension du comportement des joueurs peut optimiser la difficulté du jeu
- Application éducative : Wordle peut être utilisé pour l'enseignement du vocabulaire ; la compréhension des biais cognitifs aide à concevoir des interventions
- IA assistée : Développement de systèmes de suggestion intelligents tenant compte des biais humains
- Le biais des données peut limiter la généralisabilité
- L'inférence causale faible réduit la valeur d'application
- Nécessite une vérification expérimentale
- Analyse d'autres jeux lexicaux (comme Spelling Bee, Scrabble)
- Étude des biais cognitifs dans les tâches de génération lexicale contraintes
- Conception d'IA de jeu considérant les biais humains
- Technologie éducative : Conception de logiciels d'apprentissage du vocabulaire
- Interaction homme-machine : Compréhension du comportement des utilisateurs dans les scénarios d'entrée restreinte
- Évaluation cognitive : Wordle comme outil de test de fonction cognitive
- Écriture créative complètement libre (trop peu de contrainte)
- Langues non-anglaises (nécessite re-vérification)
- Tâches non-lexicales (comme les jeux numériques)
Élevée :
- Données accessibles au public (Reddit)
- Utilisation d'outils open-source (Doddle)
- Description claire de la méthode
- Méthodes statistiques standard
Obstacles Potentiels :
- Version du modèle GloVe non explicitement spécifiée
- Détails insuffisants du nettoyage des données
- Exigences en ressources computationnelles (83 000 données)
- Bertsimas & Paskov (2024) : Solution optimale de Wordle par programmation dynamique
- Schacter & Buckner (1998) : Fondations neuroscientifiques de l'effet d'amorçage
- Nelson et al. (1987) : Influence de la rime sur l'association lexicale et la mémoire
- Steyvers & Tenenbaum (2005) : Structure à grande échelle des réseaux sémantiques
- Pennington et al. (2014) : Méthode d'plongement de mots GloVe
- Underwood et al. (1994) : Récupération lexicale chez les experts en mots croisés
- Levelt (1989) : Modèle d'extraction lexicale dans la production de parole
Ceci est un article de recherche d'excellente qualité avec une forte innovation méthodologique, une rigueur empirique et une signification interdisciplinaire remarquable. Sa valeur essentielle réside dans :
- Ouverture pionnière de Wordle comme « laboratoire quasi-naturel » pour la recherche cognitive
- Quantification systématique des biais cognitifs selon trois dimensions
- Découverte du rôle modérateur du degré de contrainte sur les biais cognitifs — un schéma important
Les principales insuffisances résident dans les limitations de l'inférence causale et les problèmes de représentativité des données, mais ce sont des limitations inhérentes à la recherche observationnelle, n'affectant pas sa valeur en tant qu'étude exploratoire.
L'article fournit une base solide pour la recherche ultérieure, particulièrement en ce qui concerne la science cognitive des jeux et la recherche en TAL écologiquement valide. Il est recommandé que la recherche ultérieure vérifie les mécanismes causaux par des expériences contrôlées et étende l'étude à des populations plus diversifiées et à d'autres langues.
Lecteurs Recommandés : Chercheurs et étudiants dans les domaines des sciences cognitives, de la linguistique computationnelle, des études de jeu et de l'interaction homme-machine.