We show that human players' gameplay in the game of Wordle is influenced by the semantics, orthography, and phonology of the player's previous guesses. We compare actual human players' guesses with near-optimal guesses using NLP techniques. We study human language use in the constrained environment of Wordle, which is situated between natural language use and the artificial word association task
- ID del Artículo: 2411.18634
- Título: Semantic, Orthographic, and Phonological Biases in Humans' Wordle Gameplay
- Autores: Jiadong Liang, Adam Kabbara, Jiaying Liu, Ronaldo Luo, Kina Kim, Michael Guerzhoy (Universidad de Toronto)
- Clasificación: cs.CL (Lingüística Computacional)
- Fecha de Publicación: 13 de noviembre de 2025 (arXiv v2)
- Enlace del Artículo: https://arxiv.org/abs/2411.18634
Este estudio analiza el comportamiento de jugadores humanos en el juego Wordle para revelar cómo el proceso de adivinanza de palabras está sistemáticamente influenciado por características semánticas, ortográficas y fonológicas de adivinanzas previas. La investigación contrasta las adivinanzas de jugadores humanos reales con estrategias casi óptimas basadas en heurísticas de máxima entropía, demostrando patrones de sesgos cognitivos en el uso del lenguaje humano dentro de un entorno restrictivo que se sitúa entre el uso del lenguaje natural y tareas de asociación léxica artificial.
Este estudio investiga si el comportamiento de adivinanza de palabras de humanos en Wordle se desvía sistemáticamente de la estrategia óptima, y si estas desviaciones están influenciadas por sesgos cognitivos (particularmente el efecto de priming o activación).
- Valor en Ciencia Cognitiva: Wordle proporciona un entorno de investigación único, situado entre el uso completamente libre del lenguaje natural y tareas de asociación léxica altamente controladas, ofreciendo un escenario ecológico novedoso para investigar la cognición del lenguaje humano
- Significado Teórico: Verificar la aplicabilidad de la teoría del efecto de priming de la psicología en escenarios de juego reales
- Contribución Metodológica: Demostrar cómo utilizar técnicas de PNL para cuantificar sesgos cognitivos humanos
- Los estudios tradicionales de asociación léxica se realizan principalmente en tareas artificiales de laboratorio, careciendo de validez ecológica
- Los escenarios de uso del lenguaje natural son demasiado complejos para controlar variables
- Falta investigación sistemática sobre sesgos cognitivos en tareas de generación léxica restrictiva
Los investigadores plantean la hipótesis de que:
- El efecto de priming influye en las selecciones de adivinanzas en Wordle
- Los humanos tienden a seleccionar vocabulario similar a adivinanzas previas para reducir la carga cognitiva
- Estos sesgos pueden cuantificarse mediante contraste con estrategias casi óptimas
- Primera Demostración Sistemática: Evidencia de que los humanos exhiben sesgos cognitivos en tres dimensiones (semántica, ortografía y fonología) en Wordle
- Metodología de Cuantificación: Propone un conjunto completo de metodologías utilizando múltiples técnicas de PNL (incrustaciones GloVe, distancia de edición, transcripción fonética, etc.) para cuantificar diferencias entre humanos y estrategia óptima
- Análisis de Datos a Gran Escala: Estudio empírico basado en 83,000 registros de juegos reales recopilados de Reddit
- Descubrimientos Dependientes del Contexto: Revela la relación entre la intensidad de sesgos cognitivos y el grado de restricción del estado del juego—mayor libertad resulta en sesgos más evidentes
- Contribución Interdisciplinaria: Proporciona un paradigma de investigación de campos cruzados para psicología cognitiva, lingüística computacional e investigación de juegos
Entrada: Secuencia de adivinanzas consecutivas en el juego Wordle
Salida: Cuantificación de diferencias entre adivinanzas humanas y estrategia casi óptima en múltiples dimensiones
Condiciones Restrictivas:
- Cada adivinanza debe ser una palabra válida en inglés de 5 letras
- Los jugadores ajustan adivinanzas posteriores según retroalimentación (verde/amarillo/gris)
- El objetivo es adivinar la palabra objetivo dentro de 6 intentos
El estudio utiliza el solucionador heurístico basado en entropía de Doddle como estrategia casi óptima:
- Solución Óptima (Bertsimas & Paskov 2024): Método de programación dinámica, promedio de 3.421 adivinanzas
- Heurística Minimax de Profundidad 1: Peor caso 5, promedio 3.482 adivinanzas
- Heurística de Entropía (adoptada en este estudio): Garantiza finalización en 6 intentos, promedio 3.432 adivinanzas
La razón para elegir heurística en lugar de solución exacta óptima es la eficiencia computacional, pero la diferencia de rendimiento es mínima (solo 0.011 adivinanzas).
- Definición: Número mínimo de operaciones de edición (inserción, eliminación, sustitución) necesarias para transformar una palabra en otra
- Significado Cognitivo: Una distancia menor indica que los jugadores tienden a seleccionar vocabulario con estructura similar, posiblemente reflejando la tendencia de reducir esfuerzo cognitivo
- Cálculo: Comparación de distancia de edición entre dos adivinanzas consecutivas
- Definición: Similitud de coseno negativa de incrustaciones de palabras GloVe
- Fórmula: dsemantic=1−cos(va,vb), donde va,vb son vectores de palabras
- Significado Cognitivo: Verifica si los humanos tienden a adivinar palabras semánticamente relacionadas (como "BREAD" seguido de "TOAST")
- Definición: Número de caracteres en posiciones correspondientes que difieren entre dos cadenas de igual longitud
- Significado Cognitivo: Más estricto que Levenshtein, solo se enfoca en diferencias en posiciones fijas, más alineado con el mecanismo de retroalimentación de Wordle
- Implementación: Utiliza el diccionario de pronunciación CMU para transcripción fonética
- Criterio de Determinación: Rima perfecta (perfect rhyme)—coincidencia de terminación fonética e inclusión de vocal acentuada
- Significado Cognitivo: Verifica si la similitud fonética influye en la selección de vocabulario
Se utiliza el símbolo (cg, cy, cb) para representar el estado del juego:
- cg: Número de cuadrados verdes (letra correcta en posición correcta)
- cy: Número de cuadrados amarillos (letra correcta en posición incorrecta)
- cb: Número de cuadrados grises (letra incorrecta)
Por ejemplo: (2, 0, 3) representa 2 verdes, 0 amarillos, 3 grises.
- Tamaño del Efecto: Utiliza la d de Cohen para medir diferencias entre distribuciones humanas y óptimas
d=σpooledμhuman−μoptimal
- Prueba de Significancia: Cálculo de valor p basado en estadístico t
- Análisis Estratificado: Análisis separado por estado del juego, revelando el impacto del grado de restricción en sesgos
Fuente: Subreddit r/Wordle de Reddit
Escala: 83,000 registros de juegos
Método de Recopilación: Extracción mediante expresiones regulares de datos de juegos compartidos por usuarios en formato estándar
Proveedor de Datos: Volcado de datos de Reddit de Watchful1 (2023)
Rango Temporal: Junio de 2005 a diciembre de 2023
Características de los Datos:
- Comportamiento de jugadores reales en entorno de juego natural
- Compartido voluntariamente, puede existir sesgo de selección
- Limitado a juegos Wordle en inglés
- d de Cohen: Cuantificación del tamaño del efecto
- |d| < 0.2: Efecto pequeño
- 0.2 ≤ |d| < 0.5: Efecto medio
- |d| ≥ 0.5: Efecto grande
- Valor p: Significancia estadística (umbral p < 0.001)
- Visualización de Distribuciones: Histogramas, gráficos de violín, diagramas de caja
Único Punto de Referencia: Solucionador heurístico basado en entropía de Doddle
- Este método representa la estrategia casi óptima
- Rendimiento cercano al óptimo teórico (solo 0.011 adivinanzas de diferencia)
- Computacionalmente viable, puede generar adivinanzas óptimas correspondientes para los 83,000 datos
- Modelo GloVe: Vectores de palabras preentrenados (Pennington et al. 2014)
- Biblioteca de Pronunciación: CMU Pronouncing Dictionary
- Distancia de Edición: Algoritmo estándar de Levenshtein
- Análisis de Correlación: Coeficiente de correlación de Pearson
- Visualización: Uso de matplotlib y seaborn de Python
- Estrategia Óptima: 7.3% de adivinanzas riman con la anterior
- Jugadores Humanos: 9.3% de adivinanzas riman con la anterior
- Significancia: p < 0.001
- Interpretación: Los humanos muestran una tendencia significativa a seleccionar palabras fonéticamente similares
Caso 1: (0, 0, 5) - Estado Completamente Sin Información
- d de Cohen = -0.0854 (Levenshtein)
- Tanto humanos como estrategia óptima tienden a seleccionar palabras con distancia 5 (completamente diferentes)
- Pero los humanos subóptimamente reutilizan letras conocidas como incorrectas (ver Figura 1a)
Caso 2: (2, 0, 3) - Estado Parcialmente Restrictivo
- d de Cohen = -1.13 (Levenshtein, efecto grande)
- p < 10^-12
- Los humanos subestiman significativamente la exploración: tienden a seleccionar palabras similares a la anterior (ver Figura 1b)
- Esta es una de las señales de sesgo más fuertes
Caso 1: (0, 0, 5) - Sin Restricción
- d de Cohen = -0.437 (distancia GloVe)
- p = 1.07×10^-189
- Los humanos tienden a seleccionar palabras semánticamente más cercanas (ver Figura 1c)
Caso 2: (3, 2, 0) - Altamente Restrictivo
- d de Cohen = 0.00451
- p = 0.318 (no significativo)
- Cuando la restricción es fuerte, el sesgo semántico desaparece (ver Figura 1d)
Caso 1: (0, 0, 5)
- d de Cohen = 0.157
- Los humanos subóptimamente reutilizan caracteres conocidos como incorrectos (ver Figura 1e)
Caso 2: (2, 2, 1)
- d de Cohen = 0.289
- Los humanos subóptimamente utilizan caracteres nuevos en lugar de optimizar información conocida (ver Figura 1f)
Número de Cuadrados Verdes y Sesgo:
- Cuantos más verdes (mayor restricción), menor sesgo semántico
- 0 verdes: d de Cohen aproximadamente -0.4 a -0.6
- 4 verdes: d de Cohen cercano a 0
Número de Cuadrados Grises y Sesgo:
- Cuantos más grises (más información de exclusión), menor sesgo
- Indica que cuando la restricción aumenta, los humanos se acercan más a la estrategia óptima
Hallazgo Clave:
"Los humanos exhiben sesgos cognitivos más fuertes cuando el grado de libertad es mayor, mientras que se acercan a la estrategia óptima cuando están altamente restringidos"
Levenshtein vs. Hamming:
- Todos los pares de palabras: Pearson r = 0.95 (correlación fuerte)
- Diferencia de caracteres < 5: Pearson r = 0.81
- Interpretación: Ambos miden similitud ortográfica, altamente correlacionados
Levenshtein vs. Distancia Semántica GloVe:
- Pearson r = 0.06 (correlación débil)
- Interpretación: Similitud ortográfica y similitud semántica son básicamente independientes
- Significado: Sesgos semánticos y ortográficos operan como mecanismos cognitivos independientes (ver Figura 2)
Aunque el artículo no proporciona casos específicos de pares de palabras, los resultados permiten inferir:
Ejemplo de Sesgo Semántico:
- La secuencia de adivinanzas podría incluir: "BREAD" → "TOAST" → "ROAST"
- El campo semántico se mantiene en el dominio de alimentos/cocina
Ejemplo de Sesgo Ortográfico:
- En estado (2,0,3): "CRANE" → "CRATE" → "CRAZE"
- Conserva el prefijo, ajusta gradualmente
Ejemplo de Sesgo Fonético:
- Secuencia de rimas: "LIGHT" → "FIGHT" → "SIGHT"
Schacter & Buckner (1998):
- Define el priming como el fenómeno donde experiencias pasadas influyen inconscientemente en el comportamiento
- Este estudio aplica esta teoría al contexto de juegos
Nelson et al. (1987):
- Investiga la influencia de la rima en la memoria y asociación léxica
- Hallazgo: El efecto de rima solo se manifiesta cuando los participantes atienden activamente a la rima
- Corresponde con el sesgo de rima del 9.3% vs 7.3% de este estudio
Deese (1962), De Deyne & Storms (2008):
- Investiga la influencia de categorías gramaticales en asociación léxica
- Proporciona base teórica para el sesgo semántico de este estudio
Steyvers & Tenenbaum (2005):
- Analiza la dispersión de redes de asociación léxica (cada palabra solo se conecta con el 0.44% de otras palabras)
- Las redes léxicas exhiben propiedades de mundo pequeño y distribución de ley de potencias
- Respalda la hipótesis de este estudio sobre sesgo semántico
Bertsimas & Paskov (2024):
- Utiliza programación dinámica para encontrar la solución exacta óptima
- Mejor palabra inicial: "SALET"
- Número mínimo de adivinanzas promedio: 3.421
Cross (2022) - Doddle:
- Heurística minimax de profundidad 1: promedio 3.482 adivinanzas
- Heurística de entropía: promedio 3.432 adivinanzas
- Método de referencia adoptado en este estudio
Underwood et al. (1994):
- Investiga la capacidad de recuperación léxica de expertos en crucigramas
- Hallazgo: Los expertos son más fuertes en acertijos de palabras y manipulación de morfemas
- Indica que la recuperación léxica y conciencia fonética son cruciales para tareas de generación léxica restrictiva
- Proporciona evidencia para mecanismos similares en Wordle
Matusevych & Stevenson (2018):
- Investiga asociación léxica humana basada en atributos léxicos
- Este estudio extiende esto al contexto de juegos
Luo et al. (2025):
- Predice respuestas de entretenimiento en Wordle
- Utiliza características similares, pero se enfoca en emoción en lugar de sesgos cognitivos
Diferencias con trabajo relacionado:
- Validez Ecológica: Datos de juegos reales vs. tareas de laboratorio
- Multidimensionalidad: Examina simultáneamente dimensiones semántica, ortográfica y fonética
- Dependencia del Contexto: Revela cómo el grado de restricción modera los sesgos
- Método Computacional: Técnicas de PNL para cuantificar sesgos cognitivos
- Existencia de Sesgos Sistemáticos: Las adivinanzas humanas en Wordle se desvían sistemáticamente de la estrategia óptima, manifestándose en:
- Dimensión Semántica: Tendencia a seleccionar palabras semánticamente relacionadas con adivinanzas previas
- Dimensión Ortográfica: Tendencia a seleccionar palabras con distancia de edición menor
- Dimensión Fonética: Selección más frecuente de palabras que riman (9.3% vs 7.3%)
- Los Sesgos No Son Aleatorios: Estos sesgos no son errores aleatorios, sino que reflejan regularidades en el procesamiento cognitivo
- Papel Modulador de la Restricción:
- Cuando el grado de libertad es alto (como 0g0y5b), los sesgos son más evidentes
- Cuando está altamente restringido (como 3g2y0b), los humanos se acercan a la estrategia óptima
- Indica que los sesgos cognitivos son más evidentes en tareas creativas
- Mecanismos Independientes: La correlación entre sesgos semánticos y ortográficos es extremadamente débil (r=0.06), indicando que son procesos cognitivos independientes
- Valor del Paradigma de Investigación: Wordle proporciona un entorno de investigación ideal situado entre el uso del lenguaje natural y tareas experimentales artificiales
El artículo discute explícitamente las siguientes limitaciones en la Sección 8:
- Sesgo de Fuente de Datos:
- Depende de datos compartidos voluntariamente en Reddit
- Puede existir efecto de selección (jugadores con mejor desempeño más dispuestos a compartir)
- La población de usuarios de Reddit puede no representar la población general
- Factores Demográficos:
- Falta información sobre edad, educación, trasfondo lingüístico de jugadores, etc.
- Imposibilidad de controlar estas variables de confusión
- Limitación Lingüística:
- Solo investiga Wordle en inglés
- Los resultados pueden no aplicarse a otros idiomas
- Aproximación Computacional:
- Utiliza heurística en lugar de solución exacta óptima (aunque la diferencia es mínima)
- Inferencia Causal:
- Estudio observacional, no puede establecer completamente relaciones causales
- No puede descartar explicaciones alternativas (como que los jugadores seleccionen intencionalmente palabras interesantes)
Aunque el artículo no las enumera explícitamente, las direcciones de investigación inferibles incluyen:
- Investigación Multilingüe: Verificar hallazgos en Wordle en otros idiomas
- Verificación Experimental: Diseñar experimentos controlados que manipulen directamente estímulos de priming
- Diferencias Individuales: Investigar diferencias entre jugadores de diferentes niveles de habilidad y estilos cognitivos
- Dinámicas Temporales: Analizar cómo los sesgos evolucionan a lo largo del progreso del juego
- Extensión de Aplicaciones: Aplicar metodología a otras tareas creativas restrictivas
- Integración Interdisciplinaria: Combina ingeniosamente teoría de psicología cognitiva con técnicas de PNL
- Validez Ecológica Alta: Utiliza datos de juegos reales en lugar de tareas de laboratorio
- Medición Multidimensional: Examina simultáneamente tres dimensiones independientes (semántica, ortografía, fonética)
- Sensibilidad Contextual: Descubre el papel modulador del grado de restricción, aumentando el poder explicativo
- Muestra Grande: 83,000 datos proporcionan potencia estadística suficiente
- Reporte de Tamaño de Efecto: No solo reporta valores p, sino también d de Cohen
- Análisis Sistemático: Análisis estratificado por estado del juego (Figuras 3, 4)
- Verificación de Independencia de Indicadores: Verifica independencia de indicadores (r=0.06)
- Nueva Evidencia del Efecto de Priming: Verifica teoría clásica en escenario de juego natural
- Restricción y Creatividad: Revela el patrón de cómo la restricción reduce sesgos cognitivos
- Mecanismos Independientes: Demuestra que sesgos semánticos y ortográficos operan independientemente
- Estructura clara, lógica coherente de fondo a método a resultados
- Visualización efectiva (comparaciones en Figura 1 intuitivas)
- Sistema de símbolos claro (cg, cy, cb)
- Estudio observacional no puede establecer relaciones causales
- No puede descartar explicaciones alternativas:
- Los jugadores pueden seleccionar intencionalmente palabras interesantes/que riman para aumentar diversión del juego
- La disponibilidad léxica (algunas palabras más fáciles de pensar) puede confundir el efecto de priming
- Los usuarios de Reddit pueden ser más jóvenes y expertos en tecnología
- El compartir voluntariamente puede excluir selectivamente juegos fallidos
- Falta información demográfica impide evaluar generalización
- No profundiza en por qué la restricción reduce sesgos
- ¿Es cambio en asignación de recursos cognitivos?
- ¿O resultado natural de reducción del espacio de palabras disponibles?
- No discute diferencias individuales (todos los jugadores tratados como grupo homogéneo)
- No reporta cómo se manejaron datos faltantes o valores atípicos
- No menciona cómo se abordó el problema de comparaciones múltiples (se realizaron muchas pruebas de hipótesis)
- Parámetros específicos del modelo GloVe (dimensión, corpus de entrenamiento) no especificados
- Solo compara dos adivinanzas consecutivas, no considera influencia de historial más largo
- No controla el efecto de palabra inicial (diferentes palabras iniciales pueden provocar sesgos diferentes)
- No analiza dificultad del juego (algunas palabras objetivo pueden ser inherentemente más difíciles)
- Con muestras grandes, casi cualquier diferencia será significativa (p<0.001)
- El tamaño del efecto es más importante, pero algunos tamaños de efecto son pequeños (como -0.0854)
- No se realizó corrección para comparaciones múltiples (Bonferroni o FDR)
- Ciencia Cognitiva: Proporciona nueva evidencia ecológica para efecto de priming
- Lingüística Computacional: Demuestra aplicación de técnicas de PNL en investigación cognitiva
- Investigación de Juegos: Establece paradigma de juegos como laboratorio cognitivo
- Proporciona proceso de análisis reproducible
- Herramientas de código abierto (Doddle) facilitan investigación posterior
- Datos públicamente disponibles (datos de Reddit)
- Diseño de Juegos: Comprender comportamiento de jugadores puede optimizar dificultad del juego
- Aplicaciones Educativas: Wordle puede usarse para enseñanza de vocabulario, comprender sesgos cognitivos ayuda a diseñar intervenciones
- IA Asistida: Puede desarrollar sistemas de sugerencias inteligentes que consideren sesgos humanos
- Sesgo de datos puede limitar generalización
- Inferencia causal débil reduce valor de aplicación
- Requiere investigación experimental para verificar
- Analizar otros juegos de palabras (Spelling Bee, Scrabble)
- Investigar sesgos cognitivos en tareas creativas restrictivas
- Diseñar IA de juegos que considere sesgos humanos
- Tecnología Educativa: Diseño de software de aprendizaje de vocabulario
- Interacción Humano-Computadora: Comprender comportamiento de usuarios en escenarios de entrada restringida
- Evaluación Cognitiva: Wordle como herramienta de prueba de función cognitiva
- Escritura creativa completamente libre (demasiada poca restricción)
- Idiomas no ingleses (requiere revalidación)
- Tareas no léxicas (como juegos numéricos)
Alta:
- Datos públicamente disponibles (Reddit)
- Herramientas de código abierto (Doddle)
- Descripción clara de métodos
- Métodos estadísticos estándar
Obstáculos Potenciales:
- Versión del modelo GloVe no especificada claramente
- Detalles insuficientes de limpieza de datos
- Requisitos de recursos computacionales (83,000 datos)
- Bertsimas & Paskov (2024): Solución óptima de Wordle mediante programación dinámica
- Schacter & Buckner (1998): Base neurocientífica del efecto de priming
- Nelson et al. (1987): Influencia de rima en asociación léxica y memoria
- Steyvers & Tenenbaum (2005): Estructura a gran escala de redes semánticas
- Pennington et al. (2014): Método de incrustación de palabras GloVe
- Underwood et al. (1994): Recuperación léxica de expertos en crucigramas
- Levelt (1989): Modelo de extracción léxica en producción del habla
Este es un artículo de investigación excelente con fuerte innovación metodológica, rigor empírico y significado interdisciplinario. Su valor central radica en:
- Establecimiento Pionero de Wordle como "laboratorio cuasinaturalista" para investigación cognitiva
- Cuantificación Sistemática de sesgos cognitivos en tres dimensiones
- Descubrimiento del patrón importante de cómo el grado de restricción modera los sesgos
Las principales insuficiencias radican en limitaciones en inferencia causal y problemas de representatividad de datos, pero estas son limitaciones inherentes de la investigación observacional y no afectan su valor como investigación exploratoria.
El artículo proporciona base sólida para investigación posterior, particularmente en ciencia cognitiva de juegos e investigación de PNL ecológica. Se recomienda investigación posterior mediante experimentos controlados para verificar mecanismos causales y extensión a poblaciones más diversas e idiomas.
Público Recomendado: Investigadores y estudiantes en campos de ciencia cognitiva, lingüística computacional, investigación de juegos e interacción humano-computadora.