The Web has drastically simplified our access to knowledge and learning, and fact-checking online resources has become a part of our daily routine. Studying online knowledge consumption is thus critical for understanding human behavior and informing the design of future platforms. In this Chapter, we approach this subject by describing the navigation patterns of the readers of Wikipedia, the world's largest platform for open knowledge. We provide a comprehensive overview of what is known about the three steps that characterize navigation on Wikipedia: (1) how readers reach the platform, (2) how readers navigate the platform, and (3) how readers leave the platform. Finally, we discuss open problems and opportunities for future research in this field.
Navegando el Conocimiento: Patrones e Insights del Consumo de Wikipedia
- ID del Artículo: 2501.00939
- Título: Navigating Knowledge: Patterns and Insights from Wikipedia Consumption
- Autores: Tiziano Piccardi (Stanford University), Robert West (EPFL)
- Clasificación: cs.CY (Computadoras y Sociedad), cs.DL (Bibliotecas Digitales), cs.HC (Interacción Humano-Computadora)
- Formato de Publicación: Capítulo del Handbook of Computational Social Science (Edward Elgar Publishing Ltd, 2025)
- Enlace del Artículo: https://arxiv.org/abs/2501.00939
La tecnología web ha simplificado enormemente nuestras vías para adquirir conocimiento y aprender, convirtiendo la verificación de hechos de recursos en línea en parte de la vida cotidiana. La investigación del consumo de conocimiento en línea es crucial para comprender el comportamiento humano y orientar el diseño futuro de plataformas. Este capítulo aborda este tema describiendo los patrones de navegación de lectores de Wikipedia, la plataforma de conocimiento abierto más grande del mundo, proporcionando una visión integral de tres pasos clave en la navegación de Wikipedia: (1) cómo llegan los lectores a la plataforma, (2) cómo navegan dentro de la plataforma, (3) cómo salen de la plataforma, y discute preguntas abiertas en el campo y oportunidades futuras de investigación.
Esta investigación tiene como objetivo comprender profundamente el comportamiento humano en el consumo de conocimiento en línea, enfocándose particularmente en los patrones de navegación de usuarios en Wikipedia. Esta investigación es significativa porque:
- Necesidad humana fundamental de búsqueda de información: Los humanos se consideran "informávoros" (informavores), siendo la búsqueda de conocimiento un proceso de comportamiento central de la humanidad
- Transformación de la adquisición de conocimiento en la era digital: Desde enciclopedias antiguas hasta plataformas modernas en línea, la forma de adquirir conocimiento ha experimentado un cambio fundamental
- Necesidad de orientación en el diseño de plataformas: Comprender el comportamiento del usuario puede orientar el diseño de entornos de información más efectivos
- Valor científico fundamental: Proporciona insights básicos sobre la función humana para biólogos, psicólogos, antropólogos, etc.
- Valor científico aplicado: Ayuda a diseñar herramientas más efectivas y entornos de información que permitan a los humanos encontrar más fácilmente conocimiento relevante en medio de la avalancha de información
- Encuestas e investigación de pensamiento en voz alta: Propensas a sesgos cognitivos, capacidad limitada de introspección humana
- Experimentos de laboratorio: Muestras pequeñas y sesgadas (como poblaciones de estudiantes universitarios), falta de potencia estadística y representatividad
- Restricciones de acceso a datos: Los registros del servidor original requieren acceso privilegiado a información sensible
- Proporciona un marco integral de caracterización del comportamiento de usuarios de Wikipedia: Construye análisis sistemático alrededor de tres fases: "llegada-navegación-salida"
- Revela patrones de navegación multinivel de usuarios: Incluyendo características detalladas de navegación natural y dirigida
- Descubre regularidades de consumo relacionadas con el tiempo y tema: Demuestra el impacto de ritmos circadianos y preferencias temáticas en el comportamiento de lectura
- Cuantifica el valor económico de Wikipedia como puerta de entrada web: Estima que el valor económico del tráfico de enlaces externos alcanza 7-13 millones de dólares mensuales
- Establece metodología de investigación validada por múltiples fuentes de datos: Combina registros del servidor, datos de flujo de clics y datos de juegos de navegación
- Registros del servidor: Contienen información detallada incluyendo marcas de tiempo, ubicación geográfica, identificadores de usuario, etc.
- Datos de flujo de clics públicos: Conteos de conversión entre artículos publicados mensualmente por la Fundación Wikimedia
- Datos de juegos de navegación: Trayectorias de navegación dirigida recopiladas a través de Wikispeedia y TheWikiGame
- Protección de privacidad: Utiliza datos de flujo de clics agregados y filtrados para proteger la privacidad del usuario
- Definición de sesión: Adopta dos métodos para definir sesiones de usuario
- Secuencia de lectura: Cargas de página consecutivas con intervalos de tiempo menores a 1 hora
- Árbol de navegación: Estructura de árbol de visitas de página conectadas basada en información de referencia HTTP
- Fase de llegada: Analiza fuentes de tráfico, patrones temporales, tipos de dispositivo
- Fase de navegación: Investiga saltos de enlaces internos, duración de sesión, evolución temática
- Fase de salida: Evalúa clics de enlaces externos, interacción de referencias, valor económico
- Análisis multidimensional: Combina múltiples dimensiones incluyendo tiempo, geografía, tema, dispositivo, etc.
- Aplicación de modelos de aprendizaje automático: Utiliza regresión logística para predecir patrones de comportamiento del usuario
- Cálculo de distancia semántica: Calcula similitud semántica entre artículos a través de métodos como WikiPDA
- Wikipedia en inglés: Más de 6 millones de artículos, 60 millones de enlaces externos
- Período de tiempo: Basado en datos de 2019 y otros períodos de tiempo
- Escala de usuarios: Trayectorias de navegación de millones de usuarios mensuales
- Tasa de clics (CTR): Tasa de paso de clics de enlaces externos
- Duración de sesión: Número de páginas en una única visita del usuario
- Probabilidad de conversión: Distribución de probabilidad de conversión entre páginas
- Distancia semántica: Medida de relevancia temática entre artículos
- Modelo de paseo aleatorio: Como referencia de comparación para el comportamiento de navegación del usuario
- Comparación de tipo de dispositivo: Diferencias de comportamiento entre escritorio y móvil
- Comparación entre idiomas: Patrones de comportamiento entre diferentes versiones de Wikipedia en idiomas
- Dominio de motores de búsqueda: El 78% del tráfico externo proviene de motores de búsqueda, principalmente Google
- Contribución de redes sociales: El 1.5% del tráfico externo proviene de plataformas sociales (Facebook 15.6%, Reddit 9.6%)
- Fuentes no especificadas: Aproximadamente el 20% de las solicitudes no tienen fuente clara, posiblemente provenientes del historial del navegador, marcadores, etc.
- Ritmo circadiano: Las visitas de usuarios muestran periodicidad clara día-noche
- Preferencia de horario laboral: Mayor consumo de contenido educativo y STEM durante horas de trabajo, inclinación hacia contenido de entretenimiento por la noche
- Diferencias transnacionales: Los patrones de visita en diferentes países reflejan diferencias de contexto sociocultural
- Sesiones cortas predominantes: El 78% de las sesiones de navegación contienen solo una carga de página individual
- Conversión rápida: El tiempo medio de conversión entre páginas es de 74 segundos
- Navegación externa frecuente: El 35% de las conversiones de página se realizan a través de navegación externa
- Consistencia semántica: Los usuarios tienden a navegar entre temas similares, pero se desvían del tema inicial más lentamente que en un paseo aleatorio
- Enlaces de cuadro de información más activos: 1 clic por cada 110 impresiones
- Interacción de referencias más baja: Menos de 1 clic por cada 3000 impresiones
- Participación baja en móvil: La tasa de clics de referencias en escritorio es más de 4 veces mayor que en móvil
- Tipo de dispositivo: Los usuarios de escritorio tienden a tener sesiones más largas
- Tema inicial: Las sesiones que comienzan con artículos de entretenimiento son más largas, los usuarios de STEM tienen más probabilidad de detenerse en la página de inicio
- Calidad del artículo: Los artículos de baja calidad tienen más probabilidad de terminar la navegación
- Tendencia de disminución de calidad: La calidad del artículo tiende a disminuir durante el proceso de navegación
- Cambios de popularidad: Los usuarios pasan gradualmente de artículos populares a contenido de nicho
- Difusión semántica: El tema se desvía gradualmente pero mantiene coherencia relativa
- Valor del tráfico externo: El tráfico generado por enlaces de cuadro de información para sitios externos tiene un valor estimado de 7-13 millones de dólares mensuales
- Áreas de alto valor: Los artículos de negocios y biografías generan tráfico con mayor valor estimado
- Alternativa a motores de búsqueda: Wikipedia proporciona una solución para necesidades de navegación que los motores de búsqueda no pueden satisfacer
- Teoría de forrajeo de información: Los humanos siguen pistas de información para encontrar contenido deseado
- Teoría de carga cognitiva: Los usuarios tienden a elegir rutas con menor costo cognitivo
- Investigación tradicional de comportamiento web: Análisis de patrones de revisita y rutas de navegación
- Dependencia de motores de búsqueda: Relación de interdependencia entre Wikipedia y Google
- Comportamiento de edición vs lectura: Brecha entre producción y consumo
- Investigación comparativa multilingüe: Diferencias en patrones de uso entre versiones en diferentes idiomas
- Wikipedia satisface necesidades diversas: La plataforma sirve diferentes necesidades de información, desde entretenimiento hasta investigación académica
- La calidad impulsa decisiones de navegación: La calidad del artículo es un factor clave que influye en si los usuarios continúan navegando
- El contenido social recibe más atención: Los usuarios se enfocam más en biografías de personas y contenido relacionado con eventos sociales
- El valor de puerta de entrada de la plataforma es significativo: Wikipedia como entrada importante en el ecosistema web posee un valor económico enorme
- Limitaciones de versión de idioma: Se enfoca principalmente en Wikipedia en inglés, con investigación limitada en otras versiones de idioma
- Restricciones de acceso a datos: El análisis completo del comportamiento del usuario aún requiere acceso a datos privilegiados
- Inferencia de relaciones causales: Los datos observacionales dificultan el establecimiento de relaciones causales claras
- Cambio dinámico: Los patrones de comportamiento del usuario pueden cambiar con el tiempo y la evolución tecnológica
- Comparación de comportamiento entre idiomas: Expandir a investigación comparativa de versiones multilingües
- Sistemas de recomendación personalizados: Diseñar algoritmos de recomendación basados en patrones de comportamiento del usuario
- Integración de comportamiento de edición: Análisis integral que combine comportamiento de edición y lectura
- Navegación asistida por IA: Desarrollar herramientas de asistencia de navegación inteligente
- Alcance de investigación integral: Proporciona análisis panorámico de 360 grados del comportamiento de usuarios de Wikipedia
- Metodología rigurosa: La validación de múltiples fuentes de datos asegura la confiabilidad de los resultados
- Alto valor práctico: Proporciona orientación directa para el diseño de plataformas y arquitectura de información
- Significado interdisciplinario: Conecta ciencias computacionales, ciencias cognitivas y ciencias sociales
- Escala de datos masiva: Basado en datos reales de comportamiento de usuarios a gran escala
- Marco teórico relativamente débil: Carece de un modelo teórico unificado para explicar los fenómenos observados
- Atención insuficiente a diferencias individuales: Se enfoca principalmente en patrones de grupo, con análisis limitado de diferencias individuales
- Falta de análisis de evolución dinámica: Carece de análisis de tendencias a largo plazo y evolución del comportamiento
- Validación experimental insuficiente: Se basa principalmente en datos observacionales, carece de validación mediante experimentos controlados
- Contribución académica: Proporciona una base empírica importante para el campo de la ciencia social computacional
- Aplicación industrial: Proporciona orientación para el diseño de plataformas de gestión de conocimiento y motores de búsqueda
- Impacto en políticas: Proporciona evidencia para la gobernanza de plataformas digitales y educación en alfabetización informativa
- Innovación metodológica: Establece un paradigma estándar para análisis de comportamiento de usuarios a gran escala
- Diseño de plataformas educativas: Optimizar la arquitectura de información de plataformas de aprendizaje en línea
- Optimización de motores de búsqueda: Mejorar la clasificación de resultados de búsqueda y construcción de gráficos de conocimiento
- Sistemas de recomendación de contenido: Diseñar recomendaciones personalizadas basadas en patrones de navegación del usuario
- Investigación de experiencia del usuario: Proporcionar apoyo de datos para optimización de experiencia del usuario en plataformas web
Este artículo cita investigaciones relacionadas abundantes, incluyendo:
- Bush, V. (1945). As we may think - Concepto pionero del dispositivo de gestión de información Memex
- West, R. & Leskovec, J. (2012). Human Wayfinding in Information Networks - Investigación de comportamiento de navegación dirigida
- Singer, P. et al. (2017). Why we read Wikipedia - Investigación de motivaciones del usuario
- Y una serie de logros de investigación del equipo de autores, formando un sistema de investigación completo
Evaluación General: Este es un artículo de investigación de síntesis con importante valor académico y práctico, que proporciona insights profundos para comprender el consumo de conocimiento en línea de humanos mediante análisis sistemático del comportamiento de usuarios de Wikipedia. La metodología de investigación es rigurosa, la escala de datos es masiva, las conclusiones son convincentes, y sienta una base sólida para investigaciones posteriores en campos relacionados.