The Web has drastically simplified our access to knowledge and learning, and fact-checking online resources has become a part of our daily routine. Studying online knowledge consumption is thus critical for understanding human behavior and informing the design of future platforms. In this Chapter, we approach this subject by describing the navigation patterns of the readers of Wikipedia, the world's largest platform for open knowledge. We provide a comprehensive overview of what is known about the three steps that characterize navigation on Wikipedia: (1) how readers reach the platform, (2) how readers navigate the platform, and (3) how readers leave the platform. Finally, we discuss open problems and opportunities for future research in this field.
- ID статьи: 2501.00939
- Название: Navigating Knowledge: Patterns and Insights from Wikipedia Consumption
- Авторы: Tiziano Piccardi (Стэнфордский университет), Robert West (EPFL)
- Классификация: cs.CY (Компьютеры и общество), cs.DL (Цифровые библиотеки), cs.HC (Взаимодействие человека и компьютера)
- Форма публикации: Глава в Handbook of Computational Social Science (Edward Elgar Publishing Ltd, 2025)
- Ссылка на статью: https://arxiv.org/abs/2501.00939
Веб-технологии значительно упростили способы получения знаний и обучения, а проверка фактов онлайн-ресурсов стала частью повседневной жизни. Исследование потребления знаний в интернете имеет решающее значение для понимания человеческого поведения и руководства будущим дизайном платформ. В этой главе рассматривается данная тема путём описания закономерностей навигации читателей крупнейшей открытой платформы знаний Wikipedia, предоставляя комплексный обзор трёх ключевых этапов навигации по Wikipedia: (1) как читатели попадают на платформу, (2) как они навигируют внутри платформы, (3) как они покидают платформу, а также обсуждаются открытые вопросы в этой области и возможности для будущих исследований.
Данное исследование направлено на глубокое понимание поведения человека при потреблении знаний в интернете, с особым акцентом на закономерности навигации пользователей на Wikipedia. Это исследование имеет важное значение, поскольку:
- Фундаментальная потребность человека в поиске информации: люди рассматриваются как "информационные собиратели" (informavores), а поиск знаний является основным поведенческим процессом человека
- Трансформация получения знаний в цифровую эпоху: от древних энциклопедий к современным онлайн-платформам произошло фундаментальное изменение способов получения знаний
- Необходимость руководства при проектировании платформ: понимание поведения пользователей может направлять разработку более эффективной информационной среды
- Фундаментальная научная ценность: предоставляет базовые выводы о функционировании человека для биологов, психологов, антропологов и других специалистов
- Прикладная научная ценность: помогает разработать более эффективные инструменты и информационную среду, позволяющие людям легче находить релевантные знания в потоке информации
- Опросы и исследования с вербализацией мышления: подвержены когнитивным предубеждениям, человеческая способность к самоанализу ограничена
- Лабораторные эксперименты: небольшие выборки с систематическими смещениями (например, студенческие группы), недостаточная статистическая мощность и репрезентативность
- Ограничения доступа к данным: исходные журналы серверов требуют привилегированного доступа к конфиденциальной информации
- Предоставлена комплексная схема характеризации поведения пользователей Wikipedia: построена систематическая анализ вокруг трёх этапов "прибытие-навигация-уход"
- Выявлены многоуровневые закономерности навигации пользователей: включая детальные характеристики естественной и целевой навигации
- Обнаружены закономерности потребления, связанные со временем и тематикой: продемонстрировано влияние циркадных ритмов и тематических предпочтений на поведение при чтении
- Количественно оценена экономическая ценность Wikipedia как веб-шлюза: оценена экономическая ценность трафика внешних ссылок в 7-13 миллионов долларов в месяц
- Установлена методология исследования с проверкой по множественным источникам данных: объединены журналы серверов, данные потока кликов и данные навигационных игр
- Журналы серверов: содержат подробную информацию о временных метках, географическом положении, идентификаторах пользователей и т.д.
- Открытые данные потока кликов: счётчики преобразований между статьями, ежемесячно публикуемые фондом Wikimedia
- Данные навигационных игр: траектории целевой навигации, собранные через Wikispeedia и TheWikiGame
- Защита конфиденциальности: использование агрегированных и отфильтрованных данных потока кликов для защиты конфиденциальности пользователей
- Определение сеанса: применены два метода определения пользовательского сеанса
- Последовательность чтения: последовательная загрузка страниц с интервалом менее 1 часа
- Дерево навигации: древовидная структура посещений страниц, связанных на основе информации HTTP referrer
- Этап прибытия: анализ источников трафика, временных закономерностей, типов устройств
- Этап навигации: исследование переходов по внутренним ссылкам, длины сеанса, эволюции тематики
- Этап ухода: оценка кликов по внешним ссылкам, взаимодействия с цитатами, экономической ценности
- Многомерный анализ характеристик: объединение временного, географического, тематического и устройственного измерений
- Применение моделей машинного обучения: использование логистической регрессии для прогнозирования закономерностей поведения пользователей
- Расчёт семантического расстояния: вычисление семантического сходства между статьями через методы, такие как WikiPDA
- Английская Wikipedia: более 6 миллионов статей, 60 миллионов внешних ссылок
- Временной диапазон: данные за несколько периодов, включая 2019 год
- Масштаб пользователей: траектории навигации миллионов пользователей ежемесячно
- Коэффициент кликов (CTR): коэффициент прохождения кликов по внешним ссылкам
- Длина сеанса: количество страниц при одном посещении пользователем
- Вероятность преобразования: распределение вероятности преобразования между страницами
- Семантическое расстояние: мера тематической релевантности между статьями
- Модель случайного блуждания: в качестве базового сравнения для поведения навигации пользователей
- Сравнение типов устройств: различия в поведении между настольными и мобильными устройствами
- Кросс-языковое сравнение: закономерности поведения в различных языковых версиях Wikipedia
- Доминирование поисковых систем: 78% внешнего трафика поступает из поисковых систем, главным образом из Google
- Вклад социальных сетей: 1,5% внешнего трафика поступает из социальных платформ (Facebook 15,6%, Reddit 9,6%)
- Неуказанные источники: примерно 20% запросов не имеют явного источника, возможно, поступают из истории браузера, закладок и т.д.
- Циркадные ритмы: посещения пользователей демонстрируют явный суточный цикл
- Предпочтение рабочего времени: в рабочее время потребляется больше образовательного и STEM-контента, вечером предпочтение отдаётся развлекательному контенту
- Кросс-национальные различия: закономерности посещений в разных странах отражают различия в социокультурном контексте
- Преобладание коротких сеансов: 78% сеансов навигации содержат только одну загрузку страницы
- Быстрые преобразования: медианное время преобразования между страницами составляет 74 секунды
- Частая внешняя навигация: 35% преобразований между страницами осуществляется через внешнюю навигацию
- Семантическая согласованность: пользователи склонны навигировать между похожими тематиками, но отклоняются от исходной темы медленнее, чем при случайном блуждании
- Наиболее активные ссылки в информационных блоках: один клик на 110 показов
- Низкое взаимодействие с цитатами: менее одного клика на 3000 показов
- Низкая вовлечённость мобильных устройств: коэффициент кликов по цитатам на настольных устройствах более чем в 4 раза выше, чем на мобильных
- Тип устройства: пользователи настольных компьютеров склонны к более длительным сеансам
- Исходная тематика: сеансы, начинающиеся со статей о развлечениях, длиннее, пользователи STEM-контента чаще останавливаются на главной странице
- Качество статьи: низкокачественные статьи с большей вероятностью прерывают навигацию
- Тенденция снижения качества: качество статей снижается в процессе навигации
- Изменение популярности: пользователи постепенно переходят от популярных статей к нишевому контенту
- Семантическое распространение: тематика постепенно отклоняется, но сохраняет относительную согласованность
- Ценность внешнего трафика: трафик, привлекаемый ссылками в информационных блоках для внешних веб-сайтов, оценивается в 7-13 миллионов долларов в месяц
- Высокостоимостные области: статьи о бизнесе и биографиях генерируют трафик с наивысшей оценочной стоимостью
- Альтернатива поисковым системам: Wikipedia предоставляет решение для навигационных потребностей, которые не могут быть удовлетворены поисковыми системами
- Теория информационного поиска: люди следуют информационным сигналам при поиске нужного контента
- Теория когнитивной нагрузки: пользователи склонны выбирать пути с меньшей когнитивной стоимостью
- Традиционные исследования поведения в Интернете: анализ закономерностей повторного посещения и путей просмотра
- Зависимость от поисковых систем: взаимозависимость между Wikipedia и Google
- Поведение редакторов vs читателей: разрыв между производством и потреблением
- Исследования многоязычного сравнения: различия в закономерностях использования различных языковых версий
- Wikipedia удовлетворяет разнообразные потребности: платформа обслуживает различные информационные потребности, от развлечения до академических исследований
- Качество определяет решения при навигации: качество статей является ключевым фактором, влияющим на продолжение навигации пользователем
- Социальный контент привлекает больше внимания: пользователи уделяют больше внимания биографиям людей и контенту, связанному с социальными событиями
- Значительная ценность платформы как веб-шлюза: Wikipedia как важный вход в экосистему Интернета обладает огромной экономической ценностью
- Ограничения языковых версий: основное внимание уделяется английской Wikipedia, исследования других языковых версий ограничены
- Ограничения доступа к данным: полный анализ поведения пользователей по-прежнему требует привилегированного доступа к данным
- Вывод причинно-следственных связей: наблюдательные данные затрудняют установление явных причинно-следственных связей
- Динамические изменения: закономерности поведения пользователей могут изменяться со временем и развитием технологий
- Кросс-языковое сравнение поведения: расширение исследований на сравнение различных языковых версий
- Системы персонализированных рекомендаций: разработка алгоритмов рекомендаций на основе закономерностей поведения пользователей
- Интеграция поведения редакторов: комплексный анализ, объединяющий поведение редакторов и читателей
- Навигация с поддержкой ИИ: разработка интеллектуальных инструментов помощи при навигации
- Комплексный охват исследования: предоставляет 360-градусный панорамный анализ поведения пользователей Wikipedia
- Строгая методология: проверка по множественным источникам данных обеспечивает надёжность результатов
- Высокая практическая ценность: предоставляет прямые рекомендации для проектирования платформ и архитектуры информации
- Междисциплинарное значение: связывает вычислительные науки, когнитивные науки и социальные науки
- Большой масштаб данных: основано на реальных данных о поведении миллионов пользователей
- Относительно слабая теоретическая база: отсутствует единая теоретическая модель для объяснения наблюдаемых явлений
- Недостаточное внимание к индивидуальным различиям: основное внимание уделяется групповым закономерностям, анализ индивидуальных различий ограничен
- Отсутствие анализа динамической эволюции: недостаёт анализа долгосрочных тенденций и эволюции поведения
- Недостаточная экспериментальная проверка: в основном основано на наблюдательных данных, отсутствует проверка контролируемыми экспериментами
- Академический вклад: предоставляет важную эмпирическую базу для области вычислительной социальной науки
- Промышленное применение: предоставляет рекомендации для проектирования платформ управления знаниями и поисковых систем
- Политическое воздействие: предоставляет основу для управления цифровыми платформами и образования в области информационной грамотности
- Методологические инновации: устанавливает стандартную парадигму анализа поведения пользователей в большом масштабе
- Проектирование образовательных платформ: оптимизация архитектуры информации онлайн-платформ обучения
- Оптимизация поисковых систем: улучшение ранжирования результатов поиска и построения графов знаний
- Системы рекомендации контента: разработка персонализированных рекомендаций на основе закономерностей навигации пользователей
- Исследование пользовательского опыта: предоставление поддержки данными для оптимизации пользовательского опыта веб-платформ
В статье цитируется богатый набор связанных исследований, включая:
- Bush, V. (1945). As we may think - новаторская концепция устройства управления информацией Memex
- West, R. & Leskovec, J. (2012). Human Wayfinding in Information Networks - исследование поведения при целевой навигации
- Singer, P. et al. (2017). Why we read Wikipedia - исследование мотивов пользователей
- А также серию исследований авторского коллектива, формирующих полную систему исследований
Общая оценка: это исследование обзорного характера с важной академической и практической ценностью, которое посредством систематического анализа поведения пользователей Wikipedia предоставляет глубокие выводы для понимания потребления знаний человеком в интернете. Методология исследования строга, масштаб данных велик, выводы убедительны, что создаёт прочную основу для последующих исследований в соответствующих областях.