2025-11-13T11:19:11.075710

Knowing Unknowns in an Age of Information Overload

Khanna
The technological revolution of the Internet has digitized the social, economic, political, and cultural activities of billions of humans. While researchers have been paying due attention to concerns of misinformation and bias, these obscure a much less researched and equally insidious problem - that of uncritically consuming incomplete information. The problem of incomplete information consumption stems from the very nature of explicitly ranked information on digital platforms, where our limited mental capacities leave us with little choice but to consume the tip of a pre-ranked information iceberg. This study makes two chief contributions. First, we leverage the context of internet search to propose an innovative metric that quantifies information completeness. For a given search query, this refers to the extent of the information spectrum that is observed during web browsing. We then validate this metric using 6.5 trillion search results extracted from daily search trends across 48 nations for one year. Second, we find causal evidence that awareness of information completeness while browsing the Internet reduces resistance to factual information, hence paving the way towards an open-minded and tolerant mindset.
academic

Знание неизвестного в эпоху информационной перегрузки

Основная информация

  • ID статьи: 2510.10413
  • Название: Knowing Unknowns in an Age of Information Overload
  • Автор: Saurabh Khanna (Амстердамская школа исследований коммуникации, Университет Амстердама и Колледж Пембрук, Университет Оксфорда)
  • Категория: cs.CY (Компьютеры и общество)
  • Дата публикации: 12 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.10413

Аннотация

Интернет-революция оцифровала миллиарды социальной, экономической, политической и культурной деятельности человечества. Хотя исследователи уделяли внимание проблемам дезинформации и предвзятости, эти проблемы скрывают менее изученный, но одинаково коварный вопрос — некритическое потребление неполной информации. Проблема потребления неполной информации вытекает из природы явно упорядоченной информации на цифровых платформах; наши ограниченные когнитивные способности вынуждают нас потреблять только верхушку айсберга предварительно упорядоченной информации. Данное исследование вносит два основных вклада: во-первых, предлагает инновационный показатель для количественной оценки «полноты информации» на основе контекста поиска в Интернете; во-вторых, обнаруживает причинно-следственные доказательства того, что осведомленность о полноте информации снижает сопротивление фактической информации при просмотре Интернета.

Исследовательский контекст и мотивация

Основная проблема

Основная проблема, которую решает данное исследование: как люди узнают, что они не знают в эпоху информационной перегрузки (knowing unknowns)? Конкретнее: какую часть информационного спектра мы фактически видим при просмотре Интернета?

Значимость проблемы

  1. Информационный взрыв: глобальная сфера данных, по прогнозам, вырастет с 33 зеттабайт в 2018 году до 175 зеттабайт в 2025 году, с годовым темпом роста около 61%
  2. Когнитивные ограничения: человеческие психические способности ограничены и не могут обработать экспоненциально растущий поток информации
  3. Алгоритмическое упорядочение: информация в Интернете по своей природе упорядочена, пользователи склонны просматривать только результаты с высоким рейтингом
  4. Социальное воздействие: потребление неполной информации может привести к усилению предвзятости и социальной фрагментации

Ограничения существующих исследований

Существующие исследования сосредоточены на двух аспектах:

  1. Распространение дезинформации: изучение различий между информацией и объективной истиной
  2. Справедливость алгоритмов: внимание к алгоритмической предвзятости и её влиянию на маргинализированные группы

Однако все эти исследования зависят от существования проверяемой объективной истины, в то время как субъективность и многообразие мнений в Интернете делают объективную истину скорее исключением, чем правилом.

Исследовательская мотивация

Автор считает, что мы упустили одинаково важный вопрос: как количественно оценить и повысить осведомленность о полноте информации в контексте информационной перегрузки и некритического потребления неполной информации.

Основные вклады

  1. Инновационный показатель: предложен динамический показатель измерения «полноты информации» на основе текстовых эмбеддингов и технологий информационного поиска
  2. Крупномасштабная валидация: использованы данные 6,5 триллиона результатов поиска (охватывающие 48 стран в течение одного года) для проверки показателя
  3. Причинно-следственные доказательства: рандомизированный контролируемый эксперимент доказывает, что осведомленность о полноте информации снижает сопротивление фактической информации
  4. Открытая платформа: разработана экспериментальная платформа поиска Sonder с открытым исходным кодом, которая динамически сообщает оценки полноты информации

Подробное описание методологии

Определение задачи

Для заданного поискового запроса q: насколько репрезентативны первые n результатов поиска (n < N) из общего количества N результатов поиска? Это отличается от оценки того, содержат ли эти n результатов дезинформацию или предвзятость, а скорее оценивает полноту информации.

Проектирование показателя полноты информации

Основная идея

Традиционные методы сосредоточены на релевантности между запросом и отдельным результатом поиска:

Релевантность = cos(q⃗, r⃗ᵢ) = (q⃗ · r⃗ᵢ)/(‖q⃗‖‖r⃗ᵢ‖)

Предложенный в данной работе показатель полноты информации сосредоточен на семантическом сходстве результатов поиска со всем корпусом результатов:

Iполнота,i = cos(C⃗, r⃗ᵢ) = (C⃗ · r⃗ᵢ)/(‖C⃗‖‖r⃗ᵢ‖)

Где: C⃗ = Σᵢ₌₁ᴺ wᵢr⃗ᵢ (wᵢ — вес, может быть основан на показателях надежности, таких как PageRank)

Кумулятивная полнота информации

Учитывая кумулятивный характер потребления информации, определяется кумулятивная полнота информации:

Iполнота,n = cos(C⃗, Σᵢ₌₁ⁿ r⃗ᵢ) = (C⃗ · Σᵢ₌₁ⁿ r⃗ᵢ)/(‖C⃗‖‖Σᵢ₌₁ⁿ r⃗ᵢ‖)

Балансировка релевантности и полноты

Предоставляется управляемый пользователем механизм балансировки:

Sᵢ = λIᵢ,полнота + (1-λ)Iᵢ,релевантность

Где λ ∈ 0,1 контролирует вес полноты и релевантности.

Техническая реализация

  1. Текстовые эмбеддинги: использование эмбеддингов на уровне предложений на основе Transformer (например, Sentence-BERT)
  2. Семантическое сходство: расчет семантического расстояния между векторами через косинусное сходство
  3. Кривая полноты информации: построение графика изменения кумулятивной полноты в зависимости от доли просмотренных результатов

Экспериментальная установка

Крупномасштабная валидация данных

Масштаб набора данных

  • Временной диапазон: 16 ноября 2021 г. — 15 ноября 2022 г. (один год)
  • Географическое охватывание: 48 стран на 6 континентах
  • Объем данных: 6,5 триллиона исходных результатов поиска
  • Среднесуточные данные: 57,6 миллиона поисков, 18 миллиардов точек данных
  • Глубина результатов: медиана 320 результатов поиска на запрос

Метод валидации

Проверка показателя путем сравнения полноты информации в разных странах со степенью свободы прессы (с использованием данных организации Reporters Without Borders).

Рандомизированный контролируемый эксперимент

Дизайн эксперимента

  • Платформа: самостоятельно разработанная поисковая платформа Sonder
  • Участники: 876 взрослых американцев (набраны через Prolific)
  • Продолжительность эксперимента: 40 минут (5 минут предварительного тестирования + 30 минут взаимодействия + 5 минут послетестирования)
  • Группы: группа лечения 434 человека (отображение оценок полноты информации), контрольная группа 442 человека (обычный поиск)

Темы поиска

5 широких тем для оценки открытости мышления:

  1. Патриотизм в нашей стране сегодня
  2. Открытость к иммиграции
  3. Аборт и его правовой статус
  4. Традиционные ценности в современном обществе
  5. Законодательство о владении оружием

Результаты экспериментов

Валидация показателя полноты информации

Географический анализ различий

  • Наименьшая полнота: Ближний Восток и Северная Африка (примерно 25% полноты на первой странице)
  • Наибольшая полнота: Северная Америка (примерно 62% полноты на первой странице)
  • Статистическая связь: каждое увеличение оценки ограничения прессы на 1 единицу снижает полноту информации на 0,28 процентных пункта (p < 0,001)

Региональные фиксированные эффекты

После добавления региональных фиксированных эффектов величина эффекта снизилась до 0,17 процентных пункта (p < 0,001), что указывает на значительные различия на уровне стран в пределах регионов.

Результаты поведенческого эксперимента

Улучшение открытости мышления (результат O1)

  • Общий эффект: открытость мышления в группе лечения повысилась на 0,076 стандартного отклонения (p = 0,207, не значимо)
  • Сопротивление фактам: значительное снижение на 0,212 стандартного отклонения (p = 0,003, статистически значимо)
  • Догматизм: снижение на 0,048 стандартного отклонения (p = 0,432, не значимо)
  • Персонификация убеждений: снижение на 0,012 стандартного отклонения (p = 0,777, не значимо)
  • Либеральное мышление: снижение на 0,032 стандартного отклонения (p = 1,302, не значимо)

Изменения в поведении при просмотре (результат O2)

  • Глубина поиска: группа лечения просмотрела результаты в среднем на 6,14 позиции ниже (p < 0,001)
  • Количество кликов: группа лечения в среднем кликнула на 2,182 дополнительных результата (p = 0,312, не значимо)
  • Повышение полноты: оценка полноты информации просмотренных результатов в группе лечения была выше на 7,6 процентных пункта (p = 0,001)

Связанные работы

Эволюция поиска в Интернете

  1. Ранние решения (1990-е годы): Archie, Gopher, WAIS и другие системы на основе ключевых слов
  2. Возвышение Google (1998 г.): алгоритм PageRank революционно внедрил оценку качества ссылок
  3. Современные решения: поиск, управляемый искусственным интеллектом и машинным обучением

Исследования качества информации

  • Обнаружение дезинформации: внимание к различиям между информацией и объективной истиной
  • Справедливость алгоритмов: изучение алгоритмической предвзятости и её влияния на маргинализированные группы
  • Фильтровые пузыри: эффект информационной изоляции, вызванный персонализированными рекомендациями

Выводы и обсуждение

Основные выводы

  1. Валидность показателя: показатель полноты информации эффективно отражает степень свободы прессы в разных странах и регионах
  2. Когнитивное воздействие: осведомленность о полноте информации в основном улучшает знаниевые аспекты (снижает сопротивление фактам), но имеет ограниченное влияние на межличностные аспекты
  3. Изменение поведения: пользователи активно исследуют более глубокие и полные результаты поиска

Ограничения

  1. Технологическая зависимость: качество показателя зависит от качества текстовых эмбеддингов, которые могут быть подвержены предвзятости обучающих данных
  2. Культурные ограничения: концепция открытости мышления (AOT) происходит из западной психологии, её кросс-культурная применимость ограничена
  3. Порог понимания: степень понимания участниками концепции полноты информации влияет на эффективность лечения

Будущие направления

  1. Эффекты масштаба: исследование влияния различных величин оценок полноты информации на открытость мышления
  2. Расширение на социальные сети: распространение исследования на платформы социальных сетей с персонализированными источниками информации
  3. Образовательные вмешательства: разработка образовательных программ для повышения осведомленности общественности о полноте информации

Глубокая оценка

Преимущества

  1. Инновационность проблемы: выявление и количественная оценка проблемы неполноты информации, которая была упущена, но важна
  2. Методологическая строгость: сочетание крупномасштабных наблюдательных данных и рандомизированного контролируемого эксперимента обеспечивает достаточные эмпирические доказательства
  3. Практическая ценность: разработка платформы поиска с открытым исходным кодом имеет потенциал практического применения
  4. Междисциплинарная интеграция: объединение теорий и методов из информационного поиска, психологии, политологии и других областей

Недостатки

  1. Ограничения причинного вывода: анализ на уровне стран в основном показывает корреляцию, отсутствует сильная причинная идентификация
  2. Репрезентативность выборки: эксперимент ограничен взрослыми американцами, универсальность результатов требует проверки
  3. Неизвестные долгосрочные эффекты: эксперимент наблюдал только краткосрочные эффекты, долгосрочное воздействие остаётся неясным
  4. Прозрачность алгоритма: «чёрный ящик» текстовых эмбеддингов может влиять на интерпретируемость показателя

Влияние

  1. Академический вклад: предоставляет новую теоретическую базу и инструмент измерения для оценки качества информации
  2. Политическое значение: предоставляет объективный показатель для оценки качества информационной среды страны
  3. Технологическое применение: указывает направления для улучшения поисковых систем и информационных платформ
  4. Социальная ценность: способствует повышению информационной грамотности и критического мышления общественности

Применимые сценарии

  1. Оптимизация поисковых систем: помощь пользователям в лучшей оценке полноты результатов поиска
  2. Медийный надзор: предоставление инструментов для правительств и организаций по оценке качества информационной среды
  3. Образование и обучение: использование для развития информационной грамотности студентов и общественности
  4. Научные исследования: предоставление новых инструментов измерения и теоретической базы для смежных областей исследования

Библиография

Статья цитирует богатую междисциплинарную литературу, охватывающую:

  • Информационный поиск и обработку естественного языка (Vaswani et al., 2017; Devlin et al., 2018)
  • Психологию и когнитивные науки (Baron, 2000; Stanovich & West, 2007)
  • Политологию и коммуникативистику (Dahlberg, 2001; Lazer et al., 2020)
  • Вычислительные социальные науки (Hofman et al., 2021; Vosoughi et al., 2018)

Данное исследование предлагает важную и инновационную перспективу в эпоху информационной перегрузки. Благодаря строгой методологии и крупномасштабному эмпирическому исследованию, оно вносит значительный вклад в понимание и улучшение нашего взаимодействия с цифровой информацией. Несмотря на некоторые ограничения, его теоретическая ценность и практическое значение заслуживают внимания и дальнейшего развития.