2025-11-13T11:19:11.075710

Knowing Unknowns in an Age of Information Overload

Khanna
The technological revolution of the Internet has digitized the social, economic, political, and cultural activities of billions of humans. While researchers have been paying due attention to concerns of misinformation and bias, these obscure a much less researched and equally insidious problem - that of uncritically consuming incomplete information. The problem of incomplete information consumption stems from the very nature of explicitly ranked information on digital platforms, where our limited mental capacities leave us with little choice but to consume the tip of a pre-ranked information iceberg. This study makes two chief contributions. First, we leverage the context of internet search to propose an innovative metric that quantifies information completeness. For a given search query, this refers to the extent of the information spectrum that is observed during web browsing. We then validate this metric using 6.5 trillion search results extracted from daily search trends across 48 nations for one year. Second, we find causal evidence that awareness of information completeness while browsing the Internet reduces resistance to factual information, hence paving the way towards an open-minded and tolerant mindset.
academic

Conocer lo Desconocido en una Era de Sobrecarga de Información

Información Básica

  • ID del Artículo: 2510.10413
  • Título: Knowing Unknowns in an Age of Information Overload
  • Autor: Saurabh Khanna (Amsterdam School of Communication Research, University of Amsterdam & Pembroke College, University of Oxford)
  • Clasificación: cs.CY (Computadoras y Sociedad)
  • Fecha de Publicación: 12 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10413

Resumen

La revolución tecnológica de Internet ha digitalizado miles de millones de actividades sociales, económicas, políticas y culturales humanas. Aunque los investigadores han prestado atención a los problemas de desinformación y sesgo, estos enmascaraban un problema menos estudiado pero igualmente insidioso: el consumo acrítico de información incompleta. El problema del consumo de información incompleta surge de la naturaleza inherentemente ordenada de la información en plataformas digitales, y nuestras capacidades mentales limitadas nos obligan a consumir solo una pequeña fracción del iceberg de información preordenada. Este estudio realiza dos contribuciones principales: primero, propone una métrica innovadora para cuantificar la "integridad de la información" utilizando el contexto de búsquedas en Internet; segundo, presenta evidencia causal de que la conciencia sobre la integridad de la información reduce la resistencia a los hechos al navegar por Internet.

Contexto y Motivación de la Investigación

Problema Central

El problema central que aborda esta investigación es: ¿cómo pueden las personas saber qué no saben en una era de sobrecarga de información (knowing unknowns)? Específicamente, ¿cuánto del espectro de información realmente vemos cuando navegamos por Internet?

Importancia del Problema

  1. Explosión de Información: Se proyecta que la esfera de datos global crezca de 33 zettabytes en 2018 a 175 zettabytes en 2025, con una tasa de crecimiento anual compuesto de aproximadamente 61%
  2. Limitaciones Cognitivas: La capacidad mental humana es limitada y no puede procesar flujos de información que crecen exponencialmente
  3. Ordenamiento Algorítmico: La información en Internet es inherentemente ordenada, y los usuarios tienden a ver solo los resultados mejor clasificados
  4. Impacto Social: El consumo de información incompleta puede conducir al refuerzo de sesgos y a la fragmentación social

Limitaciones de la Investigación Existente

La investigación existente se enfoca principalmente en dos aspectos:

  1. Propagación de Desinformación: Estudia las diferencias entre la información y la verdad objetiva
  2. Equidad Algorítmica: Se enfoca en el daño del sesgo algorítmico a grupos marginados

Sin embargo, estas investigaciones dependen de la existencia de una verdad objetiva verificable, mientras que la subjetividad y la diversidad de opiniones en Internet hacen que la verdad objetiva sea más una excepción que la norma.

Motivación de la Investigación

El autor argumenta que hemos pasado por alto un problema igualmente importante: cómo cuantificar y aumentar la conciencia sobre la integridad de la información en el contexto de la sobrecarga de información y el consumo acrítico de información incompleta.

Contribuciones Principales

  1. Métrica Innovadora: Propone una métrica de medición dinámica de "integridad de la información" basada en incrustaciones de texto y tecnologías de recuperación de información
  2. Validación a Gran Escala: Valida la métrica utilizando 6.5 billones de resultados de búsqueda (cubriendo 48 países durante un año)
  3. Evidencia Causal: Mediante un ensayo controlado aleatorizado, demuestra que la conciencia sobre la integridad de la información reduce la resistencia a los hechos
  4. Plataforma de Código Abierto: Desarrolla una plataforma experimental de búsqueda web de código abierto llamada Sonder, que reporta dinámicamente puntuaciones de integridad de la información

Explicación Detallada de la Metodología

Definición de la Tarea

Para una consulta de búsqueda dada q, de un total de N resultados de búsqueda, ¿qué tan representativos son los primeros n resultados visualizados (n < N)? Esto es diferente de evaluar si estos n resultados contienen desinformación o sesgo, sino que evalúa la integridad de la información.

Diseño de la Métrica de Integridad de la Información

Idea Central

Los métodos tradicionales se enfocaban en la relevancia entre la consulta y un resultado de búsqueda individual:

Relevancia = cos(q⃗, r⃗ᵢ) = (q⃗ · r⃗ᵢ)/(‖q⃗‖‖r⃗ᵢ‖)

La métrica de integridad de la información propuesta en este artículo se enfoca en la similitud semántica entre los resultados de búsqueda y todo el corpus de resultados:

Iintegridad,i = cos(C⃗, r⃗ᵢ) = (C⃗ · r⃗ᵢ)/(‖C⃗‖‖r⃗ᵢ‖)

Donde: C⃗ = Σᵢ₌₁ᴺ wᵢr⃗ᵢ (wᵢ es el peso, que puede basarse en métricas de confiabilidad como el rango de página)

Integridad de la Información Acumulada

Considerando la naturaleza acumulativa del consumo de información, se define la integridad de la información acumulada:

Iintegridad,n = cos(C⃗, Σᵢ₌₁ⁿ r⃗ᵢ) = (C⃗ · Σᵢ₌₁ⁿ r⃗ᵢ)/(‖C⃗‖‖Σᵢ₌₁ⁿ r⃗ᵢ‖)

Equilibrio entre Relevancia e Integridad

Proporciona un mecanismo de equilibrio controlable por el usuario:

Sᵢ = λIᵢ,integridad + (1-λ)Iᵢ,relevancia

Donde λ ∈ 0,1 controla el peso de la integridad y la relevancia.

Implementación Técnica

  1. Incrustación de Texto: Utiliza incrustaciones a nivel de oración basadas en Transformer (como Sentence-BERT)
  2. Similitud Semántica: Calcula la distancia semántica entre vectores mediante similitud del coseno
  3. Curva de Integridad de la Información: Traza cómo cambia la integridad acumulada con la proporción de resultados visualizados

Configuración Experimental

Validación a Gran Escala

Escala del Conjunto de Datos

  • Período de Tiempo: 16 de noviembre de 2021 a 15 de noviembre de 2022 (un año)
  • Cobertura Geográfica: 48 países, abarcando 6 continentes
  • Volumen de Datos: 6.5 billones de resultados de búsqueda brutos
  • Datos Diarios Promedio: 57.6 millones de búsquedas, 18 mil millones de puntos de datos
  • Profundidad de Resultados: Mediana de 320 resultados de búsqueda por consulta

Método de Validación

Valida la métrica comparando la integridad de la información en diferentes países con la libertad de prensa (utilizando datos de Reporteros sin Fronteras).

Ensayo Controlado Aleatorizado

Diseño del Experimento

  • Plataforma: Plataforma de búsqueda Sonder desarrollada internamente
  • Participantes: 876 adultos estadounidenses (reclutados a través de Prolific)
  • Duración del Experimento: 40 minutos (5 minutos de prueba previa + 30 minutos de interacción + 5 minutos de prueba posterior)
  • Grupos: Grupo de tratamiento 434 personas (mostrando puntuaciones de integridad de la información), grupo de control 442 personas (búsqueda normal)

Temas de Búsqueda

5 temas amplios para evaluar la mentalidad abierta:

  1. Patriotismo en nuestro país hoy
  2. Apertura hacia la inmigración
  3. Aborto y su estatus legal
  4. Valores tradicionales en la sociedad actual
  5. Leyes relacionadas con la posesión de armas

Resultados Experimentales

Validación de la Métrica de Integridad de la Información

Análisis de Diferencias Geográficas

  • Integridad Más Baja: Región de Oriente Medio y Norte de África (aproximadamente 25% de integridad en la primera página)
  • Integridad Más Alta: América del Norte (aproximadamente 62% de integridad en la primera página)
  • Relación Estadística: Por cada aumento de 1 unidad en la puntuación de restricciones de medios, la integridad de la información disminuye 0.28 puntos porcentuales (p < 0.001)

Efectos Fijos Regionales

Después de agregar efectos fijos regionales, el tamaño del efecto se reduce a 0.17 puntos porcentuales (p < 0.001), indicando que aún existen diferencias significativas a nivel nacional dentro de las regiones.

Resultados del Experimento de Comportamiento

Mejora de la Mentalidad Abierta (Resultado O1)

  • Efecto General: La mentalidad abierta del grupo de tratamiento mejoró 0.076 unidades de desviación estándar (p = 0.207, no significativo)
  • Resistencia a los Hechos: Reducción significativa de 0.212 unidades de desviación estándar (p = 0.003, estadísticamente significativo)
  • Dogmatismo: Reducción de 0.048 unidades de desviación estándar (p = 0.432, no significativo)
  • Personalización de Creencias: Reducción de 0.012 unidades de desviación estándar (p = 0.777, no significativo)
  • Pensamiento Liberal: Reducción de 0.032 unidades de desviación estándar (p = 1.302, no significativo)

Cambios en el Comportamiento de Navegación (Resultado O2)

  • Profundidad de Búsqueda: El grupo de tratamiento visualizó resultados clasificados en promedio 6.14 posiciones más abajo (p < 0.001)
  • Cantidad de Clics: El grupo de tratamiento hizo en promedio 2.182 clics adicionales (p = 0.312, no significativo)
  • Mejora de Integridad: La puntuación de integridad de la información de los resultados en los que hizo clic el grupo de tratamiento fue 7.6 puntos porcentuales más alta (p = 0.001)

Trabajo Relacionado

Evolución de la Búsqueda en Internet

  1. Soluciones Tempranas (años 90): Archie, Gopher, WAIS y otros sistemas basados en palabras clave
  2. Auge de Google (1998): El algoritmo PageRank revolucionó la evaluación de la calidad de los enlaces
  3. Soluciones Modernas: Búsqueda personalizada impulsada por IA y aprendizaje automático

Investigación sobre Calidad de la Información

  • Detección de Desinformación: Se enfoca en las desviaciones entre la información y la verdad objetiva
  • Equidad Algorítmica: Estudia el impacto del sesgo algorítmico en grupos marginados
  • Burbujas de Filtro: Efecto de cámara de eco causado por recomendaciones personalizadas

Conclusiones y Discusión

Conclusiones Principales

  1. Validez de la Métrica: La métrica de integridad de la información puede reflejar efectivamente el grado de libertad de prensa en diferentes países y regiones
  2. Impacto Cognitivo: La conciencia sobre la integridad de la información mejora principalmente dimensiones relacionadas con el conocimiento (reduciendo la resistencia a los hechos), con impacto limitado en dimensiones interpersonales
  3. Cambio de Comportamiento: Los usuarios explorarán activamente resultados de búsqueda más profundos y completos

Limitaciones

  1. Dependencia Tecnológica: La calidad de la métrica depende de la calidad de las incrustaciones de texto, que pueden verse afectadas por sesgos en los datos de entrenamiento
  2. Limitaciones Culturales: El concepto de mentalidad abierta (AOT) proviene de la psicología occidental, con aplicabilidad transcultural limitada
  3. Umbral de Comprensión: El grado de comprensión de los participantes sobre el concepto de integridad de la información afecta la efectividad del tratamiento

Direcciones Futuras

  1. Efectos de Magnitud: Investigar cómo los cambios en el tamaño de las puntuaciones de integridad de la información afectan la mentalidad abierta
  2. Extensión a Redes Sociales: Expandir la investigación a plataformas de redes sociales con fuentes de información personalizadas
  3. Intervenciones Educativas: Desarrollar programas educativos para aumentar la conciencia pública sobre la integridad de la información

Evaluación Profunda

Fortalezas

  1. Innovación del Problema: Identifica y cuantifica el problema de la incompletitud de la información, que ha sido pasado por alto pero es importante
  2. Rigor Metodológico: Combina datos observacionales a gran escala con ensayos controlados aleatorizados, proporcionando evidencia empírica suficiente
  3. Valor Práctico: Desarrolla una plataforma de búsqueda de código abierto con potencial de aplicación práctica
  4. Integración Interdisciplinaria: Integra teorías y métodos de recuperación de información, psicología, ciencia política y otros campos

Insuficiencias

  1. Limitaciones en la Inferencia Causal: El análisis a nivel nacional es principalmente correlacional, careciendo de identificación causal fuerte
  2. Representatividad de la Muestra: El experimento se limita a adultos estadounidenses, la generalización de los resultados requiere verificación
  3. Efectos a Largo Plazo Desconocidos: El experimento solo observó efectos a corto plazo, el impacto a largo plazo aún no está claro
  4. Transparencia Algorítmica: La naturaleza de "caja negra" del algoritmo de incrustación de texto puede afectar la interpretabilidad de la métrica

Impacto

  1. Contribución Académica: Proporciona un nuevo marco teórico y herramienta de medición para la evaluación de la calidad de la información
  2. Significado Político: Proporciona métricas objetivas para evaluar la calidad del entorno de información nacional
  3. Aplicación Tecnológica: Proporciona dirección para la mejora de motores de búsqueda y plataformas de información
  4. Valor Social: Ayuda a mejorar la alfabetización informativa y el pensamiento crítico del público

Escenarios de Aplicación

  1. Optimización de Motores de Búsqueda: Ayuda a los usuarios a evaluar mejor la integridad de los resultados de búsqueda
  2. Regulación de Medios: Proporciona herramientas para que gobiernos y organizaciones evalúen la calidad del entorno de información
  3. Capacitación Educativa: Se utiliza para cultivar la alfabetización informativa de estudiantes y el público
  4. Investigación Académica: Proporciona nuevas herramientas de medición y marco teórico para investigaciones en campos relacionados

Referencias

Este artículo cita literatura interdisciplinaria abundante que abarca:

  • Recuperación de información y procesamiento del lenguaje natural (Vaswani et al., 2017; Devlin et al., 2018)
  • Psicología y ciencias cognitivas (Baron, 2000; Stanovich & West, 2007)
  • Ciencia política y comunicación (Dahlberg, 2001; Lazer et al., 2020)
  • Ciencia computacional social (Hofman et al., 2021; Vosoughi et al., 2018)

Esta investigación presenta una perspectiva importante e innovadora en una era de sobrecarga de información. A través de una metodología rigurosa e investigación empírica a gran escala, realiza contribuciones importantes para comprender y mejorar la forma en que interactuamos con la información digital. Aunque existen algunas limitaciones, tanto su valor teórico como su significado práctico merecen atención y desarrollo posterior.