2025-11-13T11:19:11.075710

Knowing Unknowns in an Age of Information Overload

Khanna
The technological revolution of the Internet has digitized the social, economic, political, and cultural activities of billions of humans. While researchers have been paying due attention to concerns of misinformation and bias, these obscure a much less researched and equally insidious problem - that of uncritically consuming incomplete information. The problem of incomplete information consumption stems from the very nature of explicitly ranked information on digital platforms, where our limited mental capacities leave us with little choice but to consume the tip of a pre-ranked information iceberg. This study makes two chief contributions. First, we leverage the context of internet search to propose an innovative metric that quantifies information completeness. For a given search query, this refers to the extent of the information spectrum that is observed during web browsing. We then validate this metric using 6.5 trillion search results extracted from daily search trends across 48 nations for one year. Second, we find causal evidence that awareness of information completeness while browsing the Internet reduces resistance to factual information, hence paving the way towards an open-minded and tolerant mindset.
academic

Unbekanntes Wissen in einem Zeitalter der Informationsüberflutung

Grundlegende Informationen

  • Papier-ID: 2510.10413
  • Titel: Knowing Unknowns in an Age of Information Overload
  • Autor: Saurabh Khanna (Amsterdam School of Communication Research, Universität Amsterdam & Pembroke College, Universität Oxford)
  • Klassifizierung: cs.CY (Computer und Gesellschaft)
  • Veröffentlichungsdatum: 12. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.10413

Zusammenfassung

Die Internetrevolution hat Milliarden von menschlichen sozialen, wirtschaftlichen, politischen und kulturellen Aktivitäten digitalisiert. Während Forscher sich auf Fehlinformationen und Vorurteile konzentriert haben, verdecken diese Probleme eine weniger erforschte, aber gleichermaßen heimtückische Frage – die unkritische Konsumption unvollständiger Informationen. Das Problem der unvollständigen Informationskonsumption ergibt sich aus der Natur der explizit geordneten Informationen auf digitalen Plattformen; unsere begrenzten kognitiven Fähigkeiten zwingen uns, nur einen kleinen Teil des vorsortierten Informationseisbergs zu konsumieren. Diese Studie leistet zwei Hauptbeiträge: Erstens wird unter Verwendung des Kontexts der Internetsuche eine innovative Metrik zur Quantifizierung der „Informationsvollständigkeit" vorgeschlagen; zweitens werden kausale Belege dafür gefunden, dass das Bewusstsein für Informationsvollständigkeit beim Durchsuchen des Internets die Resistenz gegen faktische Informationen verringert.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Studie ist: Wie können Menschen in einem Zeitalter der Informationsüberflutung wissen, was sie nicht wissen (knowing unknowns)? Konkret: Wie viel des Informationsspektrums sehen wir tatsächlich, wenn wir im Internet surfen?

Bedeutung des Problems

  1. Informationsexplosion: Die globale Datensphäre wird voraussichtlich von 33 Zettabyte im Jahr 2018 auf 175 Zettabyte im Jahr 2025 anwachsen, mit einer durchschnittlichen jährlichen Wachstumsrate von etwa 61%
  2. Kognitive Grenzen: Die menschliche Gehirnkapazität ist begrenzt und kann mit exponentiell wachsenden Informationsströmen nicht Schritt halten
  3. Algorithmische Sortierung: Internetinformationen sind von Natur aus sortiert; Benutzer neigen dazu, nur die am höchsten bewerteten Ergebnisse anzusehen
  4. Gesellschaftliche Auswirkungen: Die Konsumption unvollständiger Informationen kann zu Vorurteilsverstärkung und gesellschaftlicher Polarisierung führen

Grenzen bestehender Forschung

Bestehende Forschung konzentriert sich hauptsächlich auf zwei Aspekte:

  1. Verbreitung von Fehlinformationen: Untersuchung der Unterschiede zwischen Informationen und objektiver Wahrheit
  2. Algorithmische Fairness: Fokus auf algorithmische Vorurteile und deren Auswirkungen auf marginalisierte Gruppen

Diese Forschungen setzen jedoch alle die Existenz überprüfbarer objektiver Wahrheit voraus, während Subjektivität und Meinungsvielfalt im Internet objektive Wahrheit eher zur Ausnahme als zur Regel machen.

Forschungsmotivation

Der Autor argumentiert, dass wir ein gleichermaßen wichtiges Problem übersehen haben: Wie man Informationsvollständigkeit im Kontext von Informationsüberflutung und unkritischer Konsumption unvollständiger Informationen quantifiziert und das Bewusstsein dafür erhöht.

Kernbeiträge

  1. Innovative Metrik: Vorschlag einer dynamischen Messgröße für „Informationsvollständigkeit" basierend auf Texteinbettungen und Informationsbeschaffungstechniken
  2. Großflächige Validierung: Validierung der Metrik mit 6,5 Billionen Suchergebnissen (48 Länder, ein Jahr Dauer)
  3. Kausale Evidenz: Randomisierte kontrollierte Experimente zeigen, dass das Bewusstsein für Informationsvollständigkeit die Resistenz gegen faktische Informationen verringert
  4. Open-Source-Plattform: Entwicklung der experimentellen Open-Source-Websuchplattform Sonder, die Informationsvollständigkeitswerte dynamisch meldet

Methodische Details

Aufgabendefinition

Für eine gegebene Suchanfrage q: Wie repräsentativ sind die ersten n Suchergebnisse (n < N) aus insgesamt N Suchergebnissen? Dies unterscheidet sich von der Bewertung, ob diese n Suchergebnisse Fehlinformationen oder Vorurteile enthalten, sondern bewertet die Vollständigkeit der Informationen.

Design der Informationsvollständigkeitsmetrik

Kernidee

Traditionelle Methoden konzentrieren sich auf die Relevanz zwischen Abfrage und einzelnem Suchergebnis:

Relevanz = cos(q⃗, r⃗ᵢ) = (q⃗ · r⃗ᵢ)/(‖q⃗‖‖r⃗ᵢ‖)

Die in diesem Papier vorgeschlagene Informationsvollständigkeitsmetrik konzentriert sich auf die semantische Ähnlichkeit zwischen Suchergebnissen und dem gesamten Ergebniskorpus:

Ivollständigkeit,i = cos(C⃗, r⃗ᵢ) = (C⃗ · r⃗ᵢ)/(‖C⃗‖‖r⃗ᵢ‖)

Wobei: C⃗ = Σᵢ₌₁ᴺ wᵢr⃗ᵢ (wᵢ ist die Gewichtung, kann auf Vertrauensindikatoren wie Seitenrang basieren)

Kumulative Informationsvollständigkeit

Unter Berücksichtigung der kumulativen Natur der Informationskonsumption wird die kumulative Informationsvollständigkeit definiert als:

Ivollständigkeit,n = cos(C⃗, Σᵢ₌₁ⁿ r⃗ᵢ) = (C⃗ · Σᵢ₌₁ⁿ r⃗ᵢ)/(‖C⃗‖‖Σᵢ₌₁ⁿ r⃗ᵢ‖)

Ausgleich zwischen Relevanz und Vollständigkeit

Bereitstellung eines benutzergesteuerten Ausgleichsmechanismus:

Sᵢ = λIᵢ,vollständigkeit + (1-λ)Iᵢ,relevanz

Wobei λ ∈ 0,1 das Gewicht zwischen Vollständigkeit und Relevanz steuert.

Technische Implementierung

  1. Texteinbettung: Verwendung von Transformer-basierten Satzeinbettungen (z.B. Sentence-BERT)
  2. Semantische Ähnlichkeit: Berechnung der semantischen Distanz zwischen Vektoren durch Kosinusähnlichkeit
  3. Informationsvollständigkeitskurve: Darstellung der kumulativen Vollständigkeit in Abhängigkeit vom Anteil der angesehenen Ergebnisse

Experimentelles Design

Großflächige Datenvalidierung

Datensatzgröße

  • Zeitspanne: 16. November 2021 bis 15. November 2022 (ein Jahr)
  • Geografische Abdeckung: 48 Länder über 6 Kontinente
  • Datenmenge: 6,5 Billionen ursprüngliche Suchergebnisse
  • Durchschnittliche tägliche Daten: 57,6 Millionen Suchanfragen, 18 Milliarden Datenpunkte
  • Ergebnistiefe: Median von 320 Suchergebnissen pro Abfrage

Validierungsmethode

Validierung der Metrik durch Vergleich der Informationsvollständigkeit verschiedener Länder mit der Medienfreiheit (unter Verwendung von Daten der Organisation Reporter ohne Grenzen).

Randomisierte kontrollierte Experimente

Experimentelles Design

  • Plattform: Selbst entwickelte Sonder-Suchplattform
  • Teilnehmer: 876 amerikanische Erwachsene (rekrutiert über Prolific)
  • Experimentdauer: 40 Minuten (5 Minuten Vortest + 30 Minuten Interaktion + 5 Minuten Nachtest)
  • Gruppeneinteilung: Behandlungsgruppe 434 Personen (zeigt Informationsvollständigkeitswerte), Kontrollgruppe 442 Personen (normale Suche)

Suchthemen

5 breite Themen zur Bewertung der Offenheit des Denkens:

  1. Patriotismus in unserem Land heute
  2. Offenheit gegenüber Einwanderung
  3. Abtreibung und deren rechtlicher Status
  4. Traditionelle Werte in der heutigen Gesellschaft
  5. Gesetze zum Waffenbesitz

Experimentelle Ergebnisse

Validierung der Informationsvollständigkeitsmetrik

Geografische Differenzanalyse

  • Niedrigste Vollständigkeit: Nahost- und Nordafrikaregion (etwa 25% Vollständigkeit auf der ersten Seite)
  • Höchste Vollständigkeit: Nordamerika (etwa 62% Vollständigkeit auf der ersten Seite)
  • Statistische Beziehung: Für jede Erhöhung der Medienbeschränkungsbewertung um 1 Einheit sinkt die Informationsvollständigkeit um 0,28 Prozentpunkte (p < 0,001)

Regionale Fixeffekte

Nach Hinzufügen von regionalen Fixeffekten sinkt der Effekt auf 0,17 Prozentpunkte (p < 0,001), was darauf hindeutet, dass innerhalb von Regionen immer noch signifikante Unterschiede auf Länderebene bestehen.

Ergebnisse des Verhaltensexperiments

Verbesserung der Offenheit des Denkens (Ergebnis O1)

  • Gesamteffekt: Behandlungsgruppe zeigt Verbesserung der Offenheit des Denkens um 0,076 Standardabweichungseinheiten (p = 0,207, nicht signifikant)
  • Faktische Resistenz: Signifikante Verringerung um 0,212 Standardabweichungseinheiten (p = 0,003, statistisch signifikant)
  • Dogmatismus: Verringerung um 0,048 Standardabweichungseinheiten (p = 0,432, nicht signifikant)
  • Personalisierung von Überzeugungen: Verringerung um 0,012 Standardabweichungseinheiten (p = 0,777, nicht signifikant)
  • Liberales Denken: Verringerung um 0,032 Standardabweichungseinheiten (p = 1,302, nicht signifikant)

Veränderungen im Browsing-Verhalten (Ergebnis O2)

  • Suchtiefe: Behandlungsgruppe sieht durchschnittlich 6,14 Positionen weiter unten (p < 0,001)
  • Anzahl der Klicks: Behandlungsgruppe klickt durchschnittlich 2,182 weitere Ergebnisse an (p = 0,312, nicht signifikant)
  • Verbesserung der Vollständigkeit: Informationsvollständigkeitswerte der angeklickten Ergebnisse in der Behandlungsgruppe sind 7,6 Prozentpunkte höher (p = 0,001)

Verwandte Arbeiten

Entwicklung der Internetsuche

  1. Frühe Lösungen (1990er Jahre): Archie, Gopher, WAIS und andere schlüsselwortbasierte Systeme
  2. Aufstieg von Google (1998): PageRank-Algorithmus revolutioniert die Bewertung von Linkqualität
  3. Moderne Lösungen: KI- und maschinelles Lernen-gesteuerte personalisierte Suche

Forschung zur Informationsqualität

  • Erkennung von Fehlinformationen: Fokus auf Abweichungen zwischen Informationen und objektiver Wahrheit
  • Algorithmische Fairness: Untersuchung von algorithmischen Vorurteilen gegenüber marginalisierten Gruppen
  • Filterblasen: Informationssiloeffekte durch personalisierte Empfehlungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Metrik-Validität: Die Informationsvollständigkeitsmetrik kann effektiv die Medienfreiheit verschiedener Länder und Regionen widerspiegeln
  2. Kognitive Auswirkungen: Das Bewusstsein für Informationsvollständigkeit verbessert hauptsächlich wissensbezogene Dimensionen (verringert faktische Resistenz), hat aber begrenzte Auswirkungen auf zwischenmenschliche Dimensionen
  3. Verhaltensänderung: Benutzer werden aktiv tiefere und vollständigere Suchergebnisse erkunden

Einschränkungen

  1. Technologische Abhängigkeit: Die Metrik-Qualität hängt von der Qualität der Texteinbettung ab und kann durch Verzerrungen in Trainingsdaten beeinflusst werden
  2. Kulturelle Grenzen: Das Konzept der Offenheit des Denkens (AOT) stammt aus der westlichen Psychologie und hat begrenzte kulturübergreifende Anwendbarkeit
  3. Verständnisschwelle: Der Grad des Verständnisses der Teilnehmer für das Konzept der Informationsvollständigkeit beeinflusst die Behandlungseffektivität

Zukünftige Richtungen

  1. Größeneffekte: Untersuchung der Auswirkungen von Änderungen der Informationsvollständigkeitswerte auf die Offenheit des Denkens
  2. Erweiterung auf soziale Medien: Ausweitung der Forschung auf Social-Media-Plattformen mit personalisierten Informationsquellen
  3. Bildungsinterventionen: Entwicklung von Bildungsprogrammen zur Erhöhung des öffentlichen Bewusstseins für Informationsvollständigkeit

Tiefgreifende Bewertung

Stärken

  1. Problemnovität: Identifizierung und Quantifizierung des übersehenen, aber wichtigen Problems der Informationsunvollständigkeit
  2. Methodische Strenge: Kombination großflächiger Beobachtungsdaten und randomisierter kontrollierter Experimente mit ausreichenden empirischen Belegen
  3. Praktischer Wert: Entwicklung einer Open-Source-Suchplattform mit realem Anwendungspotenzial
  4. Interdisziplinäre Integration: Synthese von Theorien und Methoden aus Informationsbeschaffung, Psychologie, Politikwissenschaft und anderen Disziplinen

Mängel

  1. Grenzen der Kausalinferenz: Analyse auf Länderebene ist hauptsächlich korrelativ, es fehlt eine starke Kausalidentifikation
  2. Stichprobenrepräsentativität: Experimente beschränken sich auf amerikanische Erwachsene; die Universalität der Ergebnisse bedarf weiterer Überprüfung
  3. Langzeiteffekte unbekannt: Experimente beobachten nur kurzfristige Effekte; langfristige Auswirkungen sind unklar
  4. Algorithmus-Transparenz: Die „Black-Box"-Natur von Texteinbettungsalgorithmen kann die Interpretierbarkeit der Metrik beeinträchtigen

Auswirkungen

  1. Akademischer Beitrag: Bereitstellung eines neuen theoretischen Rahmens und Messinstruments zur Bewertung der Informationsqualität
  2. Politische Bedeutung: Bereitstellung objektiver Indikatoren zur Bewertung der Qualität der Informationsumgebung eines Landes
  3. Technologische Anwendung: Richtung für die Verbesserung von Suchmaschinen und Informationsplattformen
  4. Gesellschaftlicher Wert: Förderung der Informationskompetenz und des kritischen Denkens der Öffentlichkeit

Anwendungsszenarien

  1. Suchmaschinen-Optimierung: Hilft Benutzern, die Vollständigkeit von Suchergebnissen besser zu bewerten
  2. Medienregulierung: Bereitstellung von Werkzeugen für Regierungen und Organisationen zur Bewertung der Informationsumgebungsqualität
  3. Bildung und Schulung: Verwendung zur Förderung der Informationskompetenz von Schülern und der Öffentlichkeit
  4. Akademische Forschung: Bereitstellung neuer Messinstrumente und theoretischer Rahmenbedingungen für verwandte Forschungsbereiche

Literaturverzeichnis

Dieses Papier zitiert umfangreiche interdisziplinäre Literatur, einschließlich:

  • Informationsbeschaffung und natürliche Sprachverarbeitung (Vaswani et al., 2017; Devlin et al., 2018)
  • Psychologie und Kognitionswissenschaft (Baron, 2000; Stanovich & West, 2007)
  • Politikwissenschaft und Kommunikationswissenschaft (Dahlberg, 2001; Lazer et al., 2020)
  • Rechnergestützte Sozialwissenschaften (Hofman et al., 2021; Vosoughi et al., 2018)

Diese Forschung bietet eine wichtige und innovative Perspektive im Zeitalter der Informationsüberflutung und trägt durch strenge Methodik und großflächige empirische Forschung wesentlich zum Verständnis und zur Verbesserung unserer Interaktion mit digitalen Informationen bei. Trotz einiger Einschränkungen sind ihr theoretischer Wert und ihre praktische Bedeutung beachtenswert und verdienen weitere Entwicklung und Aufmerksamkeit.