The advent of LLMs has given rise to a new type of web search: Generative search, where LLMs retrieve web pages related to a query and generate a single, coherent text as a response. This output modality stands in stark contrast to traditional web search, where results are returned as a ranked list of independent web pages. In this paper, we ask: Along what dimensions do generative search outputs differ from traditional web search? We compare Google, a traditional web search engine, with four generative search engines from two providers (Google and OpenAI) across queries from four domains. Our analysis reveals intriguing differences. Most generative search engines cover a wider range of sources compared to web search. Generative search engines vary in the degree to which they rely on internal knowledge contained within the model parameters v.s. external knowledge retrieved from the web. Generative search engines surface varying sets of concepts, creating new opportunities for enhancing search diversity and serendipity. Our results also highlight the need for revisiting evaluation criteria for web search in the age of Generative AI.
- Paper-ID: 2510.11560
- Titel: Characterizing Web Search in The Age of Generative AI
- Autoren: Elisabeth Kirsten, Jost Grosse Perdekamp, Mihir Upadhyay, Krishna P. Gummadi, Muhammad Bilal Zafar
- Institutionen: Ruhr-Universität Bochum, UAR RC Trust, MPI-SWS
- Klassifizierung: cs.IR cs.AI
- Veröffentlichungsdatum: 13. Oktober 2025
- Paper-Link: https://arxiv.org/abs/2510.11560
Das Aufkommen großer Sprachmodelle (LLMs) hat eine neue Form der Websuche hervorgebracht: generative Suche, bei der LLMs webbasierte Inhalte abrufen, die mit einer Anfrage relevant sind, und eine einzelne, kohärente Textantwort generieren. Dieser Ausgabemodus steht in starkem Kontrast zur traditionellen Websuche, die eine Rangliste unabhängiger Webseiten zurückgibt. Diese Arbeit untersucht, in welchen Dimensionen sich die Ausgaben generativer Suche von der traditionellen Websuche unterscheiden. Die Studie vergleicht die traditionelle Google-Suchmaschine mit vier generativen Suchmaschinen von Google und OpenAI über Anfragen aus vier Domänen. Die Analyse offenbart bemerkenswerte Unterschiede: Die meisten generativen Suchmaschinen decken eine breitere Palette von Informationsquellen ab als die traditionelle Websuche; generative Suchmaschinen unterscheiden sich in ihrer Abhängigkeit von internem Modellwissen gegenüber externem, aus dem Web abgerufenem Wissen; generative Suchmaschinen präsentieren unterschiedliche Konzeptmengen, was neue Möglichkeiten zur Verbesserung der Suchvielfalt und zufälligen Entdeckung schafft.
Mit dem Aufstieg generativer KI entwickelt sich die Websuche in eine Richtung, die stärker auf großen Sprachmodellen basiert. Traditionelle Suchmaschinen geben eine Rangliste von etwa 10 Suchergebnissen zurück, während generative Suchsysteme durch LLM-Chatbots natürlichsprachige Antworten liefern. Dieser Paradigmenwechsel führt zu drei Schlüsseldifferenzen:
- Unterschiedliche Ausgabeformate: Traditionelle Suche gibt unabhängige Webseiten zurück, generative Suche bildet einen einzelnen kohärenten Textblock
- Breitere Abdeckung: Generative Suche kann Inhalte aus weit mehr als 10 Quellen zusammenfassen
- Gemischte Wissensquellen: Kombination von externem Abrufwissen und internem LLM-Wissen
Das Verständnis dieser Unterschiede ist entscheidend für die Bewertung der Suchqualität, Informationsvielfalt und Benutzererfahrung. Bestehende Suchbewertungsmetriken sind hauptsächlich für Ranglisten konzipiert und können nicht direkt auf die zusammengefassten Ausgaben generativer Suche angewendet werden.
- Mangel an systematischen Vergleichsstudien zwischen generativer und traditioneller Suche
- Bestehende Bewertungsrahmen sind für generative Suchausgaben ungeeignet
- Mangelnde tiefgreifende Analyse der Informationsquellenauswahl und Konzeptabdeckung generativer Suche
- Erster systematischer Vergleich: Umfassende Quellen- und Inhaltsanalyse zwischen traditioneller und generativer Suche
- Mehrdimensionales Analyserahmenwerk: Bewertung von Suchsystemen aus drei Dimensionen: Informationsquellenvielfalt, interne/externe Wissensabhängigkeit, Konzeptabdeckung
- Großangelegte empirische Studie: Umfassende Experimente über 6 Datensätze und 4.606 Anfragen
- Aktualitätsanalyse: Bewertung der Fähigkeit verschiedener Suchsysteme, zeitkritische Anfragen zu bearbeiten
- Innovationen in Bewertungsmethoden: Vorschlag neuer Bewertungsstandards und Methoden für generative Suche
Diese Studie zielt darauf ab, drei zentrale Forschungsfragen zu beantworten:
- RQ1: Inwieweit nutzen generative KI-Modelle ihre Fähigkeit, mehr Suchergebnisse zu verarbeiten, um auf vielfältigere Informationsquellen zuzugreifen?
- RQ2: In welchem Umfang verlassen sich generative Suchmaschinen auf externes Netzwissen gegenüber internem LLM-Wissen?
- RQ3: Führt die Abhängigkeit von vielfältigeren Informationsquellen und die Nutzung internen Wissens dazu, dass generative KI-Modelle vielfältigere Ausgaben produzieren?
- Traditionelle Suche: Google organische Suchergebnisse (Organic)
- Generative Suche:
- Google AI Overview (AIO)
- Gemini-2.5-Flash mit Google Search
- GPT-4o Search (GPT-Search)
- GPT-4o mit Search Tool (GPT-Tool)
- Informationsquellenanalyse:
- Statistik der Linkanzahl
- Ranking der Website-Popularität (basierend auf Tranco-Liste)
- Klassifizierung des Informationsquellentyps (unter Verwendung von Google-Inhaltskategorien und benutzerdefinierten Klassifizierungen)
- Überlappungsanalyse mit traditionellen Suchergebnissen
- Inhaltsanalyse:
- Analyse der Antwortelänge und -struktur
- Bewertung der Konzeptabdeckung (unter Verwendung des LLooM-Rahmens)
- Berechnung der Konzeptdichte
- Analyse der Konzeptüberlappung zwischen Engines
- Konzeptinduktionsmethode: Verwendung von LLooM (LLM-gestütztes Topic-Inferenz-Framework) für Konzeptentdeckung und -klassifizierung
- Mehrstufige Überlappungsanalyse: Berechnung der Überlappung auf URL- bis Domänenebene
- Zeitliche Dimensionsbewertung: Bewertung der Aktualität durch Trend-Anfragen und Zeitstabilitätsanalyse
- Geografische Validierung: Experimentelle Verifikation an zwei geografischen Standorten (USA und Deutschland)
Die Studie verwendet 6 Datensätze mit insgesamt 4.606 Anfragen:
- MS Marco (1.000 Anfragen): Open-Domain-Abrufdatensatz aus echten Bing-Suchanfragen
- WildChat (1.750 Anfragen): Informationssuchende Anfragen aus ChatGPT-Benutzerinteraktionen
- AllSides (332 Anfragen): Anfragen basierend auf politischen Themen
- Regulatory Actions (649 Anfragen): Zeitkritische Anfragen zu Exekutivmaßnahmen der Trump-Regierung
- Science Queries (453 Anfragen): Wissenschaftliche Themenabfragen basierend auf ACM-Computerkategorien
- Products (422 Anfragen): Shopping-Anfragen basierend auf den heißesten Amazon-Produkten von 2023
- Informationsquellenmetriken:
- Linkanzahl pro Anfrage
- Website-Popularitätsranking
- Verteilung des Informationsquellentyps
- URL-/Domänen-Überlappungsrate
- Inhaltsmetriken:
- Antwortelänge (Zeichenanzahl)
- Konzeptabdeckungsrate
- Konzeptdichte (Konzeptanzahl/Textlänge)
- Konzeptüberlappung (Jaccard-Ähnlichkeit)
- Aktualitätsmetriken:
- Erfolgsquote bei der Verarbeitung von Trend-Anfragen
- Zeitstabilität (Konsistenz über Zeitpunkte hinweg)
- Alle Anfragen in englischer Sprache
- Ausführung an zwei geografischen Standorten (USA und Deutschland)
- Temperaturparameter für generative Modelle auf 0 gesetzt (falls unterstützt)
- Maximale neue Token auf 1.000 gesetzt
- Experimentzeitraum: Juli-September 2025
- Unterschiede in der Abhängigkeit von externem Wissen:
- GPT-Tool zitiert durchschnittlich nur 0,4 Webseiten pro Anfrage
- AIO, Gemini und GPT-Search zitieren jeweils 8,6, 8,5 und 4,1 Webseiten
- Traditionelle Suche gibt konstant 10 Ergebnisse zurück
- Popularität der Informationsquellen:
- Traditionelle Suche: 89% der Websites in der Tranco-1M-Liste
- Generative Suche: 81%-86% in der Liste
- Von GPT-Tool zitierte Websites haben höheres Ranking (Median 1124 vs. traditionelle Suche 2352)
- Niedrige Informationsquellenüberlappung:
- AIO und traditionelle Suche (Top 10 Ergebnisse) Überlappung <50%
- Überlappung mit Top 100 Ergebnissen nicht über 60%
- Überlappungsrate im Products-Datensatz nur 30%
- Unterschiede in der Antwortelänge:
- Gemini am längsten (durchschnittlich 2505±552 Zeichen)
- GPT-Tool am kürzesten (durchschnittlich 1018±219 Zeichen)
- AIO mittlere Länge aber mehr Links
- Ähnliche Konzeptabdeckung:
- Traditionelle Suche (alle Ergebnisse): 78%±14%
- GPT-Search: 78%±16%
- Gemini: 77%±14%
- AIO: 74%±16%
- GPT-Tool: 71%±16%
- Verarbeitung mehrdeutiger Anfragen:
- Traditionelle Suche zeigt beste Leistung bei mehrdeutigen Anfragen (67% Median-Abdeckung)
- AIO: 55%
- GPT-Tool: 48%
- Verarbeitung von Trend-Anfragen:
- AIO wird nur bei 3% der Trend-Anfragen ausgelöst
- GPT-Search erreicht höchste Konzeptabdeckungsrate (72%)
- GPT-Tool zeigt schwache Leistung bei Aktualitätsabfragen (51%)
- Zeitstabilität:
- Traditionelle Suche am stabilsten (45% Überlappungsrate)
- Gemini an zweiter Stelle (40%)
- AIO zeigt größte Variabilität (18% Überlappungsrate)
Untersuchung der Auswirkungen unterschiedlicher Suchkontextgrößen (niedrig/mittel/hoch) bei GPT-Modellen:
- Suchkontextgröße hat keinen signifikanten Einfluss auf die Informationsquellenauswahl
- Keine offensichtlichen Unterschiede in der Inhaltsqualität
- Konzeptabdeckungsrate bleibt grundsätzlich konsistent
- Klassische Metriken wie Relevanz, Vielfalt, Aktualität, Abdeckung
- Ranking-Bewertungsmethoden wie nDCG, α-nDCG
- Forschung zu Vielfalt wie politische Voreingenommenheit, geografische Voreingenommenheit, kommerzielle Voreingenommenheit
- Bewertung von Fähigkeiten wie Frage-Antwort, Zusammenfassung, Faktische Grundlage, Werkzeugnutzung
- Retrieval-Augmented Generation (RAG)-Technologie
- Anfrageverständnis und Ranking-Anwendungen
- Bewertung von Verifizierbarkeit, Glaubwürdigkeit, Genauigkeit
- Robustheit gegenüber gegnerischen faktischen Fragen
- Voreingenommenheits- und Gerechtigkeitsprobleme
- Neue Bewertungsprinzipien und Benchmarks
- Informationsquellenvielfalt: Generative Suchmaschinen greifen auf ein breiteres Spektrum von Informationsquellen zu, erhöhen aber nicht unbedingt die Konzeptabdeckung
- Gleichgewicht zwischen internem und externem Wissen: Generative Suchmaschinen unterscheiden sich stark in ihrer Abhängigkeit von internem gegenüber externem Wissen
- Vergleichbare Konzeptabdeckung: Trotz unterschiedlicher Informationsquellen ist die Gesamtkonzeptabdeckung ähnlich wie bei traditioneller Suche
- Herausforderungen bei mehrdeutigen Anfragen: Traditionelle Suche hat bei der Verarbeitung mehrdeutiger Anfragen immer noch Vorteile
- Unterschiede in der Aktualität: Modelle, die sich auf internes Wissen verlassen, zeigen schwache Leistung bei zeitkritischen Anfragen
- Eingeschränkter Anfragespektrum: Deckt nur ausgewählte Anfrage-Workloads ab, berücksichtigt keine mehrrundigen Dialogsuchen
- Sprach- und geografische Einschränkungen: Verwendet nur englische Anfragen, getestet nur in zwei Ländern
- Tiefe der Inhaltsanalyse: Analysiert nur die Top 10 traditionellen Suchergebnisse, geht davon aus, dass Benutzer selten Links anklicken
- Begrenzte Zeitfenster: Begrenzte Bewertungszeitfenster, längerfristige Längsschnittstudien erforderlich
- Ausgabedeterminismus: Verwendet nur eine Ausgabe pro Anfrage, misst nicht die Ausgabevariabilität
- Neue Bewertungsmethoden: Entwicklung von Bewertungsmethoden, die Informationsquellenvielfalt, Konzeptabdeckung und synthetisches Verhalten berücksichtigen
- Mehrsprachige Erweiterung: Erweiterung auf mehrsprachige Anfragen und mehrrundige Interaktionen
- Tiefere Inhaltsanalyse: Vergleich der Zusammenfassungsanalyse mit vollständiger Seitenbewertung
- Längsschnittstudien: Erfassung von Zeitdrift durch Modellaktualisierungen und neue Ereignisse
- Integration von Faktenchecks: Kombination von Abdeckungsmetriken mit Faktenchecks und Glaubwürdigkeitsbewertung
- Umfassende Forschungsgestaltung: Systematischer Vergleich über mehrere Suchmaschinen, Datensätze und geografische Standorte
- Methodische Innovation: Erstmalige Anwendung von Konzeptinduktionsmethoden auf Suchmaschinen-Vergleiche
- Hoher praktischer Wert: Wichtige Erkenntnisse für Suchmaschinen-Design und -Bewertung
- Fokus auf Aktualität: Besondere Aufmerksamkeit auf die Verarbeitung zeitkritischer Anfragen
- Objektive Neutralität: Zeigt sowohl Vorteile als auch Einschränkungen generativer Suche
- LLM-abhängige Konzeptanalyse: Die Verwendung von LLM für Konzeptinduktion kann Voreingenommenheit einführen
- Starke Annahmen: Annahmen wie Benutzer klicken nicht auf Links, überschreiten nicht die Top 10 usw.
- Einzelne Bewertungsmetriken: Konzentriert sich hauptsächlich auf Konzeptabdeckung, fehlt Genauigkeits- und Glaubwürdigkeitsbewertung
- Kurzer Zeithorizont: Nur zwei Monate Zeitstabilitätsanalyse möglicherweise unzureichend
- Akademischer Beitrag: Bietet neues theoretisches Rahmenwerk und Methoden für die Bewertung generativer Suche
- Praktischer Wert: Wichtige Referenz für Suchmaschinen-Entwickler und Benutzer
- Politische Implikationen: Wissenschaftliche Grundlage für Suchmaschinen-Regulierung und Standardisierung
- Zukünftige Forschung: Legt Grundlagen für nachfolgende verwandte Forschung
- Suchmaschinen-Bewertung: Anwendbar auf Vergleichsbewertung traditioneller und generativer Suchmaschinen
- Produktentwicklung: Bietet Orientierung für Suchprodukt-Design und -Optimierung
- Akademische Forschung: Bietet Methoden und Daten für Forschung in Information Retrieval und KI
- Benutzeraufklärung: Hilft Benutzern, die Merkmale und Anwendungsszenarien verschiedener Suchtools zu verstehen
Das Paper zitiert 41 verwandte Arbeiten, die wichtige Arbeiten in mehreren Forschungsbereichen abdecken, darunter traditionelle Suchbewertung, Bewertung großer Sprachmodelle und generative Suche, und bietet eine solide theoretische Grundlage für die Forschung.
Diese Studie leistet einen wichtigen Beitrag zum Verständnis der Merkmale der Websuche im Zeitalter generativer KI. Sie offenbart nicht nur die Schlüsseldifferenzen zwischen traditioneller und generativer Suche, sondern bietet auch neue Ideen und Methoden für das Design und die Bewertung zukünftiger Suchsysteme.