The advent of LLMs has given rise to a new type of web search: Generative search, where LLMs retrieve web pages related to a query and generate a single, coherent text as a response. This output modality stands in stark contrast to traditional web search, where results are returned as a ranked list of independent web pages. In this paper, we ask: Along what dimensions do generative search outputs differ from traditional web search? We compare Google, a traditional web search engine, with four generative search engines from two providers (Google and OpenAI) across queries from four domains. Our analysis reveals intriguing differences. Most generative search engines cover a wider range of sources compared to web search. Generative search engines vary in the degree to which they rely on internal knowledge contained within the model parameters v.s. external knowledge retrieved from the web. Generative search engines surface varying sets of concepts, creating new opportunities for enhancing search diversity and serendipity. Our results also highlight the need for revisiting evaluation criteria for web search in the age of Generative AI.
- ID Articolo: 2510.11560
- Titolo: Characterizing Web Search in The Age of Generative AI
- Autori: Elisabeth Kirsten, Jost Grosse Perdekamp, Mihir Upadhyay, Krishna P. Gummadi, Muhammad Bilal Zafar
- Istituzioni: Ruhr University Bochum, UAR RC Trust, MPI-SWS
- Classificazione: cs.IR cs.AI
- Data di Pubblicazione: 13 ottobre 2025
- Link Articolo: https://arxiv.org/abs/2510.11560
L'emergere dei modelli linguistici di grandi dimensioni (LLM) ha catalizzato una nuova forma di ricerca web: la ricerca generativa, in cui gli LLM recuperano pagine web rilevanti alle query e generano una singola risposta testuale coerente. Questa modalità di output contrasta nettamente con la ricerca web tradizionale, che restituisce un elenco classificato di pagine web indipendenti. Questo articolo esamina le dimensioni lungo le quali gli output della ricerca generativa differiscono dalla ricerca web tradizionale. Lo studio confronta il motore di ricerca tradizionale Google con quattro motori di ricerca generativi provenienti da Google e OpenAI, coprendo query in quattro domini. L'analisi rivela differenze significative: la maggior parte dei motori di ricerca generativi copre una gamma di fonti informative più ampia rispetto alla ricerca web tradizionale; i motori di ricerca generativi differiscono nel dipendere dalla conoscenza interna dei parametri del modello rispetto alla conoscenza esterna recuperata dal web; i motori di ricerca generativi presentano insiemi concettuali diversi, creando nuove opportunità per migliorare la diversità della ricerca e la scoperta casuale.
Con l'ascesa dell'IA generativa, la ricerca web si sta evolvendo verso un modello più dipendente dai modelli linguistici di grandi dimensioni. I motori di ricerca tradizionali restituiscono un elenco classificato di circa 10 risultati di ricerca, mentre i sistemi di ricerca generativi forniscono risposte in linguaggio naturale attraverso chatbot basati su LLM. Questo cambio di paradigma introduce tre differenze chiave:
- Formato di output diverso: la ricerca tradizionale restituisce pagine web indipendenti, mentre la ricerca generativa forma un singolo blocco di testo coerente
- Copertura più ampia: la ricerca generativa può sintetizzare contenuti da fonti molto superiori a 10
- Fonti di conoscenza miste: combinazione di informazioni esterne recuperate con conoscenza interna dell'LLM
Comprendere queste differenze è cruciale per valutare la qualità della ricerca, la diversità informativa e l'esperienza utente. Le metriche di valutazione della ricerca esistenti sono principalmente progettate per elenchi classificati e non possono essere applicate direttamente agli output sintetici della ricerca generativa.
- Mancanza di ricerca sistematica che confronti i sistemi di ricerca generativa con quelli tradizionali
- I framework di valutazione esistenti non sono adatti agli output della ricerca generativa
- Analisi insufficiente della selezione delle fonti informative e della copertura concettuale nella ricerca generativa
- Primo confronto sistematico: analisi completa delle fonti e dei contenuti tra ricerca tradizionale e ricerca generativa
- Framework di analisi multidimensionale: valutazione dei sistemi di ricerca da tre dimensioni: diversità delle fonti informative, dipendenza dalla conoscenza interna ed esterna, copertura concettuale
- Studio empirico su larga scala: esperimenti completi su 6 dataset e 4.606 query
- Analisi di tempestività: valutazione della capacità di diversi sistemi di ricerca di gestire query sensibili al tempo
- Innovazione nei metodi di valutazione: proposizione di nuovi standard e metodi di valutazione applicabili alla ricerca generativa
Questo studio mira a rispondere a tre domande di ricerca fondamentali:
- RQ1: In che misura i modelli di IA generativa sfruttano la loro capacità di elaborare più risultati di ricerca per accedere a fonti informative più diversificate?
- RQ2: In quale proporzione i motori di ricerca generativi dipendono dalla conoscenza web esterna rispetto alla conoscenza interna dell'LLM?
- RQ3: La dipendenza da fonti informative più diversificate e l'uso della conoscenza interna consentono ai modelli di IA generativa di produrre output più diversificati?
- Ricerca tradizionale: Risultati organici di Google
- Ricerca generativa:
- Google AI Overview (AIO)
- Gemini-2.5-Flash con Google Search
- GPT-4o Search (GPT-Search)
- GPT-4o con Search Tool (GPT-Tool)
- Analisi delle fonti informative:
- Statistiche sul numero di link
- Classificazione della popolarità dei siti web (basata sulla lista Tranco)
- Classificazione del tipo di fonte informativa (utilizzando categorie di contenuto Google e classificazioni personalizzate)
- Analisi della sovrapposizione con i risultati della ricerca tradizionale
- Analisi dei contenuti:
- Analisi della lunghezza e della struttura della risposta
- Valutazione della copertura concettuale (utilizzando il framework LLooM)
- Calcolo della densità concettuale
- Analisi della sovrapposizione concettuale tra motori
- Metodo di induzione concettuale: utilizzo di LLooM (framework di inferenza di argomenti basato su LLM) per la scoperta e la classificazione concettuale
- Analisi di sovrapposizione multilivello: calcolo della sovrapposizione dal livello URL al livello di dominio
- Valutazione della dimensione temporale: valutazione della tempestività attraverso l'analisi di query di tendenza e stabilità temporale
- Verifica geografica incrociata: esperimenti di verifica in due posizioni geografiche: Stati Uniti e Germania
Lo studio utilizza 6 dataset, per un totale di 4.606 query:
- MS Marco (1.000 query): dataset di recupero open-domain da query di ricerca Bing reali
- WildChat (1.750 query): query di ricerca di informazioni filtrate da interazioni con utenti di ChatGPT
- AllSides (332 query): query generate sulla base di argomenti politici
- Regulatory Actions (649 query): query sensibili al tempo su ordini esecutivi del governo Trump
- Science Queries (453 query): query su argomenti scientifici basate sul sistema di classificazione ACM
- Products (422 query): query di shopping basate sui prodotti Amazon più popolari del 2023
- Metriche delle fonti informative:
- Numero di link per query
- Classificazione della popolarità dei siti web
- Distribuzione del tipo di fonte informativa
- Tasso di sovrapposizione URL/dominio
- Metriche dei contenuti:
- Lunghezza della risposta (numero di caratteri)
- Tasso di copertura concettuale
- Densità concettuale (numero di concetti/lunghezza del testo)
- Grado di sovrapposizione concettuale (somiglianza di Jaccard)
- Metriche di tempestività:
- Tasso di successo nell'elaborazione di query di tendenza
- Stabilità temporale (coerenza tra punti temporali)
- Tutte le query sono state condotte in inglese
- Esecuzione in due posizioni geografiche: Stati Uniti e Germania
- Parametro di temperatura del modello generativo impostato a 0 (se supportato)
- Numero massimo di nuovi token impostato a 1.000
- Periodo sperimentale: luglio-settembre 2025
- Differenze nella dipendenza dalla conoscenza esterna:
- GPT-Tool cita in media solo 0,4 pagine web per query
- AIO, Gemini, GPT-Search citano rispettivamente 8,6, 8,5, 4,1 pagine web
- La ricerca tradizionale restituisce fisso 10 risultati
- Popolarità delle fonti informative:
- Ricerca tradizionale: 89% dei siti web nella lista Tranco 1M
- Ricerca generativa: 81%-86% nella lista
- I siti web citati da GPT-Tool hanno una classificazione più alta (mediana 1124 vs 2352 della ricerca tradizionale)
- Basso grado di sovrapposizione delle fonti:
- Sovrapposizione di AIO con i primi 10 risultati della ricerca tradizionale <50%
- Sovrapposizione con i primi 100 risultati non superiore al 60%
- Nel dataset Products il tasso di sovrapposizione è solo del 30%
- Differenze nella lunghezza della risposta:
- Gemini più lungo (media 2505±552 caratteri)
- GPT-Tool più corto (media 1018±219 caratteri)
- AIO lunghezza media ma con più link
- Copertura concettuale simile:
- Ricerca tradizionale (tutti i risultati): 78%±14%
- GPT-Search: 78%±16%
- Gemini: 77%±14%
- AIO: 74%±16%
- GPT-Tool: 71%±16%
- Gestione di query ambigue:
- La ricerca tradizionale mostra le migliori prestazioni su query a bassa copertura (tasso di copertura mediano 67%)
- AIO: 55%
- GPT-Tool: 48%
- Gestione di query di tendenza:
- AIO attivato solo nel 3% delle query di tendenza
- GPT-Search raggiunge il massimo tasso di copertura concettuale (72%)
- GPT-Tool mostra prestazioni scadenti su query sensibili al tempo (51%)
- Stabilità temporale:
- Ricerca tradizionale più stabile (tasso di sovrapposizione 45%)
- Gemini secondo (40%)
- AIO con variazione massima (tasso di sovrapposizione 18%)
Studio dell'impatto di diverse dimensioni del contesto di ricerca del modello GPT (basso/medio/alto):
- La dimensione del contesto di ricerca non ha effetti significativi sulla selezione delle fonti informative
- Nessuna differenza evidente sulla qualità della generazione di contenuti
- Il tasso di copertura concettuale rimane sostanzialmente coerente
- Metriche tradizionali come rilevanza, diversità, freschezza, copertura
- Metodi di valutazione della classificazione come nDCG, α-nDCG
- Ricerca su diversità come pregiudizio politico, pregiudizio geografico, pregiudizio commerciale
- Valutazione di capacità come risposta a domande, sintesi, fondamento fattuale, uso di strumenti
- Tecnologia di generazione aumentata da recupero (RAG)
- Comprensione delle query e applicazioni di classificazione
- Valutazione di verificabilità, credibilità, accuratezza
- Robustezza su fatti contraddittori avversariali
- Problemi di pregiudizio e iniquità
- Nuovi principi di valutazione e benchmark
- Diversità delle fonti informative: i motori di ricerca generativi accedono a una gamma più ampia di fonti informative, ma non necessariamente aumentano la copertura concettuale
- Equilibrio tra conoscenza interna ed esterna: enormi differenze tra diversi motori di ricerca generativi nel dipendere dalla conoscenza interna rispetto a quella esterna
- Copertura concettuale equivalente: nonostante le diverse fonti informative, la copertura concettuale complessiva è simile alla ricerca tradizionale
- Sfida delle query ambigue: la ricerca tradizionale mantiene ancora vantaggi nel gestire query ambigue
- Differenze di tempestività: i modelli che dipendono dalla conoscenza interna mostrano prestazioni scadenti su query sensibili al tempo
- Limitazioni dell'ambito di query: copre solo carichi di lavoro di query selezionati, non considera la ricerca in conversazione multiturn
- Limitazioni linguistiche e geografiche: utilizza solo query in inglese, testato solo in due paesi
- Profondità dell'analisi dei contenuti: analizza solo i primi 10 risultati della ricerca tradizionale, presuppone che gli utenti raramente facciano clic su link
- Limitazioni della finestra temporale: la finestra di valutazione è limitata, è necessaria una ricerca longitudinale più lunga
- Determinismo dell'output: utilizza un singolo output per ogni query, non misura la variabilità dell'output
- Nuovi metodi di valutazione: sviluppare metodi di valutazione che considerino simultaneamente la diversità delle fonti informative, la copertura concettuale e il comportamento sintetico
- Estensione multilingue: estendere a query multilingue e interazioni multiturn
- Analisi approfondita dei contenuti: confrontare l'analisi di sintesi con la valutazione dei contenuti della pagina completa
- Ricerca longitudinale: catturare la deriva temporale degli aggiornamenti del modello e degli eventi emergenti
- Integrazione del fact-checking: combinare metriche di copertura con valutazione di fact-checking e credibilità
- Design della ricerca completo: confronto sistematico di più motori di ricerca, più dataset, più posizioni geografiche
- Innovazione metodologica: prima applicazione del metodo di induzione concettuale al confronto dei motori di ricerca
- Alto valore pratico: fornisce intuizioni importanti per la progettazione e la valutazione dei motori di ricerca
- Attenzione alla tempestività: particolare attenzione alla capacità di gestire query sensibili al tempo
- Obiettività e neutralità: mostra sia i vantaggi che i limiti della ricerca generativa
- Dipendenza dell'analisi concettuale da LLM: l'uso di LLM per l'induzione concettuale potrebbe introdurre pregiudizi
- Presupposti forti: presuppone che gli utenti non facciano clic su link, non vadano oltre i primi 10 risultati, ecc.
- Metriche di valutazione singolari: si concentra principalmente sulla copertura concettuale, manca la valutazione di accuratezza e credibilità
- Breve arco temporale: l'analisi della stabilità temporale di soli due mesi potrebbe non essere sufficientemente completa
- Contributo accademico: fornisce un nuovo framework teorico e metodi per la valutazione della ricerca generativa
- Valore pratico: fornisce riferimenti importanti per sviluppatori di motori di ricerca e utenti
- Implicazioni politiche: fornisce basi scientifiche per la regolamentazione e la standardizzazione dei motori di ricerca
- Ricerca futura: pone le basi per la ricerca correlata successiva
- Valutazione dei motori di ricerca: applicabile al confronto e alla valutazione di motori di ricerca tradizionali e generativi
- Sviluppo di prodotti: fornisce guida per la progettazione e l'ottimizzazione dei prodotti di ricerca
- Ricerca accademica: fornisce metodi e dati per la ricerca nei campi del recupero delle informazioni e dell'IA
- Educazione degli utenti: aiuta gli utenti a comprendere le caratteristiche e gli scenari applicabili di diversi strumenti di ricerca
L'articolo cita 41 opere correlate, coprendo importanti lavori in più campi di ricerca inclusa la valutazione della ricerca tradizionale, la valutazione dei modelli linguistici di grandi dimensioni, la ricerca generativa e altri, fornendo una base teorica solida per la ricerca.
Questo studio fornisce un contributo importante per comprendere le caratteristiche della ricerca web nell'era dell'IA generativa, non solo rivelando le differenze chiave tra ricerca tradizionale e ricerca generativa, ma fornendo anche nuove prospettive e metodi per la progettazione e la valutazione futura dei sistemi di ricerca.