2025-11-24T16:16:18.122167

Characterizing Web Search in The Age of Generative AI

Kirsten, Perdekamp, Upadhyay et al.

The advent of LLMs has given rise to a new type of web search: Generative search, where LLMs retrieve web pages related to a query and generate a single, coherent text as a response. This output modality stands in stark contrast to traditional web search, where results are returned as a ranked list of independent web pages. In this paper, we ask: Along what dimensions do generative search outputs differ from traditional web search? We compare Google, a traditional web search engine, with four generative search engines from two providers (Google and OpenAI) across queries from four domains. Our analysis reveals intriguing differences. Most generative search engines cover a wider range of sources compared to web search. Generative search engines vary in the degree to which they rely on internal knowledge contained within the model parameters v.s. external knowledge retrieved from the web. Generative search engines surface varying sets of concepts, creating new opportunities for enhancing search diversity and serendipity. Our results also highlight the need for revisiting evaluation criteria for web search in the age of Generative AI.

academic

Characterizing Web Search in The Age of Generative AI

基本信息

论文ID: 2510.11560
标题: Characterizing Web Search in The Age of Generative AI
作者: Elisabeth Kirsten, Jost Grosse Perdekamp, Mihir Upadhyay, Krishna P. Gummadi, Muhammad Bilal Zafar
机构: Ruhr University Bochum, UAR RC Trust, MPI-SWS
分类: cs.IR cs.AI
发表时间: 2025年10月13日
论文链接: https://arxiv.org/abs/2510.11560

摘要

大语言模型(LLMs)的出现催生了一种新型的网络搜索形式：生成式搜索，即LLMs检索与查询相关的网页并生成单一、连贯的文本作为响应。这种输出模式与传统网络搜索形成鲜明对比，后者返回独立网页的排名列表。本文探讨生成式搜索输出与传统网络搜索在哪些维度上存在差异。研究比较了Google传统搜索引擎与来自Google和OpenAI的四个生成式搜索引擎，涵盖四个领域的查询。分析揭示了引人注目的差异：大多数生成式搜索引擎覆盖的信息源范围比传统网络搜索更广；生成式搜索引擎在依赖模型参数内部知识与从网络检索的外部知识方面存在差异；生成式搜索引擎呈现不同的概念集合，为增强搜索多样性和偶然发现创造了新机会。

研究背景与动机

问题定义

随着生成式AI的兴起，网络搜索正在向更依赖大语言模型的方向发展。传统搜索引擎返回约10个搜索结果的排名列表，而生成式搜索系统则通过LLM聊天机器人提供自然语言答案。这种范式转变带来了三个关键差异：

输出格式不同：传统搜索返回独立网页，生成式搜索形成单一连贯文本块
覆盖范围更广：生成式搜索可能综合远超10个来源的内容
知识来源混合：结合外部检索信息与LLM内部知识

研究重要性

理解这些差异对于评估搜索质量、信息多样性和用户体验至关重要。现有搜索评估指标主要针对排名列表设计，无法直接应用于生成式搜索的综合输出。

现有局限性

缺乏对生成式搜索与传统搜索系统性比较的研究
现有评估框架不适用于生成式搜索输出
对生成式搜索的信息源选择和概念覆盖缺乏深入分析

核心贡献

首次系统性比较：对传统搜索与生成式搜索进行全面的源分析和内容分析
多维度分析框架：从信息源多样性、内外部知识依赖、概念覆盖三个维度评估搜索系统
大规模实证研究：跨越6个数据集、4,606个查询的综合实验
时效性分析：评估不同搜索系统对时间敏感查询的处理能力
评估方法创新：提出适用于生成式搜索的新评估标准和方法

方法详解

任务定义

本研究旨在回答三个核心研究问题：

RQ1: 生成式AI模型在多大程度上利用其处理更多搜索结果的能力来访问更多样化的信息源？
RQ2: 生成式搜索引擎在多大比例上依赖外部网络知识与内部LLM知识？
RQ3: 对更多样化信息源的依赖和内部知识的使用是否使生成式AI模型产生更多样化的输出？

实验架构

搜索引擎选择

传统搜索：Google有机搜索结果(Organic)
生成式搜索：
- Google AI Overview (AIO)
- Gemini-2.5-Flash with Google Search
- GPT-4o Search (GPT-Search)
- GPT-4o with Search Tool (GPT-Tool)

分析维度

信息源分析：
- 链接数量统计
- 网站受欢迎程度排名(基于Tranco列表)
- 信息源类型分类(使用Google内容类别和自定义分类)
- 与传统搜索结果的重叠度分析
内容分析：
- 响应长度和结构分析
- 概念覆盖度评估(使用LLooM框架)
- 概念密度计算
- 跨引擎概念重叠分析

技术创新点

概念归纳方法：采用LLooM(LLM-powered topic inference framework)进行概念发现和分类
多层次重叠分析：从URL级别到域名级别的重叠度计算
时间维度评估：通过趋势查询和时间稳定性分析评估时效性
跨地理位置验证：在美国和德国两个地理位置进行实验验证

实验设置

数据集

研究使用6个数据集，总计4,606个查询：

MS Marco(1,000查询)：来自真实Bing搜索查询的开放域检索数据集
WildChat(1,750查询)：从ChatGPT用户交互中筛选的信息寻求查询
AllSides(332查询)：基于政治话题生成的查询
Regulatory Actions(649查询)：关于特朗普政府行政命令的时效性查询
Science Queries(453查询)：基于ACM计算分类系统的科学话题查询
Products(422查询)：基于2023年最热门Amazon产品的购物查询

评价指标

信息源指标：
- 每查询链接数量
- 网站受欢迎程度排名
- 信息源类型分布
- URL/域名重叠率
内容指标：
- 响应长度(字符数)
- 概念覆盖率
- 概念密度(概念数/文本长度)
- 概念重叠度(Jaccard相似度)
时效性指标：
- 趋势查询处理成功率
- 时间稳定性(跨时间点的一致性)

实现细节

所有查询使用英语进行
在美国和德国两个地理位置执行
生成式模型温度参数设为0(如支持)
最大新token数设为1,000
实验时间：2025年7-9月

外部知识依赖差异：
- GPT-Tool平均每查询仅引用0.4个网页
- AIO、Gemini、GPT-Search分别引用8.6、8.5、4.1个网页
- 传统搜索固定返回10个结果
信息源受欢迎程度：
- 传统搜索：89%的网站在Tranco 1M列表中
- 生成式搜索：81%-86%在列表中
- GPT-Tool引用的网站排名更高(中位数1124 vs 传统搜索2352)
信息源重叠度低：
- AIO与传统搜索前10结果重叠<50%
- 与前100结果重叠不超过60%
- Products数据集重叠率仅30%

内容分析发现

响应长度差异：
- Gemini最长(平均2505±552字符)
- GPT-Tool最短(平均1018±219字符)
- AIO中等长度但链接数多
概念覆盖相似：
- 传统搜索(所有结果)：78%±14%
- GPT-Search：78%±16%
- Gemini：77%±14%
- AIO：74%±16%
- GPT-Tool：71%±16%
歧义查询处理：
- 传统搜索在低覆盖查询上表现最佳(67%中位覆盖率)
- AIO：55%
- GPT-Tool：48%