The advent of LLMs has given rise to a new type of web search: Generative search, where LLMs retrieve web pages related to a query and generate a single, coherent text as a response. This output modality stands in stark contrast to traditional web search, where results are returned as a ranked list of independent web pages. In this paper, we ask: Along what dimensions do generative search outputs differ from traditional web search? We compare Google, a traditional web search engine, with four generative search engines from two providers (Google and OpenAI) across queries from four domains. Our analysis reveals intriguing differences. Most generative search engines cover a wider range of sources compared to web search. Generative search engines vary in the degree to which they rely on internal knowledge contained within the model parameters v.s. external knowledge retrieved from the web. Generative search engines surface varying sets of concepts, creating new opportunities for enhancing search diversity and serendipity. Our results also highlight the need for revisiting evaluation criteria for web search in the age of Generative AI.
academic- 论文ID: 2510.11560
- 标题: Characterizing Web Search in The Age of Generative AI
- 作者: Elisabeth Kirsten, Jost Grosse Perdekamp, Mihir Upadhyay, Krishna P. Gummadi, Muhammad Bilal Zafar
- 机构: Ruhr University Bochum, UAR RC Trust, MPI-SWS
- 分类: cs.IR cs.AI
- 发表时间: 2025年10月13日
- 论文链接: https://arxiv.org/abs/2510.11560
大语言模型(LLMs)的出现催生了一种新型的网络搜索形式:生成式搜索,即LLMs检索与查询相关的网页并生成单一、连贯的文本作为响应。这种输出模式与传统网络搜索形成鲜明对比,后者返回独立网页的排名列表。本文探讨生成式搜索输出与传统网络搜索在哪些维度上存在差异。研究比较了Google传统搜索引擎与来自Google和OpenAI的四个生成式搜索引擎,涵盖四个领域的查询。分析揭示了引人注目的差异:大多数生成式搜索引擎覆盖的信息源范围比传统网络搜索更广;生成式搜索引擎在依赖模型参数内部知识与从网络检索的外部知识方面存在差异;生成式搜索引擎呈现不同的概念集合,为增强搜索多样性和偶然发现创造了新机会。
随着生成式AI的兴起,网络搜索正在向更依赖大语言模型的方向发展。传统搜索引擎返回约10个搜索结果的排名列表,而生成式搜索系统则通过LLM聊天机器人提供自然语言答案。这种范式转变带来了三个关键差异:
- 输出格式不同:传统搜索返回独立网页,生成式搜索形成单一连贯文本块
- 覆盖范围更广:生成式搜索可能综合远超10个来源的内容
- 知识来源混合:结合外部检索信息与LLM内部知识
理解这些差异对于评估搜索质量、信息多样性和用户体验至关重要。现有搜索评估指标主要针对排名列表设计,无法直接应用于生成式搜索的综合输出。
- 缺乏对生成式搜索与传统搜索系统性比较的研究
- 现有评估框架不适用于生成式搜索输出
- 对生成式搜索的信息源选择和概念覆盖缺乏深入分析
- 首次系统性比较:对传统搜索与生成式搜索进行全面的源分析和内容分析
- 多维度分析框架:从信息源多样性、内外部知识依赖、概念覆盖三个维度评估搜索系统
- 大规模实证研究:跨越6个数据集、4,606个查询的综合实验
- 时效性分析:评估不同搜索系统对时间敏感查询的处理能力
- 评估方法创新:提出适用于生成式搜索的新评估标准和方法
本研究旨在回答三个核心研究问题:
- RQ1: 生成式AI模型在多大程度上利用其处理更多搜索结果的能力来访问更多样化的信息源?
- RQ2: 生成式搜索引擎在多大比例上依赖外部网络知识与内部LLM知识?
- RQ3: 对更多样化信息源的依赖和内部知识的使用是否使生成式AI模型产生更多样化的输出?
- 传统搜索:Google有机搜索结果(Organic)
- 生成式搜索:
- Google AI Overview (AIO)
- Gemini-2.5-Flash with Google Search
- GPT-4o Search (GPT-Search)
- GPT-4o with Search Tool (GPT-Tool)
- 信息源分析:
- 链接数量统计
- 网站受欢迎程度排名(基于Tranco列表)
- 信息源类型分类(使用Google内容类别和自定义分类)
- 与传统搜索结果的重叠度分析
- 内容分析:
- 响应长度和结构分析
- 概念覆盖度评估(使用LLooM框架)
- 概念密度计算
- 跨引擎概念重叠分析
- 概念归纳方法:采用LLooM(LLM-powered topic inference framework)进行概念发现和分类
- 多层次重叠分析:从URL级别到域名级别的重叠度计算
- 时间维度评估:通过趋势查询和时间稳定性分析评估时效性
- 跨地理位置验证:在美国和德国两个地理位置进行实验验证
研究使用6个数据集,总计4,606个查询:
- MS Marco(1,000查询):来自真实Bing搜索查询的开放域检索数据集
- WildChat(1,750查询):从ChatGPT用户交互中筛选的信息寻求查询
- AllSides(332查询):基于政治话题生成的查询
- Regulatory Actions(649查询):关于特朗普政府行政命令的时效性查询
- Science Queries(453查询):基于ACM计算分类系统的科学话题查询
- Products(422查询):基于2023年最热门Amazon产品的购物查询
- 信息源指标:
- 每查询链接数量
- 网站受欢迎程度排名
- 信息源类型分布
- URL/域名重叠率
- 内容指标:
- 响应长度(字符数)
- 概念覆盖率
- 概念密度(概念数/文本长度)
- 概念重叠度(Jaccard相似度)
- 时效性指标:
- 所有查询使用英语进行
- 在美国和德国两个地理位置执行
- 生成式模型温度参数设为0(如支持)
- 最大新token数设为1,000
- 实验时间:2025年7-9月
- 外部知识依赖差异:
- GPT-Tool平均每查询仅引用0.4个网页
- AIO、Gemini、GPT-Search分别引用8.6、8.5、4.1个网页
- 传统搜索固定返回10个结果
- 信息源受欢迎程度:
- 传统搜索:89%的网站在Tranco 1M列表中
- 生成式搜索:81%-86%在列表中
- GPT-Tool引用的网站排名更高(中位数1124 vs 传统搜索2352)
- 信息源重叠度低:
- AIO与传统搜索前10结果重叠<50%
- 与前100结果重叠不超过60%
- Products数据集重叠率仅30%
- 响应长度差异:
- Gemini最长(平均2505±552字符)
- GPT-Tool最短(平均1018±219字符)
- AIO中等长度但链接数多
- 概念覆盖相似:
- 传统搜索(所有结果):78%±14%
- GPT-Search:78%±16%
- Gemini:77%±14%
- AIO:74%±16%
- GPT-Tool:71%±16%
- 歧义查询处理:
- 传统搜索在低覆盖查询上表现最佳(67%中位覆盖率)
- AIO:55%
- GPT-Tool:48%
- 趋势查询处理:
- AIO仅在3%的趋势查询中被触发
- GPT-Search达到最高概念覆盖率(72%)
- GPT-Tool在时效性查询上表现不佳(51%)
- 时间稳定性:
- 传统搜索最稳定(45%重叠率)
- Gemini次之(40%)
- AIO变化最大(18%重叠率)
研究了GPT模型不同搜索上下文大小(low/medium/high)的影响:
- 搜索上下文大小对信息源选择无显著影响
- 对内容生成质量也无明显差异
- 概念覆盖率基本保持一致
- 相关性、多样性、新鲜度、覆盖度等传统指标
- nDCG、α-nDCG等排名评估方法
- 政治偏见、地理偏见、商业偏见等多样性研究
- 问答、摘要、事实基础、工具使用等能力评估
- 检索增强生成(RAG)技术
- 查询理解和排名应用
- 可验证性、可信度、准确性评估
- 对抗性事实问题的鲁棒性
- 偏见和不公平问题
- 新的评估原则和基准
- 信息源多样性:生成式搜索引擎访问更广泛的信息源,但不一定提高概念覆盖度
- 内外部知识平衡:不同生成式搜索引擎在依赖内部vs外部知识方面差异巨大
- 概念覆盖相当:尽管信息源不同,整体概念覆盖度与传统搜索相似
- 歧义查询挑战:传统搜索在处理歧义查询时仍有优势
- 时效性差异:依赖内部知识的模型在时效性查询上表现不佳
- 查询范围限制:仅涵盖选定的查询工作负载,未考虑多轮对话搜索
- 语言和地理限制:仅使用英语查询,仅在两个国家测试
- 内容分析深度:仅分析前10个传统搜索结果,假设用户很少点击链接
- 时间窗口限制:评估时间窗口有限,需要更长期的纵向研究
- 输出确定性:每个查询仅使用一个输出,未测量输出变异性
- 新评估方法:开发同时考虑信息源多样性、概念覆盖和综合行为的评估方法
- 多语言扩展:扩展到多语言查询和多轮交互
- 深度内容分析:比较摘要分析与完整页面内容评估
- 纵向研究:捕获模型更新和新兴事件的时间漂移
- 事实核查整合:结合覆盖度指标与事实核查和可信度评估
- 研究设计全面:多搜索引擎、多数据集、多地理位置的系统性比较
- 方法创新:首次将概念归纳方法应用于搜索引擎比较
- 实用价值高:为搜索引擎设计和评估提供重要洞察
- 时效性关注:特别关注时间敏感查询的处理能力
- 客观中立:既展现生成式搜索优势,也指出其局限性
- 概念分析依赖LLM:使用LLM进行概念归纳可能引入偏见
- 假设条件强:假设用户不点击链接、不超越前10结果等
- 评估指标单一:主要关注概念覆盖,缺乏准确性和可信度评估
- 时间跨度短:仅两个月的时间稳定性分析可能不够充分
- 学术贡献:为生成式搜索评估提供新的理论框架和方法
- 实用价值:为搜索引擎开发者和用户提供重要参考
- 政策启示:为搜索引擎监管和标准制定提供科学依据
- 未来研究:为后续相关研究奠定基础
- 搜索引擎评估:适用于传统和生成式搜索引擎的比较评估
- 产品开发:为搜索产品设计和优化提供指导
- 学术研究:为信息检索和AI领域研究提供方法和数据
- 用户教育:帮助用户理解不同搜索工具的特点和适用场景
论文引用了41篇相关文献,涵盖传统搜索评估、大语言模型评估、生成式搜索等多个研究领域的重要工作,为研究提供了坚实的理论基础。
本研究为理解生成式AI时代的网络搜索特征提供了重要贡献,不仅揭示了传统搜索与生成式搜索的关键差异,还为未来搜索系统的设计和评估提供了新的思路和方法。