2025-11-24T16:16:18.122167

Characterizing Web Search in The Age of Generative AI

Kirsten, Perdekamp, Upadhyay et al.

The advent of LLMs has given rise to a new type of web search: Generative search, where LLMs retrieve web pages related to a query and generate a single, coherent text as a response. This output modality stands in stark contrast to traditional web search, where results are returned as a ranked list of independent web pages. In this paper, we ask: Along what dimensions do generative search outputs differ from traditional web search? We compare Google, a traditional web search engine, with four generative search engines from two providers (Google and OpenAI) across queries from four domains. Our analysis reveals intriguing differences. Most generative search engines cover a wider range of sources compared to web search. Generative search engines vary in the degree to which they rely on internal knowledge contained within the model parameters v.s. external knowledge retrieved from the web. Generative search engines surface varying sets of concepts, creating new opportunities for enhancing search diversity and serendipity. Our results also highlight the need for revisiting evaluation criteria for web search in the age of Generative AI.

academic

생성형 AI 시대의 웹 검색 특성화

기본 정보

논문 ID: 2510.11560
제목: Characterizing Web Search in The Age of Generative AI
저자: Elisabeth Kirsten, Jost Grosse Perdekamp, Mihir Upadhyay, Krishna P. Gummadi, Muhammad Bilal Zafar
기관: Ruhr University Bochum, UAR RC Trust, MPI-SWS
분류: cs.IR cs.AI
발표 시간: 2025년 10월 13일
논문 링크: https://arxiv.org/abs/2510.11560

초록

대규모 언어 모델(LLMs)의 출현으로 새로운 형태의 웹 검색이 탄생했다: 생성형 검색은 LLM이 쿼리와 관련된 웹페이지를 검색하고 단일하고 일관된 텍스트를 응답으로 생성한다. 이러한 출력 방식은 독립적인 웹페이지의 순위 목록을 반환하는 전통적 웹 검색과 뚜렷한 대조를 이룬다. 본 논문은 생성형 검색 출력과 전통적 웹 검색이 어떤 차원에서 차이를 보이는지 탐구한다. 연구는 Google의 전통적 검색 엔진과 Google 및 OpenAI의 4개 생성형 검색 엔진을 비교하며, 4개 영역의 쿼리를 포함한다. 분석 결과는 주목할 만한 차이를 드러낸다: 대부분의 생성형 검색 엔진이 전통적 웹 검색보다 더 광범위한 정보 출처를 다루며; 생성형 검색 엔진은 모델 매개변수 내부 지식과 웹에서 검색한 외부 지식에 대한 의존도가 다르며; 생성형 검색 엔진은 서로 다른 개념 집합을 제시하여 검색 다양성과 우연한 발견을 강화할 새로운 기회를 창출한다.

연구 배경 및 동기

문제 정의

생성형 AI의 부상으로 웹 검색이 대규모 언어 모델에 더욱 의존하는 방향으로 진화하고 있다. 전통적 검색 엔진은 약 10개의 검색 결과 순위 목록을 반환하는 반면, 생성형 검색 시스템은 LLM 챗봇을 통해 자연어 답변을 제공한다. 이러한 패러다임 전환은 세 가지 핵심 차이를 야기한다:

출력 형식의 차이: 전통적 검색은 독립적인 웹페이지를 반환하고, 생성형 검색은 단일 일관된 텍스트 블록을 형성
더 광범위한 범위: 생성형 검색은 10개를 훨씬 초과하는 출처의 내용을 종합할 수 있음
혼합된 지식 출처: 외부 검색 정보와 LLM 내부 지식을 결합

연구의 중요성

이러한 차이를 이해하는 것은 검색 품질, 정보 다양성 및 사용자 경험 평가에 필수적이다. 기존 검색 평가 지표는 주로 순위 목록을 위해 설계되었으며, 생성형 검색의 종합 출력에 직접 적용할 수 없다.

기존의 한계

생성형 검색과 전통적 검색 시스템의 체계적 비교 연구 부재
기존 평가 프레임워크가 생성형 검색 출력에 부적합
생성형 검색의 정보 출처 선택 및 개념 범위에 대한 심층 분석 부족

핵심 기여

최초의 체계적 비교: 전통적 검색과 생성형 검색에 대한 포괄적인 출처 분석 및 내용 분석
다차원 분석 프레임워크: 정보 출처 다양성, 내외부 지식 의존도, 개념 범위의 세 가지 차원에서 검색 시스템 평가
대규모 실증 연구: 6개 데이터셋, 4,606개 쿼리에 걸친 종합 실험
시의성 분석: 시간에 민감한 쿼리에 대한 다양한 검색 시스템의 처리 능력 평가
평가 방법 혁신: 생성형 검색에 적용 가능한 새로운 평가 기준 및 방법 제시

방법론 상세 설명

작업 정의

본 연구는 세 가지 핵심 연구 질문에 답하기 위해 설계되었다:

RQ1: 생성형 AI 모델이 더 많은 검색 결과를 처리할 수 있는 능력을 얼마나 활용하여 더 다양한 정보 출처에 접근하는가?
RQ2: 생성형 검색 엔진이 외부 웹 지식과 내부 LLM 지식에 어느 정도 비율로 의존하는가?
RQ3: 더 다양한 정보 출처에 대한 의존도와 내부 지식의 사용이 생성형 AI 모델이 더 다양한 출력을 생성하도록 하는가?

실험 아키텍처

검색 엔진 선택

전통적 검색: Google 유기 검색 결과(Organic)
생성형 검색:
- Google AI Overview (AIO)
- Gemini-2.5-Flash with Google Search
- GPT-4o Search (GPT-Search)
- GPT-4o with Search Tool (GPT-Tool)

분석 차원

정보 출처 분석:
- 링크 수량 통계
- 웹사이트 인기도 순위(Tranco 목록 기반)
- 정보 출처 유형 분류(Google 콘텐츠 카테고리 및 사용자 정의 분류 사용)
- 전통적 검색 결과와의 중복도 분석
콘텐츠 분석:
- 응답 길이 및 구조 분석
- 개념 범위 평가(LLooM 프레임워크 사용)
- 개념 밀도 계산
- 엔진 간 개념 중복 분석

기술 혁신 포인트

개념 귀납 방법: LLooM(LLM 기반 주제 추론 프레임워크)을 채택한 개념 발견 및 분류
다층 중복 분석: URL 수준에서 도메인 수준까지의 중복도 계산
시간 차원 평가: 트렌드 쿼리 및 시간 안정성 분석을 통한 시의성 평가
지역 간 검증: 미국과 독일 두 지역에서의 실험 검증

실험 설정

데이터셋

연구는 총 4,606개 쿼리를 포함한 6개 데이터셋을 사용한다:

MS Marco(1,000개 쿼리): 실제 Bing 검색 쿼리에서 추출한 개방형 검색 데이터셋
WildChat(1,750개 쿼리): ChatGPT 사용자 상호작용에서 필터링한 정보 추구 쿼리
AllSides(332개 쿼리): 정치 주제를 기반으로 생성한 쿼리
Regulatory Actions(649개 쿼리): 트럼프 정부 행정 명령에 관한 시의성 쿼리
Science Queries(453개 쿼리): ACM 컴퓨팅 분류 시스템을 기반으로 한 과학 주제 쿼리
Products(422개 쿼리): 2023년 가장 인기 있는 Amazon 제품을 기반으로 한 쇼핑 쿼리

평가 지표

정보 출처 지표:
- 쿼리당 링크 수
- 웹사이트 인기도 순위
- 정보 출처 유형 분포
- URL/도메인 중복률
콘텐츠 지표:
- 응답 길이(문자 수)
- 개념 범위율
- 개념 밀도(개념 수/텍스트 길이)
- 개념 중복도(Jaccard 유사도)
시의성 지표:
- 트렌드 쿼리 처리 성공률
- 시간 안정성(시간 경과에 따른 일관성)

구현 세부 사항

모든 쿼리는 영어로 수행
미국과 독일 두 지역에서 실행
생성형 모델 온도 매개변수를 0으로 설정(지원하는 경우)
최대 새 토큰 수를 1,000으로 설정
실험 기간: 2025년 7월-9월

실험 결과

주요 결과

정보 출처 차이 현저함

외부 지식 의존도 차이:
- GPT-Tool은 쿼리당 평균 0.4개 웹페이지만 인용
- AIO, Gemini, GPT-Search는 각각 8.6, 8.5, 4.1개 웹페이지 인용
- 전통적 검색은 고정적으로 10개 결과 반환
정보 출처 인기도:
- 전통적 검색: Tranco 1M 목록에 89%의 웹사이트 포함
- 생성형 검색: 목록에 81%-86% 포함
- GPT-Tool이 인용한 웹사이트 순위가 더 높음(중앙값 1124 vs 전통적 검색 2352)
정보 출처 중복도 낮음:
- AIO와 전통적 검색 상위 10개 결과 중복도 <50%
- 상위 100개 결과와의 중복도 60% 이하
- Products 데이터셋 중복률 30%에 불과

콘텐츠 분석 발견

응답 길이 차이:
- Gemini 최장(평균 2505±552자)
- GPT-Tool 최단(평균 1018±219자)
- AIO 중간 길이이지만 링크 수 많음
개념 범위 유사:
- 전통적 검색(모든 결과): 78%±14%
- GPT-Search: 78%±16%
- Gemini: 77%±14%
- AIO: 74%±16%
- GPT-Tool: 71%±16%
모호한 쿼리 처리:
- 전통적 검색이 낮은 범위 쿼리에서 최고 성능(67% 중앙값 범위)
- AIO: 55%
- GPT-Tool: 48%

시의성 분석

트렌드 쿼리 처리:
- AIO는 트렌드 쿼리의 3%에서만 활성화
- GPT-Search가 최고 개념 범위율 달성(72%)
- GPT-Tool은 시의성 쿼리에서 성능 부진(51%)
시간 안정성:
- 전통적 검색 최안정(45% 중복률)
- Gemini 차순위(40%)
- AIO 변화 최대(18% 중복률)