2025-11-24T16:16:18.122167

Characterizing Web Search in The Age of Generative AI

Kirsten, Perdekamp, Upadhyay et al.
The advent of LLMs has given rise to a new type of web search: Generative search, where LLMs retrieve web pages related to a query and generate a single, coherent text as a response. This output modality stands in stark contrast to traditional web search, where results are returned as a ranked list of independent web pages. In this paper, we ask: Along what dimensions do generative search outputs differ from traditional web search? We compare Google, a traditional web search engine, with four generative search engines from two providers (Google and OpenAI) across queries from four domains. Our analysis reveals intriguing differences. Most generative search engines cover a wider range of sources compared to web search. Generative search engines vary in the degree to which they rely on internal knowledge contained within the model parameters v.s. external knowledge retrieved from the web. Generative search engines surface varying sets of concepts, creating new opportunities for enhancing search diversity and serendipity. Our results also highlight the need for revisiting evaluation criteria for web search in the age of Generative AI.
academic

생성형 AI 시대의 웹 검색 특성화

기본 정보

  • 논문 ID: 2510.11560
  • 제목: Characterizing Web Search in The Age of Generative AI
  • 저자: Elisabeth Kirsten, Jost Grosse Perdekamp, Mihir Upadhyay, Krishna P. Gummadi, Muhammad Bilal Zafar
  • 기관: Ruhr University Bochum, UAR RC Trust, MPI-SWS
  • 분류: cs.IR cs.AI
  • 발표 시간: 2025년 10월 13일
  • 논문 링크: https://arxiv.org/abs/2510.11560

초록

대규모 언어 모델(LLMs)의 출현으로 새로운 형태의 웹 검색이 탄생했다: 생성형 검색은 LLM이 쿼리와 관련된 웹페이지를 검색하고 단일하고 일관된 텍스트를 응답으로 생성한다. 이러한 출력 방식은 독립적인 웹페이지의 순위 목록을 반환하는 전통적 웹 검색과 뚜렷한 대조를 이룬다. 본 논문은 생성형 검색 출력과 전통적 웹 검색이 어떤 차원에서 차이를 보이는지 탐구한다. 연구는 Google의 전통적 검색 엔진과 Google 및 OpenAI의 4개 생성형 검색 엔진을 비교하며, 4개 영역의 쿼리를 포함한다. 분석 결과는 주목할 만한 차이를 드러낸다: 대부분의 생성형 검색 엔진이 전통적 웹 검색보다 더 광범위한 정보 출처를 다루며; 생성형 검색 엔진은 모델 매개변수 내부 지식과 웹에서 검색한 외부 지식에 대한 의존도가 다르며; 생성형 검색 엔진은 서로 다른 개념 집합을 제시하여 검색 다양성과 우연한 발견을 강화할 새로운 기회를 창출한다.

연구 배경 및 동기

문제 정의

생성형 AI의 부상으로 웹 검색이 대규모 언어 모델에 더욱 의존하는 방향으로 진화하고 있다. 전통적 검색 엔진은 약 10개의 검색 결과 순위 목록을 반환하는 반면, 생성형 검색 시스템은 LLM 챗봇을 통해 자연어 답변을 제공한다. 이러한 패러다임 전환은 세 가지 핵심 차이를 야기한다:

  1. 출력 형식의 차이: 전통적 검색은 독립적인 웹페이지를 반환하고, 생성형 검색은 단일 일관된 텍스트 블록을 형성
  2. 더 광범위한 범위: 생성형 검색은 10개를 훨씬 초과하는 출처의 내용을 종합할 수 있음
  3. 혼합된 지식 출처: 외부 검색 정보와 LLM 내부 지식을 결합

연구의 중요성

이러한 차이를 이해하는 것은 검색 품질, 정보 다양성 및 사용자 경험 평가에 필수적이다. 기존 검색 평가 지표는 주로 순위 목록을 위해 설계되었으며, 생성형 검색의 종합 출력에 직접 적용할 수 없다.

기존의 한계

  • 생성형 검색과 전통적 검색 시스템의 체계적 비교 연구 부재
  • 기존 평가 프레임워크가 생성형 검색 출력에 부적합
  • 생성형 검색의 정보 출처 선택 및 개념 범위에 대한 심층 분석 부족

핵심 기여

  1. 최초의 체계적 비교: 전통적 검색과 생성형 검색에 대한 포괄적인 출처 분석 및 내용 분석
  2. 다차원 분석 프레임워크: 정보 출처 다양성, 내외부 지식 의존도, 개념 범위의 세 가지 차원에서 검색 시스템 평가
  3. 대규모 실증 연구: 6개 데이터셋, 4,606개 쿼리에 걸친 종합 실험
  4. 시의성 분석: 시간에 민감한 쿼리에 대한 다양한 검색 시스템의 처리 능력 평가
  5. 평가 방법 혁신: 생성형 검색에 적용 가능한 새로운 평가 기준 및 방법 제시

방법론 상세 설명

작업 정의

본 연구는 세 가지 핵심 연구 질문에 답하기 위해 설계되었다:

  • RQ1: 생성형 AI 모델이 더 많은 검색 결과를 처리할 수 있는 능력을 얼마나 활용하여 더 다양한 정보 출처에 접근하는가?
  • RQ2: 생성형 검색 엔진이 외부 웹 지식과 내부 LLM 지식에 어느 정도 비율로 의존하는가?
  • RQ3: 더 다양한 정보 출처에 대한 의존도와 내부 지식의 사용이 생성형 AI 모델이 더 다양한 출력을 생성하도록 하는가?

실험 아키텍처

검색 엔진 선택

  • 전통적 검색: Google 유기 검색 결과(Organic)
  • 생성형 검색:
    • Google AI Overview (AIO)
    • Gemini-2.5-Flash with Google Search
    • GPT-4o Search (GPT-Search)
    • GPT-4o with Search Tool (GPT-Tool)

분석 차원

  1. 정보 출처 분석:
    • 링크 수량 통계
    • 웹사이트 인기도 순위(Tranco 목록 기반)
    • 정보 출처 유형 분류(Google 콘텐츠 카테고리 및 사용자 정의 분류 사용)
    • 전통적 검색 결과와의 중복도 분석
  2. 콘텐츠 분석:
    • 응답 길이 및 구조 분석
    • 개념 범위 평가(LLooM 프레임워크 사용)
    • 개념 밀도 계산
    • 엔진 간 개념 중복 분석

기술 혁신 포인트

  1. 개념 귀납 방법: LLooM(LLM 기반 주제 추론 프레임워크)을 채택한 개념 발견 및 분류
  2. 다층 중복 분석: URL 수준에서 도메인 수준까지의 중복도 계산
  3. 시간 차원 평가: 트렌드 쿼리 및 시간 안정성 분석을 통한 시의성 평가
  4. 지역 간 검증: 미국과 독일 두 지역에서의 실험 검증

실험 설정

데이터셋

연구는 총 4,606개 쿼리를 포함한 6개 데이터셋을 사용한다:

  1. MS Marco(1,000개 쿼리): 실제 Bing 검색 쿼리에서 추출한 개방형 검색 데이터셋
  2. WildChat(1,750개 쿼리): ChatGPT 사용자 상호작용에서 필터링한 정보 추구 쿼리
  3. AllSides(332개 쿼리): 정치 주제를 기반으로 생성한 쿼리
  4. Regulatory Actions(649개 쿼리): 트럼프 정부 행정 명령에 관한 시의성 쿼리
  5. Science Queries(453개 쿼리): ACM 컴퓨팅 분류 시스템을 기반으로 한 과학 주제 쿼리
  6. Products(422개 쿼리): 2023년 가장 인기 있는 Amazon 제품을 기반으로 한 쇼핑 쿼리

평가 지표

  1. 정보 출처 지표:
    • 쿼리당 링크 수
    • 웹사이트 인기도 순위
    • 정보 출처 유형 분포
    • URL/도메인 중복률
  2. 콘텐츠 지표:
    • 응답 길이(문자 수)
    • 개념 범위율
    • 개념 밀도(개념 수/텍스트 길이)
    • 개념 중복도(Jaccard 유사도)
  3. 시의성 지표:
    • 트렌드 쿼리 처리 성공률
    • 시간 안정성(시간 경과에 따른 일관성)

구현 세부 사항

  • 모든 쿼리는 영어로 수행
  • 미국과 독일 두 지역에서 실행
  • 생성형 모델 온도 매개변수를 0으로 설정(지원하는 경우)
  • 최대 새 토큰 수를 1,000으로 설정
  • 실험 기간: 2025년 7월-9월

실험 결과

주요 결과

정보 출처 차이 현저함

  1. 외부 지식 의존도 차이:
    • GPT-Tool은 쿼리당 평균 0.4개 웹페이지만 인용
    • AIO, Gemini, GPT-Search는 각각 8.6, 8.5, 4.1개 웹페이지 인용
    • 전통적 검색은 고정적으로 10개 결과 반환
  2. 정보 출처 인기도:
    • 전통적 검색: Tranco 1M 목록에 89%의 웹사이트 포함
    • 생성형 검색: 목록에 81%-86% 포함
    • GPT-Tool이 인용한 웹사이트 순위가 더 높음(중앙값 1124 vs 전통적 검색 2352)
  3. 정보 출처 중복도 낮음:
    • AIO와 전통적 검색 상위 10개 결과 중복도 <50%
    • 상위 100개 결과와의 중복도 60% 이하
    • Products 데이터셋 중복률 30%에 불과

콘텐츠 분석 발견

  1. 응답 길이 차이:
    • Gemini 최장(평균 2505±552자)
    • GPT-Tool 최단(평균 1018±219자)
    • AIO 중간 길이이지만 링크 수 많음
  2. 개념 범위 유사:
    • 전통적 검색(모든 결과): 78%±14%
    • GPT-Search: 78%±16%
    • Gemini: 77%±14%
    • AIO: 74%±16%
    • GPT-Tool: 71%±16%
  3. 모호한 쿼리 처리:
    • 전통적 검색이 낮은 범위 쿼리에서 최고 성능(67% 중앙값 범위)
    • AIO: 55%
    • GPT-Tool: 48%

시의성 분석

  1. 트렌드 쿼리 처리:
    • AIO는 트렌드 쿼리의 3%에서만 활성화
    • GPT-Search가 최고 개념 범위율 달성(72%)
    • GPT-Tool은 시의성 쿼리에서 성능 부진(51%)
  2. 시간 안정성:
    • 전통적 검색 최안정(45% 중복률)
    • Gemini 차순위(40%)
    • AIO 변화 최대(18% 중복률)

제거 실험

GPT 모델의 서로 다른 검색 컨텍스트 크기(low/medium/high)의 영향을 조사:

  • 검색 컨텍스트 크기가 정보 출처 선택에 유의미한 영향 없음
  • 콘텐츠 생성 품질에도 명백한 차이 없음
  • 개념 범위율 기본적으로 일관성 유지

관련 연구

전통적 검색 평가

  • 관련성, 다양성, 신선도, 범위 등 전통적 지표
  • nDCG, α-nDCG 등 순위 평가 방법
  • 정치적 편향, 지리적 편향, 상업적 편향 등 다양성 연구

대규모 언어 모델 평가

  • 질의응답, 요약, 사실 기반, 도구 사용 등 능력 평가
  • 검색 증강 생성(RAG) 기술
  • 쿼리 이해 및 순위 적용

생성형 검색 연구

  • 검증 가능성, 신뢰도, 정확성 평가
  • 대립적 사실 질문에 대한 견고성
  • 편향 및 불공정 문제
  • 새로운 평가 원칙 및 벤치마크

결론 및 논의

주요 결론

  1. 정보 출처 다양성: 생성형 검색 엔진이 더 광범위한 정보 출처에 접근하지만 반드시 개념 범위를 높이지는 않음
  2. 내외부 지식 균형: 서로 다른 생성형 검색 엔진이 내부 vs 외부 지식 의존도에서 거대한 차이 보임
  3. 개념 범위 상당: 정보 출처가 다르더라도 전체 개념 범위는 전통적 검색과 유사
  4. 모호한 쿼리 과제: 전통적 검색이 모호한 쿼리 처리에서 여전히 우위
  5. 시의성 차이: 내부 지식에 의존하는 모델이 시의성 쿼리에서 성능 부진

한계

  1. 쿼리 범위 제한: 선택된 쿼리 작업 부하만 포함, 다중 턴 대화 검색 미고려
  2. 언어 및 지리 제한: 영어 쿼리만 사용, 두 국가에서만 테스트
  3. 콘텐츠 분석 깊이: 상위 10개 전통적 검색 결과만 분석, 사용자가 링크를 거의 클릭하지 않는다고 가정
  4. 시간 창 제한: 평가 시간 창 제한적, 더 장기적인 종단 연구 필요
  5. 출력 결정성: 각 쿼리당 하나의 출력만 사용, 출력 변동성 미측정

향후 방향

  1. 새로운 평가 방법: 정보 출처 다양성, 개념 범위 및 종합 행동을 동시에 고려하는 평가 방법 개발
  2. 다국어 확장: 다국어 쿼리 및 다중 턴 상호작용으로 확장
  3. 심층 콘텐츠 분석: 요약 분석과 전체 페이지 콘텐츠 평가 비교
  4. 종단 연구: 모델 업데이트 및 신흥 사건의 시간 편차 포착
  5. 사실 확인 통합: 범위 지표와 사실 확인 및 신뢰도 평가 결합

심층 평가

장점

  1. 연구 설계 포괄적: 다중 검색 엔진, 다중 데이터셋, 다중 지리적 위치의 체계적 비교
  2. 방법 혁신: 개념 귀납 방법을 검색 엔진 비교에 최초로 적용
  3. 실용적 가치 높음: 검색 엔진 설계 및 평가에 중요한 통찰력 제공
  4. 시의성 관심: 시간에 민감한 쿼리 처리 능력에 특별히 주목
  5. 객관적 중립성: 생성형 검색의 장점과 한계 모두 제시

부족한 점

  1. 개념 분석 LLM 의존: LLM을 사용한 개념 귀납이 편향을 야기할 수 있음
  2. 강한 가정 조건: 사용자가 링크를 클릭하지 않음, 상위 10개 결과를 초과하지 않음 등의 가정
  3. 평가 지표 단일: 주로 개념 범위에 초점, 정확성 및 신뢰도 평가 부족
  4. 시간 범위 단기: 2개월의 시간 안정성 분석이 충분하지 않을 수 있음

영향력

  1. 학술적 기여: 생성형 검색 평가를 위한 새로운 이론 프레임워크 및 방법 제공
  2. 실용적 가치: 검색 엔진 개발자 및 사용자에게 중요한 참고 자료 제공
  3. 정책 시사: 검색 엔진 규제 및 표준 제정을 위한 과학적 근거 제공
  4. 향후 연구: 후속 관련 연구의 기초 마련

적용 시나리오

  1. 검색 엔진 평가: 전통적 및 생성형 검색 엔진의 비교 평가에 적용 가능
  2. 제품 개발: 검색 제품 설계 및 최적화에 지침 제공
  3. 학술 연구: 정보 검색 및 AI 분야 연구에 방법 및 데이터 제공
  4. 사용자 교육: 사용자가 서로 다른 검색 도구의 특성 및 적용 시나리오 이해 지원

참고문헌

논문은 전통적 검색 평가, 대규모 언어 모델 평가, 생성형 검색 등 여러 연구 분야의 중요한 저작을 포함한 41개 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공한다.


본 연구는 생성형 AI 시대의 웹 검색 특성을 이해하기 위한 중요한 기여를 제공하며, 전통적 검색과 생성형 검색의 핵심 차이를 드러낼 뿐만 아니라 향후 검색 시스템의 설계 및 평가를 위한 새로운 사고와 방법을 제공한다.