2025-11-24T16:16:18.122167

Characterizing Web Search in The Age of Generative AI

Kirsten, Perdekamp, Upadhyay et al.
The advent of LLMs has given rise to a new type of web search: Generative search, where LLMs retrieve web pages related to a query and generate a single, coherent text as a response. This output modality stands in stark contrast to traditional web search, where results are returned as a ranked list of independent web pages. In this paper, we ask: Along what dimensions do generative search outputs differ from traditional web search? We compare Google, a traditional web search engine, with four generative search engines from two providers (Google and OpenAI) across queries from four domains. Our analysis reveals intriguing differences. Most generative search engines cover a wider range of sources compared to web search. Generative search engines vary in the degree to which they rely on internal knowledge contained within the model parameters v.s. external knowledge retrieved from the web. Generative search engines surface varying sets of concepts, creating new opportunities for enhancing search diversity and serendipity. Our results also highlight the need for revisiting evaluation criteria for web search in the age of Generative AI.
academic

Характеристика веб-поиска в эпоху генеративного ИИ

Основная информация

  • ID статьи: 2510.11560
  • Название: Characterizing Web Search in The Age of Generative AI
  • Авторы: Elisabeth Kirsten, Jost Grosse Perdekamp, Mihir Upadhyay, Krishna P. Gummadi, Muhammad Bilal Zafar
  • Учреждения: Ruhr University Bochum, UAR RC Trust, MPI-SWS
  • Классификация: cs.IR cs.AI
  • Дата публикации: 13 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.11560

Аннотация

Появление больших языковых моделей (LLM) привело к возникновению новой формы веб-поиска: генеративного поиска, при котором LLM извлекают веб-страницы, релевантные запросу, и генерируют единый связный текст в качестве ответа. Этот режим вывода резко контрастирует с традиционным веб-поиском, который возвращает ранжированный список независимых веб-страниц. В данной статье исследуются различия между выходными данными генеративного поиска и традиционного веб-поиска по различным параметрам. Исследование сравнивает традиционную поисковую систему Google с четырьмя генеративными поисковыми системами от Google и OpenAI, охватывая запросы из четырёх предметных областей. Анализ выявляет значительные различия: большинство генеративных поисковых систем охватывают более широкий спектр источников информации, чем традиционный веб-поиск; генеративные поисковые системы различаются по степени зависимости от внутренних знаний модели и внешних знаний, полученных из сети; генеративные поисковые системы представляют различные наборы концепций, создавая новые возможности для повышения разнообразия поиска и случайных открытий.

Предпосылки и мотивация исследования

Определение проблемы

С развитием генеративного ИИ веб-поиск развивается в направлении большей зависимости от больших языковых моделей. Традиционные поисковые системы возвращают ранжированный список примерно из 10 результатов поиска, тогда как системы генеративного поиска предоставляют ответы на естественном языке через чат-ботов на основе LLM. Этот сдвиг парадигмы создаёт три ключевых различия:

  1. Различный формат вывода: традиционный поиск возвращает независимые веб-страницы, генеративный поиск формирует единый связный текстовый блок
  2. Более широкое охватывание: генеративный поиск может синтезировать содержание из гораздо большего количества источников, чем 10
  3. Смешанные источники знаний: объединение внешней информации из поиска и внутренних знаний LLM

Значимость исследования

Понимание этих различий критически важно для оценки качества поиска, разнообразия информации и пользовательского опыта. Существующие показатели оценки поиска в основном разработаны для ранжированных списков и не могут быть напрямую применены к синтезированным выходным данным генеративного поиска.

Существующие ограничения

  • Отсутствие систематических сравнительных исследований генеративного поиска и традиционных поисковых систем
  • Существующие рамки оценки неприменимы к выходным данным генеративного поиска
  • Отсутствие глубокого анализа выбора источников информации и охватывания концепций в генеративном поиске

Основные вклады

  1. Первое систематическое сравнение: комплексный анализ источников и содержания между традиционным и генеративным поиском
  2. Многомерная аналитическая рамка: оценка поисковых систем по трём параметрам: разнообразие источников информации, зависимость от внутренних и внешних знаний, охватывание концепций
  3. Крупномасштабное эмпирическое исследование: комплексные эксперименты на 6 наборах данных с 4 606 запросами
  4. Анализ своевременности: оценка способности различных поисковых систем обрабатывать чувствительные ко времени запросы
  5. Инновационные методы оценки: предложение новых стандартов и методов оценки, применимых к генеративному поиску

Подробное описание методологии

Определение задачи

Данное исследование направлено на ответы на три основных исследовательских вопроса:

  • RQ1: В какой степени генеративные модели ИИ используют свою способность обрабатывать больше результатов поиска для доступа к более разнообразным источникам информации?
  • RQ2: В какой доле генеративные поисковые системы полагаются на внешние знания из сети в сравнении с внутренними знаниями LLM?
  • RQ3: Приводит ли зависимость от более разнообразных источников информации и использование внутренних знаний к более разнообразным выходным данным генеративных моделей ИИ?

Архитектура экспериментов

Выбор поисковых систем

  • Традиционный поиск: органические результаты поиска Google (Organic)
  • Генеративный поиск:
    • Google AI Overview (AIO)
    • Gemini-2.5-Flash с поиском Google
    • GPT-4o Search (GPT-Search)
    • GPT-4o с инструментом поиска (GPT-Tool)

Параметры анализа

  1. Анализ источников:
    • Статистика количества ссылок
    • Рейтинг популярности веб-сайтов (на основе списка Tranco)
    • Классификация типов источников (с использованием категорий контента Google и пользовательских классификаций)
    • Анализ перекрытия с результатами традиционного поиска
  2. Анализ содержания:
    • Анализ длины и структуры ответов
    • Оценка охватывания концепций (с использованием рамки LLooM)
    • Расчёт плотности концепций
    • Анализ перекрытия концепций между системами

Технические инновации

  1. Метод индукции концепций: применение LLooM (рамка вывода тем на основе LLM) для обнаружения и классификации концепций
  2. Многоуровневый анализ перекрытия: расчёт перекрытия от уровня URL до уровня домена
  3. Оценка временного измерения: оценка своевременности через анализ трендовых запросов и временной стабильности
  4. Проверка в разных географических регионах: проведение экспериментов в США и Германии

Экспериментальная установка

Наборы данных

Исследование использует 6 наборов данных с общим количеством 4 606 запросов:

  1. MS Marco (1 000 запросов): набор данных открытого поиска из реальных запросов Bing
  2. WildChat (1 750 запросов): запросы, ищущие информацию, отобранные из взаимодействий пользователей ChatGPT
  3. AllSides (332 запроса): запросы, созданные на основе политических тем
  4. Regulatory Actions (649 запросов): чувствительные ко времени запросы об исполнительных приказах администрации Трампа
  5. Science Queries (453 запроса): запросы по научным темам на основе системы классификации ACM Computing
  6. Products (422 запроса): запросы по покупкам на основе самых популярных продуктов Amazon в 2023 году

Метрики оценки

  1. Показатели источников:
    • Количество ссылок на запрос
    • Рейтинг популярности веб-сайтов
    • Распределение типов источников
    • Коэффициент перекрытия URL/домена
  2. Показатели содержания:
    • Длина ответа (количество символов)
    • Коэффициент охватывания концепций
    • Плотность концепций (количество концепций/длина текста)
    • Степень перекрытия концепций (сходство Жаккара)
  3. Показатели своевременности:
    • Коэффициент успеха обработки трендовых запросов
    • Временная стабильность (согласованность во времени)

Детали реализации

  • Все запросы выполнены на английском языке
  • Выполнение в двух географических местоположениях: США и Германия
  • Параметр температуры генеративных моделей установлен на 0 (если поддерживается)
  • Максимальное количество новых токенов установлено на 1 000
  • Время проведения экспериментов: июль-сентябрь 2025 г.

Результаты экспериментов

Основные результаты

Значительные различия в источниках информации

  1. Различия в зависимости от внешних знаний:
    • GPT-Tool ссылается в среднем только на 0,4 веб-страницы на запрос
    • AIO, Gemini и GPT-Search ссылаются соответственно на 8,6, 8,5 и 4,1 веб-страницы
    • Традиционный поиск постоянно возвращает 10 результатов
  2. Популярность источников информации:
    • Традиционный поиск: 89% веб-сайтов в списке Tranco 1M
    • Генеративный поиск: 81%-86% в списке
    • Веб-сайты, на которые ссылается GPT-Tool, имеют более высокий рейтинг (медиана 1124 против 2352 для традиционного поиска)
  3. Низкая степень перекрытия источников:
    • Перекрытие AIO с первыми 10 результатами традиционного поиска <50%
    • Перекрытие с первыми 100 результатами не превышает 60%
    • Коэффициент перекрытия в наборе данных Products составляет только 30%

Результаты анализа содержания

  1. Различия в длине ответов:
    • Gemini самый длинный (в среднем 2505±552 символов)
    • GPT-Tool самый короткий (в среднем 1018±219 символов)
    • AIO средней длины, но с большим количеством ссылок
  2. Сходное охватывание концепций:
    • Традиционный поиск (все результаты): 78%±14%
    • GPT-Search: 78%±16%
    • Gemini: 77%±14%
    • AIO: 74%±16%
    • GPT-Tool: 71%±16%
  3. Обработка неоднозначных запросов:
    • Традиционный поиск показывает лучшие результаты на запросах с низким охватыванием (медиана охватывания 67%)
    • AIO: 55%
    • GPT-Tool: 48%

Анализ своевременности

  1. Обработка трендовых запросов:
    • AIO активируется только в 3% трендовых запросов
    • GPT-Search достигает наивысшего коэффициента охватывания концепций (72%)
    • GPT-Tool показывает плохие результаты на чувствительных ко времени запросах (51%)
  2. Временная стабильность:
    • Традиционный поиск наиболее стабилен (коэффициент перекрытия 45%)
    • Gemini на втором месте (40%)
    • AIO показывает наибольшие колебания (коэффициент перекрытия 18%)

Абляционные эксперименты

Исследовалось влияние различных размеров контекста поиска модели GPT (низкий/средний/высокий):

  • Размер контекста поиска не оказывает значительного влияния на выбор источников информации
  • Также не имеет явного влияния на качество генерации содержания
  • Коэффициент охватывания концепций остаётся практически неизменным

Связанные работы

Оценка традиционного поиска

  • Традиционные показатели: релевантность, разнообразие, свежесть, охватывание
  • Методы оценки ранжирования: nDCG, α-nDCG и другие
  • Исследования разнообразия: политическое смещение, географическое смещение, коммерческое смещение

Оценка больших языковых моделей

  • Оценка способностей: ответы на вопросы, суммирование, фактическое обоснование, использование инструментов
  • Технология генерации с увеличением поиска (RAG)
  • Понимание запросов и применение в ранжировании

Исследования генеративного поиска

  • Оценка проверяемости, надёжности, точности
  • Устойчивость к противоречивым фактическим вопросам
  • Проблемы смещения и несправедливости
  • Новые принципы оценки и эталоны

Заключение и обсуждение

Основные выводы

  1. Разнообразие источников информации: генеративные поисковые системы получают доступ к более широкому спектру источников, но это не обязательно повышает охватывание концепций
  2. Баланс внутренних и внешних знаний: различные генеративные поисковые системы существенно различаются по степени зависимости от внутренних и внешних знаний
  3. Сравнимое охватывание концепций: несмотря на различные источники, общее охватывание концепций сравнимо с традиционным поиском
  4. Вызовы неоднозначных запросов: традиционный поиск по-прежнему имеет преимущество в обработке неоднозначных запросов
  5. Различия во временности: модели, полагающиеся на внутренние знания, показывают плохие результаты на чувствительных ко времени запросах

Ограничения

  1. Ограничение диапазона запросов: охватывает только выбранные рабочие нагрузки запросов, не рассматривает многоходовой поиск в диалоговом режиме
  2. Языковые и географические ограничения: используются только запросы на английском языке, тестирование проводилось только в двух странах
  3. Глубина анализа содержания: анализируются только первые 10 результатов традиционного поиска, предполагается, что пользователи редко переходят по ссылкам
  4. Ограничение временного окна: ограниченное временное окно оценки, требуются более долгосрочные лонгитюдные исследования
  5. Детерминированность выходных данных: для каждого запроса используется только один выход, не измеряется вариативность выходных данных

Направления будущих исследований

  1. Новые методы оценки: разработка методов оценки, одновременно учитывающих разнообразие источников, охватывание концепций и синтетическое поведение
  2. Расширение на многоязычие: расширение на многоязычные запросы и многоходовые взаимодействия
  3. Глубокий анализ содержания: сравнение анализа резюме с оценкой полного содержания страницы
  4. Лонгитюдные исследования: фиксирование временного дрейфа обновлений модели и возникающих событий
  5. Интеграция проверки фактов: объединение показателей охватывания с оценкой проверки фактов и надёжности

Глубокая оценка

Преимущества

  1. Комплексный дизайн исследования: систематическое сравнение нескольких поисковых систем, наборов данных и географических местоположений
  2. Методологические инновации: первое применение методов индукции концепций к сравнению поисковых систем
  3. Высокая практическая ценность: предоставляет важные идеи для проектирования и оценки поисковых систем
  4. Внимание к своевременности: особое внимание к способности обработки чувствительных ко времени запросов
  5. Объективность и нейтральность: демонстрирует как преимущества генеративного поиска, так и его ограничения

Недостатки

  1. Зависимость анализа концепций от LLM: использование LLM для индукции концепций может привести к введению смещений
  2. Сильные предположения: предположения о том, что пользователи не переходят по ссылкам, не выходят за пределы первых 10 результатов и т.д.
  3. Единственность показателей оценки: основное внимание уделяется охватыванию концепций, отсутствует оценка точности и надёжности
  4. Короткий временной диапазон: анализ временной стабильности только за два месяца может быть недостаточным

Влияние

  1. Академический вклад: предоставляет новую теоретическую рамку и методы для оценки генеративного поиска
  2. Практическая ценность: предоставляет важные ориентиры для разработчиков поисковых систем и пользователей
  3. Политические последствия: предоставляет научные основания для регулирования поисковых систем и установления стандартов
  4. Основание для будущих исследований: закладывает основу для последующих связанных исследований

Применимые сценарии

  1. Оценка поисковых систем: применимо к сравнительной оценке традиционных и генеративных поисковых систем
  2. Разработка продуктов: предоставляет руководство для проектирования и оптимизации поисковых продуктов
  3. Академические исследования: предоставляет методы и данные для исследований в области информационного поиска и ИИ
  4. Образование пользователей: помогает пользователям понять характеристики и применимые сценарии различных поисковых инструментов

Библиография

Статья цитирует 41 связанную работу, охватывающую важные работы в нескольких областях исследований, включая оценку традиционного поиска, оценку больших языковых моделей и генеративный поиск, обеспечивая прочную теоретическую основу для исследования.


Данное исследование вносит важный вклад в понимание характеристик веб-поиска в эпоху генеративного ИИ, не только раскрывая ключевые различия между традиционным и генеративным поиском, но и предоставляя новые идеи и методы для проектирования и оценки будущих поисковых систем.