2025-11-24T16:16:18.122167

Characterizing Web Search in The Age of Generative AI

Kirsten, Perdekamp, Upadhyay et al.
The advent of LLMs has given rise to a new type of web search: Generative search, where LLMs retrieve web pages related to a query and generate a single, coherent text as a response. This output modality stands in stark contrast to traditional web search, where results are returned as a ranked list of independent web pages. In this paper, we ask: Along what dimensions do generative search outputs differ from traditional web search? We compare Google, a traditional web search engine, with four generative search engines from two providers (Google and OpenAI) across queries from four domains. Our analysis reveals intriguing differences. Most generative search engines cover a wider range of sources compared to web search. Generative search engines vary in the degree to which they rely on internal knowledge contained within the model parameters v.s. external knowledge retrieved from the web. Generative search engines surface varying sets of concepts, creating new opportunities for enhancing search diversity and serendipity. Our results also highlight the need for revisiting evaluation criteria for web search in the age of Generative AI.
academic

जनरेटिव AI के युग में वेब सर्च की विशेषताएं

बुनियादी जानकारी

  • पेपर ID: 2510.11560
  • शीर्षक: Characterizing Web Search in The Age of Generative AI
  • लेखक: Elisabeth Kirsten, Jost Grosse Perdekamp, Mihir Upadhyay, Krishna P. Gummadi, Muhammad Bilal Zafar
  • संस्थान: Ruhr University Bochum, UAR RC Trust, MPI-SWS
  • वर्गीकरण: cs.IR cs.AI
  • प्रकाशन तिथि: 13 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.11560

सारांश

बड़े भाषा मॉडल (LLMs) के उदय ने वेब सर्च का एक नया रूप जन्म दिया है: जनरेटिव सर्च, जिसमें LLMs क्वेरी से संबंधित वेबपेज पुनः प्राप्त करते हैं और एक एकल, सुसंगत पाठ प्रतिक्रिया के रूप में उत्पन्न करते हैं। यह आउटपुट मोड पारंपरिक वेब सर्च से तीव्र विपरीतता प्रदर्शित करता है, जो स्वतंत्र वेबपेजों की रैंकिंग सूची लौटाता है। यह पेपर जनरेटिव सर्च आउटपुट और पारंपरिक वेब सर्च के बीच किन आयामों पर अंतर मौजूद है, इसकी खोज करता है। अनुसंधान Google के पारंपरिक सर्च इंजन की तुलना Google और OpenAI के चार जनरेटिव सर्च इंजन से करता है, जो चार क्षेत्रों की क्वेरीज को कवर करता है। विश्लेषण से आकर्षक अंतर प्रकट होते हैं: अधिकांश जनरेटिव सर्च इंजन पारंपरिक वेब सर्च की तुलना में व्यापक सूचना स्रोत कवर करते हैं; जनरेटिव सर्च इंजन मॉडल पैरामीटर के भीतर आंतरिक ज्ञान और नेटवर्क से पुनः प्राप्त बाहरी ज्ञान पर निर्भरता में भिन्न होते हैं; जनरेटिव सर्च इंजन विभिन्न अवधारणा सेट प्रस्तुत करते हैं, जो सर्च विविधता और आकस्मिक खोज को बढ़ाने के लिए नए अवसर सृजित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

जनरेटिव AI के उदय के साथ, वेब सर्च बड़े भाषा मॉडल पर अधिक निर्भर होने की दिशा में विकसित हो रहा है। पारंपरिक सर्च इंजन लगभग 10 सर्च परिणामों की रैंकिंग सूची लौटाते हैं, जबकि जनरेटिव सर्च सिस्टम LLM चैटबॉट के माध्यम से प्राकृतिक भाषा उत्तर प्रदान करते हैं। यह प्रतिमान परिवर्तन तीन मुख्य अंतर लाता है:

  1. आउटपुट प्रारूप में अंतर: पारंपरिक सर्च स्वतंत्र वेबपेज लौटाता है, जनरेटिव सर्च एकल सुसंगत पाठ ब्लॉक बनाता है
  2. व्यापक कवरेज: जनरेटिव सर्च 10 से कहीं अधिक स्रोतों की सामग्री को संश्लेषित कर सकता है
  3. ज्ञान स्रोत मिश्रण: बाहरी पुनः प्राप्त जानकारी और LLM आंतरिक ज्ञान को जोड़ता है

अनुसंधान का महत्व

इन अंतरों को समझना सर्च गुणवत्ता, सूचना विविधता और उपयोगकर्ता अनुभव के मूल्यांकन के लिए महत्वपूर्ण है। मौजूदा सर्च मूल्यांकन मेट्रिक्स मुख्य रूप से रैंकिंग सूचियों के लिए डिज़ाइन किए गए हैं, और जनरेटिव सर्च के संश्लेषित आउटपुट पर सीधे लागू नहीं किए जा सकते।

मौजूदा सीमाएं

  • जनरेटिव सर्च और पारंपरिक सर्च सिस्टम की प्रणालीगत तुलना पर अनुसंधान की कमी
  • मौजूदा मूल्यांकन ढांचे जनरेटिव सर्च आउटपुट के लिए अनुपयुक्त
  • जनरेटिव सर्च के सूचना स्रोत चयन और अवधारणा कवरेज पर गहन विश्लेषण की कमी

मुख्य योगदान

  1. प्रथम प्रणालीगत तुलना: पारंपरिक सर्च और जनरेटिव सर्च की व्यापक स्रोत विश्लेषण और सामग्री विश्लेषण
  2. बहु-आयामी विश्लेषण ढांचा: सूचना स्रोत विविधता, आंतरिक-बाहरी ज्ञान निर्भरता, अवधारणा कवरेज के तीन आयामों से सर्च सिस्टम का मूल्यांकन
  3. बड़े पैमाने पर अनुभवजन्य अनुसंधान: 6 डेटासेट, 4,606 क्वेरीज में व्यापक प्रयोग
  4. समयबद्धता विश्लेषण: विभिन्न सर्च सिस्टम द्वारा समय-संवेदनशील क्वेरीज के प्रबंधन की क्षमता का मूल्यांकन
  5. मूल्यांकन विधि नवाचार: जनरेटिव सर्च के लिए लागू नए मूल्यांकन मानदंड और विधियों का प्रस्ताव

विधि विवरण

कार्य परिभाषा

यह अनुसंधान तीन मुख्य अनुसंधान प्रश्नों का उत्तर देने का लक्ष्य रखता है:

  • RQ1: जनरेटिव AI मॉडल किस हद तक अधिक सर्च परिणामों को संभालने की अपनी क्षमता का उपयोग करके अधिक विविध सूचना स्रोतों तक पहुंचते हैं?
  • RQ2: जनरेटिव सर्च इंजन किस अनुपात में बाहरी नेटवर्क ज्ञान बनाम आंतरिक LLM ज्ञान पर निर्भर करते हैं?
  • RQ3: क्या अधिक विविध सूचना स्रोतों पर निर्भरता और आंतरिक ज्ञान का उपयोग जनरेटिव AI मॉडल को अधिक विविध आउटपुट उत्पन्न करने में सक्षम बनाता है?

प्रायोगिक आर्किटेक्चर

सर्च इंजन चयन

  • पारंपरिक सर्च: Google जैविक सर्च परिणाम (Organic)
  • जनरेटिव सर्च:
    • Google AI Overview (AIO)
    • Gemini-2.5-Flash with Google Search
    • GPT-4o Search (GPT-Search)
    • GPT-4o with Search Tool (GPT-Tool)

विश्लेषण आयाम

  1. सूचना स्रोत विश्लेषण:
    • लिंक संख्या सांख्यिकी
    • वेबसाइट लोकप्रियता रैंकिंग (Tranco सूची के आधार पर)
    • सूचना स्रोत प्रकार वर्गीकरण (Google सामग्री श्रेणियों और कस्टम वर्गीकरण का उपयोग)
    • पारंपरिक सर्च परिणामों के साथ ओवरलैप विश्लेषण
  2. सामग्री विश्लेषण:
    • प्रतिक्रिया लंबाई और संरचना विश्लेषण
    • अवधारणा कवरेज मूल्यांकन (LLooM ढांचे का उपयोग)
    • अवधारणा घनत्व गणना
    • इंजन भर में अवधारणा ओवरलैप विश्लेषण

तकनीकी नवाचार बिंदु

  1. अवधारणा प्रेरण विधि: अवधारणा खोज और वर्गीकरण के लिए LLooM (LLM-संचालित विषय अनुमान ढांचा) को अपनाता है
  2. बहु-स्तरीय ओवरलैप विश्लेषण: URL स्तर से डोमेन स्तर तक ओवरलैप गणना
  3. समय आयाम मूल्यांकन: प्रवृत्ति क्वेरीज और समय स्थिरता विश्लेषण के माध्यम से समयबद्धता का मूल्यांकन
  4. भौगोलिक स्थान सत्यापन: संयुक्त राज्य अमेरिका और जर्मनी दोनों में प्रयोग सत्यापन

प्रायोगिक सेटअप

डेटासेट

अनुसंधान 6 डेटासेट का उपयोग करता है, कुल 4,606 क्वेरीज:

  1. MS Marco (1,000 क्वेरीज): वास्तविक Bing सर्च क्वेरीज से खुली डोमेन पुनः प्राप्ति डेटासेट
  2. WildChat (1,750 क्वेरीज): ChatGPT उपयोगकर्ता इंटरैक्शन से फ़िल्टर की गई सूचना-खोज क्वेरीज
  3. AllSides (332 क्वेरीज): राजनीतिक विषयों के आधार पर उत्पन्न क्वेरीज
  4. नियामक कार्य (649 क्वेरीज): ट्रम्प प्रशासन के कार्यकारी आदेशों के बारे में समयबद्ध क्वेरीज
  5. विज्ञान क्वेरीज (453 क्वेरीज): ACM कंप्यूटिंग वर्गीकरण प्रणाली के आधार पर वैज्ञानिक विषय क्वेरीज
  6. उत्पाद (422 क्वेरीज): 2023 के सबसे लोकप्रिय Amazon उत्पादों के आधार पर खरीदारी क्वेरीज

मूल्यांकन मेट्रिक्स

  1. सूचना स्रोत मेट्रिक्स:
    • प्रति क्वेरी लिंक संख्या
    • वेबसाइट लोकप्रियता रैंकिंग
    • सूचना स्रोत प्रकार वितरण
    • URL/डोमेन ओवरलैप दर
  2. सामग्री मेट्रिक्स:
    • प्रतिक्रिया लंबाई (वर्ण संख्या)
    • अवधारणा कवरेज दर
    • अवधारणा घनत्व (अवधारणा संख्या/पाठ लंबाई)
    • अवधारणा ओवरलैप (Jaccard समानता)
  3. समयबद्धता मेट्रिक्स:
    • प्रवृत्ति क्वेरी प्रबंधन सफलता दर
    • समय स्थिरता (समय बिंदुओं में संगति)

कार्यान्वयन विवरण

  • सभी क्वेरीज अंग्रेजी में उपयोग की गई
  • संयुक्त राज्य अमेरिका और जर्मनी दोनों भौगोलिक स्थानों में निष्पादित
  • जनरेटिव मॉडल तापमान पैरामीटर 0 पर सेट (यदि समर्थित हो)
  • अधिकतम नई टोकन संख्या 1,000 पर सेट
  • प्रयोग समय: जुलाई-सितंबर 2025

प्रायोगिक परिणाम

मुख्य परिणाम

सूचना स्रोत अंतर महत्वपूर्ण

  1. बाहरी ज्ञान निर्भरता अंतर:
    • GPT-Tool प्रति क्वेरी औसतन केवल 0.4 वेबपेज का संदर्भ देता है
    • AIO, Gemini, GPT-Search क्रमशः 8.6, 8.5, 4.1 वेबपेज का संदर्भ देते हैं
    • पारंपरिक सर्च निश्चित रूप से 10 परिणाम लौटाता है
  2. सूचना स्रोत लोकप्रियता:
    • पारंपरिक सर्च: 89% वेबसाइट Tranco 1M सूची में
    • जनरेटिव सर्च: 81%-86% सूची में
    • GPT-Tool द्वारा संदर्भित वेबसाइट उच्च रैंकिंग (माध्यिका 1124 बनाम पारंपरिक सर्च 2352)
  3. सूचना स्रोत ओवरलैप कम:
    • AIO और पारंपरिक सर्च के शीर्ष 10 परिणामों में <50% ओवरलैप
    • शीर्ष 100 परिणामों में 60% से अधिक नहीं
    • उत्पाद डेटासेट में ओवरलैप दर केवल 30%

सामग्री विश्लेषण निष्कर्ष

  1. प्रतिक्रिया लंबाई अंतर:
    • Gemini सबसे लंबा (औसतन 2505±552 वर्ण)
    • GPT-Tool सबसे छोटा (औसतन 1018±219 वर्ण)
    • AIO मध्यम लंबाई लेकिन अधिक लिंक
  2. अवधारणा कवरेज समान:
    • पारंपरिक सर्च (सभी परिणाम): 78%±14%
    • GPT-Search: 78%±16%
    • Gemini: 77%±14%
    • AIO: 74%±16%
    • GPT-Tool: 71%±16%
  3. अस्पष्ट क्वेरी प्रबंधन:
    • पारंपरिक सर्च कम कवरेज क्वेरीज पर सर्वश्रेष्ठ प्रदर्शन (67% माध्यिका कवरेज)
    • AIO: 55%
    • GPT-Tool: 48%

समयबद्धता विश्लेषण

  1. प्रवृत्ति क्वेरी प्रबंधन:
    • AIO केवल 3% प्रवृत्ति क्वेरीज में सक्रिय
    • GPT-Search उच्चतम अवधारणा कवरेज दर तक पहुंचता है (72%)
    • GPT-Tool समयबद्धता क्वेरीज पर कमजोर प्रदर्शन (51%)
  2. समय स्थिरता:
    • पारंपरिक सर्च सबसे स्थिर (45% ओवरलैप दर)
    • Gemini दूसरा (40%)
    • AIO सबसे अधिक परिवर्तनशील (18% ओवरलैप दर)

विलोपन प्रयोग

GPT मॉडल के विभिन्न सर्च संदर्भ आकार (कम/मध्यम/उच्च) के प्रभाव का अध्ययन:

  • सर्च संदर्भ आकार सूचना स्रोत चयन पर कोई महत्वपूर्ण प्रभाव नहीं
  • सामग्री उत्पादन गुणवत्ता पर भी कोई स्पष्ट अंतर नहीं
  • अवधारणा कवरेज दर मूलतः सुसंगत रहता है

संबंधित कार्य

पारंपरिक सर्च मूल्यांकन

  • प्रासंगिकता, विविधता, ताजगी, कवरेज आदि पारंपरिक मेट्रिक्स
  • nDCG, α-nDCG आदि रैंकिंग मूल्यांकन विधियां
  • राजनीतिक पूर्वाग्रह, भौगोलिक पूर्वाग्रह, व्यावसायिक पूर्वाग्रह आदि विविधता अनुसंधान

बड़े भाषा मॉडल मूल्यांकन

  • प्रश्नोत्तर, सारांश, तथ्य आधार, उपकरण उपयोग आदि क्षमता मूल्यांकन
  • पुनः प्राप्ति-संवर्धित उत्पादन (RAG) तकनीक
  • क्वेरी समझ और रैंकिंग अनुप्रयोग

जनरेटिव सर्च अनुसंधान

  • सत्यापनीयता, विश्वसनीयता, सटीकता मूल्यांकन
  • प्रतिकूल तथ्य प्रश्नों के लिए मजबूती
  • पूर्वाग्रह और अन्याय समस्याएं
  • नए मूल्यांकन सिद्धांत और बेंचमार्क

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सूचना स्रोत विविधता: जनरेटिव सर्च इंजन व्यापक सूचना स्रोतों तक पहुंचते हैं, लेकिन आवश्यक रूप से अवधारणा कवरेज में वृद्धि नहीं करते
  2. आंतरिक-बाहरी ज्ञान संतुलन: विभिन्न जनरेटिव सर्च इंजन आंतरिक बनाम बाहरी ज्ञान पर निर्भरता में विशाल अंतर प्रदर्शित करते हैं
  3. अवधारणा कवरेज तुलनीय: विभिन्न सूचना स्रोतों के बावजूद, समग्र अवधारणा कवरेज पारंपरिक सर्च के समान है
  4. अस्पष्ट क्वेरी चुनौती: पारंपरिक सर्च अस्पष्ट क्वेरीज के प्रबंधन में अभी भी लाभ रखता है
  5. समयबद्धता अंतर: आंतरिक ज्ञान पर निर्भर मॉडल समयबद्धता क्वेरीज पर कमजोर प्रदर्शन करते हैं

सीमाएं

  1. क्वेरी श्रेणी सीमा: केवल चयनित क्वेरी कार्यभार को कवर करता है, बहु-मोड संवाद सर्च पर विचार नहीं करता
  2. भाषा और भौगोलिक सीमा: केवल अंग्रेजी क्वेरीज का उपयोग, केवल दो देशों में परीक्षण
  3. सामग्री विश्लेषण गहराई: केवल पारंपरिक सर्च के शीर्ष 10 परिणामों का विश्लेषण, यह मानते हुए कि उपयोगकर्ता शायद ही कभी लिंक पर क्लिक करते हैं
  4. समय विंडो सीमा: मूल्यांकन समय विंडो सीमित, अधिक दीर्घकालीन अनुदैर्ध्य अनुसंधान की आवश्यकता
  5. आउटपुट निश्चितता: प्रत्येक क्वेरी के लिए केवल एक आउटपुट का उपयोग, आउटपुट परिवर्तनशीलता का माप नहीं

भविष्य की दिशाएं

  1. नई मूल्यांकन विधियां: सूचना स्रोत विविधता, अवधारणा कवरेज और संश्लेषित व्यवहार को एक साथ विचार करने वाली विधियों का विकास
  2. बहुभाषी विस्तार: बहुभाषी क्वेरीज और बहु-मोड इंटरैक्शन तक विस्तार
  3. गहन सामग्री विश्लेषण: सारांश विश्लेषण बनाम पूर्ण पृष्ठ सामग्री मूल्यांकन की तुलना
  4. अनुदैर्ध्य अनुसंधान: मॉडल अपडेट और उभरती घटनाओं के समय परिवर्तन को कैप्चर करना
  5. तथ्य-जांच एकीकरण: कवरेज मेट्रिक्स के साथ तथ्य-जांच और विश्वसनीयता मूल्यांकन को जोड़ना

गहन मूल्यांकन

शक्तियां

  1. व्यापक अनुसंधान डिजाइन: बहु-सर्च इंजन, बहु-डेटासेट, बहु-भौगोलिक स्थान की प्रणालीगत तुलना
  2. विधि नवाचार: सर्च इंजन तुलना के लिए अवधारणा प्रेरण विधि का प्रथम अनुप्रयोग
  3. उच्च व्यावहारिक मूल्य: सर्च इंजन डिजाइन और मूल्यांकन के लिए महत्वपूर्ण अंतर्दृष्टि
  4. समयबद्धता ध्यान: विशेष रूप से समय-संवेदनशील क्वेरीज के प्रबंधन क्षमता पर ध्यान
  5. उद्देश्यपूर्ण तटस्थता: जनरेटिव सर्च की शक्तियां और सीमाएं दोनों प्रदर्शित करता है

कमियां

  1. अवधारणा विश्लेषण LLM पर निर्भर: अवधारणा प्रेरण के लिए LLM का उपयोग पूर्वाग्रह पेश कर सकता है
  2. मजबूत धारणा शर्तें: उपयोगकर्ता लिंक पर क्लिक नहीं करते, शीर्ष 10 परिणामों से आगे नहीं जाते आदि मानते हैं
  3. एकल मूल्यांकन मेट्रिक्स: मुख्य रूप से अवधारणा कवरेज पर ध्यान केंद्रित, सटीकता और विश्वसनीयता मूल्यांकन की कमी
  4. छोटा समय अवधि: केवल दो महीने की समय स्थिरता विश्लेषण पर्याप्त नहीं हो सकता है

प्रभाव

  1. शैक्षणिक योगदान: जनरेटिव सर्च मूल्यांकन के लिए नया सैद्धांतिक ढांचा और विधि प्रदान करता है
  2. व्यावहारिक मूल्य: सर्च इंजन विकासकर्ताओं और उपयोगकर्ताओं के लिए महत्वपूर्ण संदर्भ
  3. नीति निहितार्थ: सर्च इंजन विनियमन और मानक निर्धारण के लिए वैज्ञानिक साक्ष्य
  4. भविष्य अनुसंधान: बाद के संबंधित अनुसंधान के लिए आधार स्थापित करता है

लागू परिदृश्य

  1. सर्च इंजन मूल्यांकन: पारंपरिक और जनरेटिव सर्च इंजन की तुलनात्मक मूल्यांकन के लिए लागू
  2. उत्पाद विकास: सर्च उत्पाद डिजाइन और अनुकूलन के लिए मार्गदर्शन
  3. शैक्षणिक अनुसंधान: सूचना पुनः प्राप्ति और AI क्षेत्र अनुसंधान के लिए विधि और डेटा
  4. उपयोगकर्ता शिक्षा: उपयोगकर्ताओं को विभिन्न सर्च उपकरणों की विशेषताओं और लागू परिदृश्यों को समझने में सहायता करता है

संदर्भ

पेपर 41 संबंधित संदर्भों का हवाला देता है, जो पारंपरिक सर्च मूल्यांकन, बड़े भाषा मॉडल मूल्यांकन, जनरेटिव सर्च आदि कई अनुसंधान क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करता है।


यह अनुसंधान जनरेटिव AI के युग में वेब सर्च की विशेषताओं को समझने के लिए महत्वपूर्ण योगदान प्रदान करता है, न केवल पारंपरिक सर्च और जनरेटिव सर्च के मुख्य अंतरों को प्रकट करता है, बल्कि भविष्य के सर्च सिस्टम के डिजाइन और मूल्यांकन के लिए नए विचार और विधियां भी प्रदान करता है।