2025-11-24T16:16:18.122167

Characterizing Web Search in The Age of Generative AI

Kirsten, Perdekamp, Upadhyay et al.
The advent of LLMs has given rise to a new type of web search: Generative search, where LLMs retrieve web pages related to a query and generate a single, coherent text as a response. This output modality stands in stark contrast to traditional web search, where results are returned as a ranked list of independent web pages. In this paper, we ask: Along what dimensions do generative search outputs differ from traditional web search? We compare Google, a traditional web search engine, with four generative search engines from two providers (Google and OpenAI) across queries from four domains. Our analysis reveals intriguing differences. Most generative search engines cover a wider range of sources compared to web search. Generative search engines vary in the degree to which they rely on internal knowledge contained within the model parameters v.s. external knowledge retrieved from the web. Generative search engines surface varying sets of concepts, creating new opportunities for enhancing search diversity and serendipity. Our results also highlight the need for revisiting evaluation criteria for web search in the age of Generative AI.
academic

توصيف البحث عن الويب في عصر الذكاء الاصطناعي التوليدي

المعلومات الأساسية

  • معرّف البحث: 2510.11560
  • العنوان: Characterizing Web Search in The Age of Generative AI
  • المؤلفون: Elisabeth Kirsten, Jost Grosse Perdekamp, Mihir Upadhyay, Krishna P. Gummadi, Muhammad Bilal Zafar
  • المؤسسات: جامعة روهر بوخوم، مركز الثقة بالإمارات، معهد ماكس بلانك للدراسات البرمجية
  • التصنيف: cs.IR cs.AI
  • تاريخ النشر: 13 أكتوبر 2025
  • رابط البحث: https://arxiv.org/abs/2510.11560

الملخص

أدى ظهور نماذج اللغة الكبيرة (LLMs) إلى ظهور شكل جديد من أشكال البحث عن الويب: البحث التوليدي، حيث تقوم نماذج اللغة الكبيرة باسترجاع صفحات الويب ذات الصلة بالاستعلام وتوليد نص واحد متماسك كرد. يتناقض هذا نمط الإخراج بشكل حاد مع البحث التقليدي عن الويب، الذي يعيد قائمة مرتبة من صفحات الويب المستقلة. يستكشف هذا البحث الأبعاد التي يختلف فيها إخراج البحث التوليدي عن البحث التقليدي عن الويب. تقارن الدراسة محرك البحث التقليدي من Google مع أربعة محركات بحث توليدية من Google و OpenAI، تغطي استعلامات في أربعة مجالات. يكشف التحليل عن اختلافات ملحوظة: تغطي معظم محركات البحث التوليدية نطاقاً أوسع من المصادر مقارنة بالبحث التقليدي عن الويب؛ تختلف محركات البحث التوليدية في اعتمادها على المعرفة الداخلية لمعاملات النموذج مقابل المعرفة الخارجية المسترجعة من الويب؛ تقدم محركات البحث التوليدية مجموعات مفاهيم مختلفة، مما يخلق فرصاً جديدة لتعزيز تنوع البحث والاكتشاف العرضي.

السياق البحثي والدافع

تعريف المشكلة

مع ظهور الذكاء الاصطناعي التوليدي، يتطور البحث عن الويب نحو الاعتماد بشكل أكبر على نماذج اللغة الكبيرة. تعيد محركات البحث التقليدية قائمة مرتبة من حوالي 10 نتائج بحث، بينما توفر أنظمة البحث التوليدية إجابات باللغة الطبيعية من خلال روبوتات الدردشة المدعومة بالذكاء الاصطناعي. يحمل هذا التحول في النموذج ثلاثة اختلافات رئيسية:

  1. تنسيق الإخراج المختلف: يعيد البحث التقليدي صفحات ويب مستقلة، بينما يشكل البحث التوليدي كتلة نصية واحدة متماسكة
  2. نطاق تغطية أوسع: قد يجمع البحث التوليدي محتوى من مصادر تتجاوز بكثير 10 مصادر
  3. مزيج من مصادر المعرفة: يجمع بين المعلومات الخارجية المسترجعة والمعرفة الداخلية لنموذج اللغة الكبيرة

أهمية البحث

يعتبر فهم هذه الاختلافات حاسماً لتقييم جودة البحث وتنوع المعلومات وتجربة المستخدم. تم تصميم مقاييس تقييم البحث الحالية بشكل أساسي للقوائم المرتبة ولا يمكن تطبيقها مباشرة على الإخراج المركب للبحث التوليدي.

القيود الموجودة

  • نقص الدراسات التي تقارن بشكل منهجي بين أنظمة البحث التقليدية والتوليدية
  • الأطر التقييمية الموجودة غير مناسبة لإخراج البحث التوليدي
  • نقص التحليل المتعمق لاختيار المصادر والتغطية المفاهيمية في البحث التوليدي

المساهمات الأساسية

  1. أول مقارنة منهجية: إجراء مقارنة شاملة بين البحث التقليدي والتوليدي من خلال تحليل المصادر والمحتوى
  2. إطار تحليل متعدد الأبعاد: تقييم أنظمة البحث من ثلاثة أبعاد: تنوع المصادر، الاعتماد على المعرفة الداخلية والخارجية، التغطية المفاهيمية
  3. دراسة تجريبية واسعة النطاق: تجارب شاملة عبر 6 مجموعات بيانات و 4,606 استعلام
  4. تحليل الحداثة: تقييم قدرة أنظمة البحث المختلفة على معالجة الاستعلامات الحساسة للوقت
  5. ابتكار في طرق التقييم: اقتراح معايير وطرق تقييم جديدة قابلة للتطبيق على البحث التوليدي

شرح الطريقة

تعريف المهمة

يهدف هذا البحث إلى الإجابة على ثلاث أسئلة بحثية أساسية:

  • السؤال البحثي 1: إلى أي مدى تستفيد نماذج الذكاء الاصطناعي التوليدي من قدرتها على معالجة المزيد من نتائج البحث للوصول إلى مصادر معلومات أكثر تنوعاً؟
  • السؤال البحثي 2: ما نسبة اعتماد محركات البحث التوليدية على المعرفة الخارجية من الويب مقابل المعرفة الداخلية لنموذج اللغة الكبيرة؟
  • السؤال البحثي 3: هل يؤدي الاعتماد على مصادر معلومات أكثر تنوعاً واستخدام المعرفة الداخلية إلى إنتاج نماذج الذكاء الاصطناعي التوليدي إخراجاً أكثر تنوعاً؟

البنية التجريبية

اختيار محركات البحث

  • البحث التقليدي: نتائج البحث العضوية من Google
  • البحث التوليدي:
    • نظرة Google الذكية (AIO)
    • Gemini-2.5-Flash مع بحث Google
    • بحث GPT-4o (GPT-Search)
    • GPT-4o مع أداة البحث (GPT-Tool)

أبعاد التحليل

  1. تحليل المصادر:
    • إحصائيات عدد الروابط
    • تصنيف شهرة الموقع (بناءً على قائمة Tranco)
    • تصنيف نوع المصادر (باستخدام فئات محتوى Google والتصنيفات المخصصة)
    • تحليل درجة التداخل مع نتائج البحث التقليدي
  2. تحليل المحتوى:
    • تحليل طول وهيكل الاستجابة
    • تقييم التغطية المفاهيمية (باستخدام إطار عمل LLooM)
    • حساب كثافة المفاهيم
    • تحليل التداخل المفاهيمي عبر المحركات

نقاط الابتكار التقني

  1. طريقة الاستدلال المفاهيمي: استخدام LLooM (إطار عمل استدلال الموضوعات المدعوم بنموذج اللغة الكبيرة) لاكتشاف وتصنيف المفاهيم
  2. تحليل التداخل متعدد المستويات: حساب درجة التداخل من مستوى عنوان URL إلى مستوى النطاق
  3. التقييم عبر البعد الزمني: تقييم الحداثة من خلال تحليل الاستعلامات الاتجاهية والاستقرار الزمني
  4. التحقق عبر المواقع الجغرافية: إجراء التجارب في موقعين جغرافيين: الولايات المتحدة وألمانيا

الإعداد التجريبي

مجموعات البيانات

تستخدم الدراسة 6 مجموعات بيانات، إجمالي 4,606 استعلام:

  1. MS Marco (1,000 استعلام): مجموعة بيانات استرجاع المجال المفتوح من استعلامات Bing الحقيقية
  2. WildChat (1,750 استعلام): استعلامات البحث عن المعلومات المنتقاة من تفاعلات مستخدمي ChatGPT
  3. AllSides (332 استعلام): استعلامات مولدة بناءً على مواضيع سياسية
  4. الإجراءات التنظيمية (649 استعلام): استعلامات حساسة للوقت حول الأوامر التنفيذية لحكومة ترامب
  5. استعلامات العلوم (453 استعلام): استعلامات حول مواضيع علمية بناءً على نظام تصنيف ACM الحسابي
  6. المنتجات (422 استعلام): استعلامات التسوق بناءً على أكثر منتجات Amazon شهرة في عام 2023

مقاييس التقييم

  1. مقاييس المصادر:
    • عدد الروابط لكل استعلام
    • تصنيف شهرة الموقع
    • توزيع نوع المصادر
    • معدل التداخل على مستوى عنوان URL والنطاق
  2. مقاييس المحتوى:
    • طول الاستجابة (عدد الأحرف)
    • معدل التغطية المفاهيمية
    • كثافة المفاهيم (عدد المفاهيم / طول النص)
    • درجة التداخل المفاهيمي (تشابه Jaccard)
  3. مقاييس الحداثة:
    • معدل نجاح معالجة الاستعلامات الاتجاهية
    • الاستقرار الزمني (الاتساق عبر نقاط زمنية مختلفة)

تفاصيل التنفيذ

  • تم إجراء جميع الاستعلامات باللغة الإنجليزية
  • تم التنفيذ في موقعين جغرافيين: الولايات المتحدة وألمانيا
  • تم تعيين معامل درجة الحرارة للنماذج التوليدية على 0 (إن كان مدعوماً)
  • تم تعيين الحد الأقصى لعدد الرموز الجديدة على 1,000
  • فترة التجربة: يوليو - سبتمبر 2025

نتائج التجارب

النتائج الرئيسية

اختلافات المصادر ملحوظة

  1. اختلافات الاعتماد على المعرفة الخارجية:
    • تستشهد أداة GPT فقط بمتوسط 0.4 صفحة ويب لكل استعلام
    • تستشهد AIO و Gemini و GPT-Search بـ 8.6 و 8.5 و 4.1 صفحات ويب على التوالي
    • يعيد البحث التقليدي بثبات 10 نتائج
  2. شهرة المصادر:
    • البحث التقليدي: 89% من المواقع في قائمة Tranco 1M
    • البحث التوليدي: 81%-86% في القائمة
    • المواقع المستشهد بها من قبل GPT-Tool لها تصنيف أعلى (الوسيط 1124 مقابل 2352 للبحث التقليدي)
  3. معدل التداخل المنخفض للمصادر:
    • تداخل AIO مع أفضل 10 نتائج تقليدية <50%
    • التداخل مع أفضل 100 نتيجة لا يتجاوز 60%
    • معدل التداخل في مجموعة بيانات المنتجات فقط 30%

نتائج تحليل المحتوى

  1. اختلافات طول الاستجابة:
    • Gemini الأطول (متوسط 2505±552 حرف)
    • GPT-Tool الأقصر (متوسط 1018±219 حرف)
    • AIO بطول متوسط لكن عدد روابط أكثر
  2. التغطية المفاهيمية متشابهة:
    • البحث التقليدي (جميع النتائج): 78%±14%
    • GPT-Search: 78%±16%
    • Gemini: 77%±14%
    • AIO: 74%±16%
    • GPT-Tool: 71%±16%
  3. معالجة الاستعلامات الغامضة:
    • يحقق البحث التقليدي أفضل أداء في الاستعلامات منخفضة التغطية (معدل تغطية وسيط 67%)
    • AIO: 55%
    • GPT-Tool: 48%

تحليل الحداثة

  1. معالجة الاستعلامات الاتجاهية:
    • يتم تفعيل AIO فقط في 3% من الاستعلامات الاتجاهية
    • يحقق GPT-Search أعلى معدل تغطية مفاهيمية (72%)
    • يحقق GPT-Tool أداء ضعيفة في استعلامات الحداثة (51%)
  2. الاستقرار الزمني:
    • البحث التقليدي الأكثر استقراراً (معدل تداخل 45%)
    • Gemini في المرتبة الثانية (40%)
    • AIO يظهر أكبر تغيير (معدل تداخل 18%)

التجارب الاستئصالية

تم دراسة تأثير أحجام السياق البحثي المختلفة (منخفض/متوسط/مرتفع) لنموذج GPT:

  • حجم السياق البحثي لا يؤثر بشكل ملحوظ على اختيار المصادر
  • لا يوجد فرق واضح في جودة توليد المحتوى
  • يبقى معدل التغطية المفاهيمية متسقاً بشكل أساسي

الأعمال ذات الصلة

تقييم البحث التقليدي

  • المقاييس التقليدية مثل الملاءمة والتنوع والحداثة والتغطية
  • طرق تقييم الترتيب مثل nDCG و α-nDCG
  • دراسات التنوع مثل الانحياز السياسي والانحياز الجغرافي والانحياز التجاري

تقييم نماذج اللغة الكبيرة

  • تقييم القدرات مثل الإجابة على الأسئلة والتلخيص والتأسيس الواقعي واستخدام الأدوات
  • تقنية الإنشاء المعزز بالاسترجاع (RAG)
  • فهم الاستعلامات والتطبيقات في الترتيب

أبحاث البحث التوليدي

  • تقييم القابلية للتحقق والموثوقية والدقة
  • المتانة تجاه الحقائق المتعارضة
  • مشاكل الانحياز وعدم الإنصاف
  • المبادئ التقييمية الجديدة والمعايير

الخلاصات والمناقشة

الاستنتاجات الرئيسية

  1. تنوع المصادر: تصل محركات البحث التوليدية إلى مصادر معلومات أوسع، لكن هذا لا يرفع بالضرورة التغطية المفاهيمية
  2. توازن المعرفة الداخلية والخارجية: تختلف محركات البحث التوليدية بشكل كبير في اعتمادها على المعرفة الداخلية مقابل الخارجية
  3. التغطية المفاهيمية المعادلة: على الرغم من اختلاف المصادر، فإن التغطية المفاهيمية الإجمالية مشابهة للبحث التقليدي
  4. تحديات الاستعلامات الغامضة: يحتفظ البحث التقليدي بميزة في معالجة الاستعلامات الغامضة
  5. اختلافات الحداثة: تحقق النماذج التي تعتمد على المعرفة الداخلية أداء ضعيفة في استعلامات الحداثة

القيود

  1. قيود نطاق الاستعلام: تغطي فقط أحمال عمل استعلام محددة، لم تأخذ في الاعتبار البحث متعدد الأدوار
  2. قيود اللغة والجغرافيا: تستخدم فقط استعلامات باللغة الإنجليزية، تم الاختبار في دولتين فقط
  3. عمق تحليل المحتوى: تحليل أفضل 10 نتائج بحث تقليدية فقط، افتراض أن المستخدمين نادراً ما ينقرون على الروابط
  4. قيود نافذة زمنية: نافذة التقييم محدودة، تحتاج إلى دراسات طولية أطول
  5. حتمية الإخراج: استخدام إخراج واحد فقط لكل استعلام، لم يتم قياس تباين الإخراج

الاتجاهات المستقبلية

  1. طرق تقييم جديدة: تطوير طرق تقييم تأخذ في الاعتبار تنوع المصادر والتغطية المفاهيمية والسلوك المركب
  2. التوسع متعدد اللغات: التوسع إلى استعلامات متعددة اللغات والتفاعلات متعددة الأدوار
  3. تحليل محتوى عميق: مقارنة تحليل الملخصات مع تقييم محتوى الصفحة الكاملة
  4. الدراسات الطولية: التقاط الانجراف الزمني لتحديثات النموذج والأحداث الناشئة
  5. دمج التحقق من الحقائق: دمج مقاييس التغطية مع التحقق من الحقائق وتقييم الموثوقية

التقييم المتعمق

المزايا

  1. تصميم البحث الشامل: مقارنة منهجية لمحركات بحث متعددة ومجموعات بيانات متعددة ومواقع جغرافية متعددة
  2. ابتكار الطريقة: أول تطبيق لطرق الاستدلال المفاهيمي على مقارنة محركات البحث
  3. قيمة عملية عالية: توفير رؤى مهمة لتصميم وتقييم محركات البحث
  4. التركيز على الحداثة: اهتمام خاص بقدرة معالجة الاستعلامات الحساسة للوقت
  5. الحياد الموضوعي: عرض مزايا البحث التوليدي وكذلك الإشارة إلى قيوده

أوجه القصور

  1. اعتماد تحليل المفاهيم على نموذج اللغة الكبيرة: قد يؤدي استخدام نموذج اللغة الكبيرة للاستدلال المفاهيمي إلى إدخال انحيازات
  2. افتراضات قوية: افتراضات مثل عدم نقر المستخدمين على الروابط وعدم تجاوز أفضل 10 نتائج
  3. مقاييس تقييم محدودة: التركيز الأساسي على التغطية المفاهيمية، نقص تقييم الدقة والموثوقية
  4. فترة زمنية قصيرة: تحليل الاستقرار الزمني لمدة شهرين فقط قد لا يكون كافياً

التأثير

  1. المساهمة الأكاديمية: توفير إطار نظري وطرق جديدة لتقييم البحث التوليدي
  2. القيمة العملية: توفير مرجع مهم لمطوري محركات البحث والمستخدمين
  3. الآثار السياسية: توفير أساس علمي لتنظيم محركات البحث ووضع المعايير
  4. البحث المستقبلي: وضع الأساس للأبحاث ذات الصلة اللاحقة

السيناريوهات القابلة للتطبيق

  1. تقييم محركات البحث: قابل للتطبيق على تقييم مقارن لمحركات البحث التقليدية والتوليدية
  2. تطوير المنتجات: توفير إرشادات لتصميم وتحسين منتجات البحث
  3. البحث الأكاديمي: توفير طرق وبيانات لأبحاث مجالات استرجاع المعلومات والذكاء الاصطناعي
  4. تثقيف المستخدمين: مساعدة المستخدمين على فهم خصائص وسيناريوهات التطبيق لأدوات البحث المختلفة

المراجع

يستشهد البحث بـ 41 مرجعاً ذا صلة، يغطي أعمالاً مهمة في مجالات متعددة مثل تقييم البحث التقليدي وتقييم نماذج اللغة الكبيرة والبحث التوليدي، مما يوفر أساساً نظرياً متيناً للبحث.


يوفر هذا البحث مساهمة مهمة لفهم خصائص البحث عن الويب في عصر الذكاء الاصطناعي التوليدي، حيث لا يكشف فقط عن الاختلافات الرئيسية بين البحث التقليدي والتوليدي، بل يوفر أيضاً أفكاراً وطرقاً جديدة لتصميم وتقييم أنظمة البحث المستقبلية.