2025-11-12T22:19:11.052121

Preprint: Poster: Did I Just Browse A Website Written by LLMs?

He, Govindan, Madhyastha
Increasingly, web content is automatically generated by large language models (LLMs) with little human input. We call this "LLM-dominant" content. Since LLMs plagiarize and hallucinate, LLM-dominant content can be unreliable and unethical. Yet, websites rarely disclose such content, and human readers struggle to distinguish it. Thus, we must develop reliable detectors for LLM-dominant content. However, state-of-the-art LLM detectors are inaccurate on web content, because web content has low positive rates, complex markup, and diverse genres, instead of clean, prose-like benchmark data SoTA detectors are optimized for. We propose a highly reliable, scalable pipeline that classifies entire websites. Instead of naively classifying text extracted from each page, we classify each site based on an LLM text detector's outputs of multiple prose-like pages to boost accuracies. We train and evaluate our detector by collecting 2 distinct ground truth datasets totaling 120 sites, and obtain 100% accuracies testing across them. In the wild, we detect a sizable portion of sites as LLM-dominant among 10k sites in search engine results and 10k in Common Crawl archives. We find LLM-dominant sites are growing in prevalence and rank highly in search results, raising questions about their impact on end users and the overall Web ecosystem.
academic

ورقة بحثية: ملصق: هل كنت للتو أتصفح موقع ويب كتبته نماذج اللغة الكبيرة؟

المعلومات الأساسية

  • معرّف الورقة: 2507.13933
  • العنوان: Poster: Did I Just Browse A Website Written by LLMs?
  • المؤلفون: Sichang Steven He, Ramesh Govindan, Harsha V. Madhyastha (جامعة جنوب كاليفورنيا)
  • التصنيف: cs.NI cs.AI cs.CL cs.IR
  • وقت النشر/المؤتمر: IMC '25 (مؤتمر قياس الإنترنت 2025 من ACM)، 28-31 أكتوبر 2025، ماديسون، ويسكونسن، الولايات المتحدة الأمريكية
  • رابط الورقة: https://doi.org/10.1145/3730567.3768603

الملخص

مع ظهور نماذج اللغة الكبيرة (LLMs)، يتم إنشاء كمية متزايدة من محتوى الويب بواسطة نماذج اللغة الكبيرة تلقائياً مع الحد الأدنى من المدخلات البشرية. يشير المؤلفون إلى هذا المحتوى باسم محتوى "يهيمن عليه نموذج اللغة الكبيرة". نظراً لمشاكل الانتحال والهلوسة في نماذج اللغة الكبيرة، قد يكون محتوى يهيمن عليه نموذج اللغة الكبيرة غير موثوق وغير أخلاقي. ومع ذلك، نادراً ما تكشف مواقع الويب عن هذا المحتوى، ويجد القراء البشريون صعوبة في التمييز بينه. لذلك، من الضروري تطوير كاشفات موثوقة لمحتوى يهيمن عليه نموذج اللغة الكبيرة. تؤدي كاشفات نموذج اللغة الكبيرة الحديثة الأداء بشكل سيء على محتوى الويب لأن محتوى الويب يتميز بمعدل إيجابي منخفض، وتسميات معقدة، وأنواع متنوعة، بدلاً من بيانات المعايير النظيفة والنثرية التي تم تحسينها من قبل الكاشفات الموجودة.

تقترح هذه الورقة خط أنابيب موثوق وقابل للتوسع للغاية لتصنيف مواقع الويب بالكامل. بدلاً من مجرد تصنيف النصوص المستخرجة من كل صفحة، تصنف الطريقة كل موقع بناءً على مخرجات كاشف نصوص نموذج اللغة الكبيرة عبر صفحات نثرية متعددة لتحسين الدقة. من خلال جمع مجموعتي بيانات حقيقيتين مختلفتين (إجمالي 120 موقع ويب) للتدريب والتقييم، تم الحصول على دقة 100% في الاختبار عبر مجموعات البيانات. في التطبيقات العملية، تم اكتشاف نسبة كبيرة من مواقع الويب التي يهيمن عليها نموذج اللغة الكبيرة في نتائج محرك البحث وأرشيف Common Crawl (10,000 موقع لكل منهما)، مما يكشف أن شيوع هذه المواقع ينمو وتحتل مرتبة عالية في نتائج البحث.

السياق البحثي والدافع

تعريف المشكلة

  1. المشكلة الأساسية: كيفية الكشف الموثوق عن محتوى مواقع الويب "التي يهيمن عليها نموذج اللغة الكبيرة" المولدة بواسطة نماذج اللغة الكبيرة على الويب
  2. أهمية المشكلة:
    • محتوى نموذج اللغة الكبيرة المولد يعاني من مشاكل الانتحال والهلوسة، مما قد يضلل المستخدمين
    • يتطلب قانون الاتحاد الأوروبي للذكاء الاصطناعي الكشف عن استخدام الذكاء الاصطناعي، لكن مواقع الويب نادراً ما تمتثل
    • يجد البشر صعوبة في التمييز بين المحتوى المولد بواسطة نموذج اللغة الكبيرة

حدود الطرق الموجودة

حدد المؤلفون ثلاث تحديات رئيسية:

  1. عدم دقة كاشفات النصوص: تؤدي كاشفات الحالة الراهنة الحديثة بشكل سيء في إعدادات العالم الحقيقي التي تتطلب معدل إيجابي خاطئ منخفض
  2. ضوضاء محتوى الويب: تم تصميم الكاشفات للنثر النظيف، وتؤدي بشكل سيء على الأنواع المتنوعة للويب (مثل قوائم الروابط وبيانات الخصوصية)
  3. نقص التسميات الحقيقية: توجد العديد من مجموعات بيانات المعايير لكشف النصوص، لكن تنقص مجموعات البيانات على مستوى صفحات الويب

دافع البحث

  • خدمات الذكاء الاصطناعي تمكن أي شخص من إنشاء محتوى ويب بكميات كبيرة برخص
  • بدأ المستخدمون بالشكوى من رؤية مقالات يهيمن عليها نموذج اللغة الكبيرة على الإنترنت
  • الحاجة إلى تطوير طرق كشف موثوقة لحماية تجربة المستخدم وبيئة الويب

المساهمات الأساسية

  1. اقتراح خط أنابيب كشف محتوى نموذج اللغة الكبيرة على مستوى الموقع: تحسين الدقة من خلال تجميع نتائج الكشف من صفحات متعددة
  2. بناء مجموعتي بيانات حقيقيتين من مصادر مختلفة: إجمالي 120 موقع ويب للتدريب والتقييم
  3. تحقيق دقة 100% عبر مجموعات البيانات: أداء ممتازة في الاختبار الصارم خارج التوزيع
  4. توفير دراسة تجريبية واسعة النطاق: تحليل 20,000 موقع ويب حقيقي، كشف اتجاهات النمو في مواقع الويب التي يهيمن عليها نموذج اللغة الكبيرة
  5. اكتشاف رؤى مهمة عن بيئة الويب: مواقع الويب التي يهيمن عليها نموذج اللغة الكبيرة تحتل مرتبة عالية في نتائج البحث وتنمو في الانتشار

شرح الطريقة

تعريف المهمة

  • الإدخال: عنوان URL لموقع الويب
  • الإخراج: نتيجة تصنيف ثنائي (يهيمن عليه نموذج اللغة الكبيرة مقابل يهيمن عليه البشر)
  • القيود: يتطلب أن يكون لموقع الويب ما لا يقل عن 15 صفحة قابلة للتصفية

معمارية النموذج

1. الحصول على النصوص (Text Acquisition)

  • أخذ عينات عشوائية من الصفحات من خريطة الموقع أو فهرس محتوى Wayback Machine
  • استخدام Chromium للوصول وتصيير صفحات HTML
  • استخدام مكتبة Trafilatura لاستخراج محتوى النص الرئيسي

2. التسجيل والتصفية (Scoring and Filtering)

  • استخدام كاشف Binoculars لكشف نصوص نموذج اللغة الكبيرة
  • تطبيق قواعد تصفية صارمة:
    • تصفية النصوص القصيرة
    • تصفية المحتوى بنسبة عالية من القوائم والجداول والروابط
    • تصفية النصوص المكررة داخل الموقع
  • ضمان أن معظم النصوص المصفاة تكون بصيغة نثرية

3. التحليل التجميعي (Aggregate Analysis)

  • أخذ عينات من 15-20 صفحة لكل موقع ويب
  • حساب درجة Binoculars لكل صفحة
  • استخدام التسعينات التسعة للدرجات كمتجه ميزات
  • تدريب آلة المتجهات الداعمة الخطية (SVM) لتصنيف الموقع

نقاط الابتكار التقني

  1. استراتيجية التجميع: لا تعتمد على نتائج تصنيف صفحة واحدة، بل تحلل توزيع الدرجات عبر صفحات متعددة لتحسين المتانة
  2. التصفية الذكية: استراتيجيات تصفية متخصصة مصممة لتنوع محتوى الويب
  3. ميزات التوزيع: استخدام التسعينات لالتقاط خصائص توزيع درجات محتوى الموقع
  4. الكشف على مستوى الموقع: الترقية من الكشف على مستوى الصفحة إلى الكشف على مستوى الموقع، وهو أكثر توافقاً مع احتياجات التطبيق العملي

إعداد التجربة

مجموعات البيانات

مجموعة البيانات الأساسية (120 موقع ويب، 2,630 صفحة مصفاة)

  1. مجموعة بيانات الشركات:
    • 30 موقع ويب للشركات يهيمن عليه البشر (من مؤشر Russell 2000)
    • 30 موقع ويب مولد بواسطة نموذج اللغة الكبيرة المقابل (باستخدام منشئ مواقع الويب بالذكاء الاصطناعي من Wix.com)
  2. مجموعة البيانات الشخصية:
    • 30 موقع ويب شخصي (من مدونات IndieWeb)
    • 30 موقع ويب مولد بواسطة نموذج اللغة الكبيرة المقابل (باستخدام B12.io)

مجموعات البيانات البرية

  1. نتائج محرك البحث: 17,036 موقع ويب (10,232 موقع ويب صالح في النهاية)
  2. Common Crawl: 10,479 موقع ويب عشوائي (2020-2025)

مقاييس التقييم

  • الدقة (Accuracy)
  • معدل الإيجابيات الخاطئة (False Positive Rate, FPR)
  • أداء التعميم خارج التوزيع

الطرق المقارنة

  • كاشف Binoculars (على مستوى الصفحة)
  • اختبار المقارنة مع 11 كاشف نصوص آخر

تفاصيل التنفيذ

  • استخدام Binoculars كمكتشف أساسي
  • آلة المتجهات الداعمة الخطية للتصنيف النهائي
  • أخذ عينات من 15-20 صفحة لكل موقع ويب
  • استخدام 9 تسعينات كميزات

نتائج التجربة

النتائج الرئيسية

أداء مجموعة البيانات الأساسية

  • دقة عبر مجموعات البيانات: 100% (تدريب الشركات → اختبار شخصي، والعكس صحيح)
  • دقة Binoculars على مستوى الصفحة: أقصى 93%
  • دقة SVM على مستوى الموقع: 100% (فصل كامل بين مواقع نموذج اللغة الكبيرة والبشرية)

نتائج الكشف البرية

  1. نتائج محرك البحث:
    • تم اكتشاف 1,019 موقع ويب يهيمن عليه نموذج اللغة الكبيرة (9.96%)
    • مواقع نموذج اللغة الكبيرة لا تعاني من عيب كبير في ترتيب البحث
    • اكتشاف ظاهرة الحدود الغامضة (مواقع بها محتوى جزئي من نموذج اللغة الكبيرة)
  2. تحليل Common Crawl:
    • معدل الكشف الإجمالي: 4.30% (451/10,479)
    • مواقع بعد إطلاق ChatGPT: 7.25% (358/4938)
    • مواقع جديدة 2024-2025: 10.08% (77/764)
    • معدل الإيجابيات الخاطئة: 1.22% (16/1315، مواقع قبل ChatGPT)

الاكتشافات المهمة

  1. اتجاه النمو: تنمو نسبة مواقع الويب التي يهيمن عليها نموذج اللغة الكبيرة بشكل كبير بمرور الوقت
  2. انحياز البحث: نسبة مواقع نموذج اللغة الكبيرة في نتائج محرك البحث أعلى بكثير من العينات العشوائية
  3. تأثير الترتيب: لم يقم محرك البحث بفرض عقوبة فعالة على محتوى يهيمن عليه نموذج اللغة الكبيرة
  4. خصائص المحتوى: مواقع نموذج اللغة الكبيرة عادة ما تكون مدونات عامة بها الكثير من الإعلانات، مع معلومات مؤلف وهمية

تجارب الاستئصال

  • فعالية التحليل التجميعي: حتى عندما تكون دقة كاشف الصفحة الواحدة 93% فقط، يصل الكشف على مستوى الموقع إلى 100%
  • أهمية استراتيجية التصفية: تقلل بشكل كبير من تأثير الضوضاء على أداء الكشف

الأعمال ذات الصلة

مجال كشف النصوص

  • يركز العمل الموجود بشكل أساسي على الكشف على مستوى مقاطع النصوص
  • تظهر كاشفات مثل Binoculars أداء جيدة تحت هجمات متعددة
  • لكن الدقة غير كافية في بيئة الويب الحقيقية

تحليل محتوى الويب

  • نقص الطرق المصممة خصيصاً لخصائص محتوى صفحات الويب
  • لم تأخذ الطرق الموجودة في الاعتبار تنوع الويب والضوضاء

كشف محتوى الذكاء الاصطناعي المولد

  • يركز بشكل أساسي على مجال النصوص
  • نقص الدراسات حول تأثير بيئة الويب بأكملها

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

  1. يؤدي خط أنابيب الكشف التجميعي المقترح بشكل ممتاز في كشف محتوى نموذج اللغة الكبيرة على مستوى الموقع
  2. تنمو مواقع الويب التي يهيمن عليها نموذج اللغة الكبيرة بسرعة على الويب، خاصة في نتائج البحث
  3. محركات البحث الموجودة غير قادرة على التعرف بفعالية على محتوى نموذج اللغة الكبيرة وخفض ترتيبه
  4. تواجه بيئة الويب تأثيراً كبيراً من محتوى الذكاء الاصطناعي المولد

القيود

  1. مشكلة الإيجابيات الخاطئة: لا تزال هناك معدل إيجابيات خاطئة بنسبة 1.22%
  2. الحدود الغامضة: تحتوي بعض المواقع على محتوى مختلط، مما يصعب التصنيف الدقيق
  3. حجم مجموعة البيانات: مجموعة البيانات الأساسية نسبياً صغيرة (120 موقع ويب)
  4. اعتماد الكاشف: تتأثر الأداء بجودة كاشف النصوص الأساسي

الاتجاهات المستقبلية

  1. دراسة دوافع وطرق منتجي محتوى نموذج اللغة الكبيرة
  2. التوسع إلى كشف صور الذكاء الاصطناعي والمحتوى الآخر المولد بالذكاء الاصطناعي
  3. تحديد كمي لتأثير محتوى الذكاء الاصطناعي المولد على بيئة الويب
  4. تحسين طرق الكشف للتعامل مع مواقع المحتوى المختلط

التقييم المتعمق

المزايا

  1. موجهة نحو المشاكل العملية: تحل مشكلة مهمة في بيئة الويب الحالية
  2. ابتكار الطريقة: ترقية من الكشف على مستوى الصفحة إلى الكشف على مستوى الموقع
  3. صرامة التجربة: التحقق عبر مجموعات البيانات يضمن قابلية التعميم
  4. التحقق على نطاق واسع: الاختبار على 20,000 موقع ويب حقيقي مقنع
  5. اكتشافات مهمة: كشف اتجاهات النمو لمحتوى نموذج اللغة الكبيرة على الويب

أوجه القصور

  1. قيود مجموعة البيانات الأساسية: 120 موقع ويب فقط، قد لا تكون ممثلة بشكل كافٍ
  2. اختيار الكاشف: الاعتماد المفرط على أداء Binoculars
  3. معالجة الحدود: استراتيجية غير كافية للتعامل مع مواقع المحتوى المختلط
  4. التكيف الديناميكي: لم تأخذ في الاعتبار تأثير التطور السريع لتكنولوجيا نموذج اللغة الكبيرة على الكشف

التأثير

  1. المساهمة الأكاديمية: أول دراسة منهجية لكشف محتوى نموذج اللغة الكبيرة على مستوى الموقع
  2. القيمة العملية: توفير أداة فعالة لمحركات البحث ومنصات المحتوى
  3. الأهمية الاجتماعية: المساعدة في الحفاظ على جودة محتوى الويب وتجربة المستخدم
  4. قابلية الاستنساخ: وصف الطريقة واضح وسهل الاستنساخ والتحسين

السيناريوهات القابلة للتطبيق

  1. تحسين محرك البحث: تحديد وخفض ترتيب محتوى منخفض الجودة المولد بالذكاء الاصطناعي
  2. تنظيم منصة المحتوى: كشف واسع النطاق لمحتوى الذكاء الاصطناعي المولد على المنصات
  3. البحث الأكاديمي: تحليل تأثير الذكاء الاصطناعي على بيئة الويب
  4. الامتثال التنظيمي: المساعدة في تنفيذ متطلبات الكشف عن محتوى الذكاء الاصطناعي

المراجع

  1. Barbaresi, A. (2021). Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction. In ACL.
  2. Dugan, L. et al. (2024). RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors. In ACL.
  3. Hans, A. et al. (2024). Spotting llms with binoculars: Zero-shot detection of machine-generated text. In ICML.

تتمتع هذه الورقة البحثية بأهمية كبيرة في مجال كشف محتوى الذكاء الاصطناعي المولد، حيث لا توفر فقط حلاً تقنياً فعالاً، بل تكشف أيضاً من خلال دراسة تجريبية واسعة النطاق عن التحديات التي تواجه بيئة الويب الحالية. توفر استراتيجية الكشف التجميعي وطريقة التحليل على مستوى الموقع أفكاراً قيمة للبحث اللاحق.