2025-11-12T22:19:11.052121

Preprint: Poster: Did I Just Browse A Website Written by LLMs?

He, Govindan, Madhyastha
Increasingly, web content is automatically generated by large language models (LLMs) with little human input. We call this "LLM-dominant" content. Since LLMs plagiarize and hallucinate, LLM-dominant content can be unreliable and unethical. Yet, websites rarely disclose such content, and human readers struggle to distinguish it. Thus, we must develop reliable detectors for LLM-dominant content. However, state-of-the-art LLM detectors are inaccurate on web content, because web content has low positive rates, complex markup, and diverse genres, instead of clean, prose-like benchmark data SoTA detectors are optimized for. We propose a highly reliable, scalable pipeline that classifies entire websites. Instead of naively classifying text extracted from each page, we classify each site based on an LLM text detector's outputs of multiple prose-like pages to boost accuracies. We train and evaluate our detector by collecting 2 distinct ground truth datasets totaling 120 sites, and obtain 100% accuracies testing across them. In the wild, we detect a sizable portion of sites as LLM-dominant among 10k sites in search engine results and 10k in Common Crawl archives. We find LLM-dominant sites are growing in prevalence and rank highly in search results, raising questions about their impact on end users and the overall Web ecosystem.
academic

प्रीप्रिंट: पोस्टर: क्या मैंने अभी एक ऐसी वेबसाइट ब्राउज़ की है जो LLMs द्वारा लिखी गई है?

मूल जानकारी

  • पेपर ID: 2507.13933
  • शीर्षक: Poster: Did I Just Browse A Website Written by LLMs?
  • लेखक: Sichang Steven He, Ramesh Govindan, Harsha V. Madhyastha (यूनिवर्सिटी ऑफ़ साउदर्न कैलिफोर्निया)
  • वर्गीकरण: cs.NI cs.AI cs.CL cs.IR
  • प्रकाशन समय/सम्मेलन: IMC '25 (2025 ACM Internet Measurement Conference), 28–31 अक्टूबर, 2025, मैडिसन, WI, USA
  • पेपर लिंक: https://doi.org/10.1145/3730567.3768603

सारांश

बड़े भाषा मॉडल (LLMs) के उदय के साथ, अधिकांश वेब सामग्री LLMs द्वारा स्वचालित रूप से उत्पन्न की जा रही है, जिसमें न्यूनतम मानवीय इनपुट होता है। लेखकों ने ऐसी सामग्री को "LLM-प्रधान" सामग्री कहा है। LLMs में साहित्यिक चोरी और भ्रम की समस्याओं के कारण, LLM-प्रधान सामग्री अविश्वसनीय और अनैतिक हो सकती है। हालांकि, वेबसाइटें शायद ही कभी ऐसी सामग्री का खुलासा करती हैं, और मानव पाठकों को भी अंतर करना मुश्किल होता है। इसलिए, विश्वसनीय LLM-प्रधान सामग्री डिटेक्टर विकसित करना आवश्यक है। मौजूदा अत्याधुनिक LLM डिटेक्टर वेब सामग्री पर खराब प्रदर्शन करते हैं, क्योंकि वेब सामग्री में कम सकारात्मक दर, जटिल लेबलिंग और विविध प्रकार होते हैं, न कि मौजूदा डिटेक्टर द्वारा अनुकूलित स्वच्छ गद्य बेंचमार्क डेटा।

यह पेपर पूरी वेबसाइट को वर्गीकृत करने के लिए एक अत्यधिक विश्वसनीय, स्केलेबल पाइपलाइन प्रस्तावित करता है। यह विधि प्रत्येक पृष्ठ से निकाली गई सामग्री को सरलता से वर्गीकृत करने के बजाय, कई गद्य पृष्ठों पर LLM पाठ डिटेक्टर के आउटपुट के आधार पर प्रत्येक साइट को वर्गीकृत करती है, जिससे सटीकता में सुधार होता है। दो अलग-अलग वास्तविक डेटासेट (कुल 120 साइटें) एकत्र करके प्रशिक्षण और मूल्यांकन के माध्यम से, क्रॉस-डेटासेट परीक्षण में 100% सटीकता प्राप्त की गई है। व्यावहारिक अनुप्रयोग में, खोज इंजन परिणामों और Common Crawl संग्रह में प्रत्येक 10,000 साइटों में LLM-प्रधान साइटों का एक महत्वपूर्ण अनुपात पाया गया, जिससे पता चलता है कि इन साइटों की लोकप्रियता बढ़ रही है और खोज परिणामों में उच्च रैंकिंग है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. मुख्य समस्या: वेब पर बड़े भाषा मॉडल द्वारा उत्पन्न "LLM-प्रधान" वेबसाइट सामग्री को कैसे विश्वसनीय रूप से पहचाना जाए
  2. समस्या की महत्ता:
    • LLM-उत्पन्न सामग्री में साहित्यिक चोरी और भ्रम की समस्याएं हैं, जो उपयोगकर्ताओं को गुमराह कर सकती हैं
    • यूरोपीय संघ का AI अधिनियम AI उपयोग का खुलासा करने की आवश्यकता है, लेकिन वेबसाइटें शायद ही कभी इसका पालन करती हैं
    • मनुष्य LLM-उत्पन्न सामग्री को अलग करना मुश्किल पाते हैं

मौजूदा विधियों की सीमाएं

लेखकों ने तीन मुख्य चुनौतियों की पहचान की है:

  1. पाठ डिटेक्टर की अशुद्धि: मौजूदा अत्याधुनिक डिटेक्टर कम झूठी सकारात्मक दर की आवश्यकता वाली वास्तविक दुनिया की सेटिंग में खराब प्रदर्शन करते हैं
  2. वेब सामग्री शोर: डिटेक्टर स्वच्छ गद्य के लिए डिज़ाइन किए गए हैं, वेब के विविध प्रकारों (जैसे लिंक सूचियां, गोपनीयता विवरण) पर खराब प्रदर्शन करते हैं
  3. वास्तविक लेबल की कमी: पाठ खंड डिटेक्शन के लिए कई बेंचमार्क डेटासेट हैं, लेकिन वेब पृष्ठ स्तर के डेटासेट की कमी है

अनुसंधान प्रेरणा

  • AI सेवाएं किसी को भी सस्ते में बड़े पैमाने पर वेब सामग्री उत्पन्न करने में सक्षम बनाती हैं
  • उपयोगकर्ताओं ने ऑनलाइन LLM-प्रधान लेख देखने की शिकायत करना शुरू कर दिया है
  • उपयोगकर्ता अनुभव और वेब पारिस्थितिकी तंत्र की रक्षा के लिए विश्वसनीय डिटेक्शन विधि विकसित करने की आवश्यकता है

मुख्य योगदान

  1. वेबसाइट स्तर पर LLM सामग्री डिटेक्शन पाइपलाइन प्रस्तावित की: कई पृष्ठों के डिटेक्शन परिणामों को एकत्रित करके सटीकता में सुधार
  2. विभिन्न स्रोतों से दो वास्तविक डेटासेट का निर्माण: प्रशिक्षण और मूल्यांकन के लिए कुल 120 वेबसाइटें
  3. 100% क्रॉस-डेटासेट सटीकता प्राप्त की: कठोर वितरण-बाहर परीक्षण में उत्कृष्ट प्रदर्शन
  4. बड़े पैमाने पर अनुभवजन्य अध्ययन प्रदान किया: 20,000 वास्तविक वेबसाइटों का विश्लेषण, LLM-प्रधान वेबसाइटों के विकास प्रवृत्ति का खुलासा
  5. महत्वपूर्ण वेब पारिस्थितिकी तंत्र अंतर्दृष्टि की खोज की: LLM-प्रधान वेबसाइटें खोज परिणामों में उच्च रैंकिंग और बढ़ती लोकप्रियता

विधि विवरण

कार्य परिभाषा

  • इनपुट: वेबसाइट URL
  • आउटपुट: द्विआधारी वर्गीकरण परिणाम (LLM-प्रधान बनाम मानव-प्रधान)
  • बाधा: वेबसाइट के पास कम से कम 15 फ़िल्टर योग्य पृष्ठ होने चाहिए

मॉडल आर्किटेक्चर

1. पाठ अधिग्रहण (Text Acquisition)

  • साइटमैप या Wayback Machine सामग्री सूचकांक से पृष्ठों का यादृच्छिक नमूना
  • HTML पृष्ठों को एक्सेस और रेंडर करने के लिए Chromium का उपयोग
  • मुख्य पाठ सामग्री निकालने के लिए Trafilatura लाइब्रेरी का उपयोग

2. स्कोरिंग और फ़िल्टरिंग (Scoring and Filtering)

  • LLM पाठ डिटेक्शन के लिए Binoculars डिटेक्टर का उपयोग
  • कठोर फ़िल्टरिंग नियम लागू करें:
    • छोटे पाठ को फ़िल्टर करें
    • सूचियों, तालिकाओं, उच्च लिंक अनुपात वाली सामग्री को फ़िल्टर करें
    • साइट-व्यापी डुप्लिकेट पाठ को फ़िल्टर करें
  • सुनिश्चित करें कि अधिकांश फ़िल्टर की गई सामग्री गद्य रूप में है

3. एकत्रीकरण विश्लेषण (Aggregate Analysis)

  • प्रत्येक वेबसाइट के लिए 15-20 पृष्ठों का नमूना
  • प्रत्येक पृष्ठ के लिए Binoculars स्कोर की गणना करें
  • स्कोर के 9 दशमलव के रूप में फीचर वेक्टर का उपयोग करें
  • वेबसाइट वर्गीकरण के लिए रैखिक समर्थन वेक्टर मशीन (SVM) को प्रशिक्षित करें

तकनीकी नवाचार बिंदु

  1. एकत्रीकरण रणनीति: एकल पृष्ठ के वर्गीकरण परिणामों पर निर्भर नहीं, बल्कि कई पृष्ठों के स्कोर वितरण का विश्लेषण करके मजबूतता में सुधार
  2. बुद्धिमान फ़िल्टरिंग: वेब सामग्री की विविधता के लिए विशेष फ़िल्टरिंग रणनीति डिज़ाइन की गई
  3. वितरण विशेषताएं: वेबसाइट सामग्री स्कोर वितरण की विशेषताओं को कैप्चर करने के लिए दशमलव का उपयोग
  4. वेबसाइट स्तर डिटेक्शन: पृष्ठ-स्तर डिटेक्शन से वेबसाइट-स्तर डिटेक्शन में उन्नयन, वास्तविक अनुप्रयोग आवश्यकताओं के अनुरूप

प्रयोगात्मक सेटअप

डेटासेट

बेसलाइन डेटासेट (120 वेबसाइटें, 2,630 फ़िल्टर किए गए पृष्ठ)

  1. कंपनी डेटासेट:
    • 30 मानव-प्रधान कंपनी वेबसाइटें (Russell 2000 स्टॉक इंडेक्स से)
    • 30 संबंधित LLM-उत्पन्न वेबसाइटें (Wix.com के AI वेबसाइट बिल्डर का उपयोग करके)
  2. व्यक्तिगत डेटासेट:
    • 30 व्यक्तिगत वेबसाइटें (IndieWeb Blogs से)
    • 30 संबंधित LLM-उत्पन्न वेबसाइटें (B12.io का उपयोग करके)

वाइल्ड डेटासेट

  1. खोज इंजन परिणाम: 17,036 वेबसाइटें (अंतिम 10,232 वैध वेबसाइटें)
  2. Common Crawl: 10,479 यादृच्छिक वेबसाइटें (2020-2025)

मूल्यांकन मेट्रिक्स

  • सटीकता (Accuracy)
  • झूठी सकारात्मक दर (False Positive Rate, FPR)
  • वितरण-बाहर सामान्यीकरण प्रदर्शन

तुलनात्मक विधियां

  • Binoculars डिटेक्टर (पृष्ठ-स्तर)
  • अन्य 11 पाठ डिटेक्टरों की तुलनात्मक परीक्षा

कार्यान्वयन विवरण

  • आधार डिटेक्टर के रूप में Binoculars का उपयोग
  • अंतिम वर्गीकरण के लिए रैखिक SVM
  • प्रत्येक वेबसाइट के लिए 15-20 पृष्ठों का नमूना
  • फीचर के रूप में 9 दशमलव का उपयोग

प्रयोगात्मक परिणाम

मुख्य परिणाम

बेसलाइन डेटासेट प्रदर्शन

  • क्रॉस-डेटासेट सटीकता: 100% (कंपनी प्रशिक्षण → व्यक्तिगत परीक्षा, और इसके विपरीत)
  • Binoculars पृष्ठ-स्तर सटीकता: अधिकतम 93%
  • SVM वेबसाइट-स्तर सटीकता: 100% (LLM और मानव वेबसाइटों को पूरी तरह से अलग करना)

वाइल्ड डिटेक्शन परिणाम

  1. खोज इंजन परिणाम:
    • 1,019 LLM-प्रधान वेबसाइटें पाई गईं (9.96%)
    • LLM वेबसाइटें खोज रैंकिंग में कोई महत्वपूर्ण नुकसान नहीं
    • अस्पष्ट सीमा घटना की खोज (आंशिक LLM सामग्री वाली वेबसाइटें)
  2. Common Crawl विश्लेषण:
    • कुल डिटेक्शन दर: 4.30% (451/10,479)
    • ChatGPT रिलीज के बाद की वेबसाइटें: 7.25% (358/4,938)
    • 2024-2025 की नई वेबसाइटें: 10.08% (77/764)
    • झूठी सकारात्मक दर: 1.22% (16/1,315, ChatGPT से पहले की वेबसाइटें)

महत्वपूर्ण निष्कर्ष

  1. विकास प्रवृत्ति: LLM-प्रधान वेबसाइटों का अनुपात समय के साथ महत्वपूर्ण रूप से बढ़ता है
  2. खोज पूर्वाग्रह: खोज इंजन परिणामों में LLM वेबसाइटों का अनुपात यादृच्छिक नमूने से बहुत अधिक है
  3. रैंकिंग प्रभाव: खोज इंजन LLM-प्रधान सामग्री को प्रभावी रूप से दंडित नहीं करते हैं
  4. सामग्री विशेषताएं: LLM वेबसाइटें आमतौर पर बड़ी मात्रा में विज्ञापनों वाली सामान्य ब्लॉग होती हैं, लेखक की जानकारी नकली होती है

विलोपन प्रयोग

  • एकत्रीकरण विश्लेषण की प्रभावशीलता: भले ही एकल पृष्ठ डिटेक्टर सटीकता केवल 93% हो, वेबसाइट-स्तर डिटेक्शन अभी भी 100% तक पहुंचता है
  • फ़िल्टरिंग रणनीति की महत्ता: डिटेक्शन प्रदर्शन पर शोर के प्रभाव को महत्वपूर्ण रूप से कम करता है

संबंधित कार्य

पाठ डिटेक्शन क्षेत्र

  • मौजूदा कार्य मुख्य रूप से पाठ खंड-स्तर डिटेक्शन पर केंद्रित है
  • Binoculars जैसे डिटेक्टर कई हमलों के तहत अच्छा प्रदर्शन करते हैं
  • लेकिन वास्तविक वेब वातावरण में सटीकता अपर्याप्त है

वेब सामग्री विश्लेषण

  • वेब सामग्री की विशेषताओं के लिए डिटेक्शन विधि की कमी
  • मौजूदा विधियां वेब सामग्री की विविधता और शोर पर विचार नहीं करती हैं

AI-उत्पन्न सामग्री डिटेक्शन

  • मुख्य रूप से पाठ क्षेत्र में केंद्रित
  • पूरे वेबसाइट पारिस्थितिकी तंत्र पर AI-उत्पन्न सामग्री के प्रभाव के अध्ययन की कमी

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रस्तावित एकत्रीकरण डिटेक्शन पाइपलाइन वेबसाइट-स्तर LLM सामग्री डिटेक्शन पर उत्कृष्ट प्रदर्शन करता है
  2. LLM-प्रधान वेबसाइटें वेब पर तेजी से बढ़ रही हैं, विशेष रूप से खोज परिणामों में
  3. मौजूदा खोज इंजन LLM सामग्री को प्रभावी रूप से पहचानने और रैंकिंग कम करने में विफल हैं
  4. वेब पारिस्थितिकी तंत्र AI-उत्पन्न सामग्री के महत्वपूर्ण प्रभाव का सामना कर रहा है

सीमाएं

  1. झूठी सकारात्मक समस्या: अभी भी 1.22% झूठी सकारात्मक दर मौजूद है
  2. सीमा अस्पष्टता: कुछ वेबसाइटों में मिश्रित सामग्री होती है, सटीक वर्गीकरण मुश्किल है
  3. डेटासेट आकार: बेसलाइन डेटासेट अपेक्षाकृत छोटा है (120 वेबसाइटें)
  4. डिटेक्टर निर्भरता: प्रदर्शन अंतर्निहित पाठ डिटेक्टर की गुणवत्ता से प्रभावित होता है

भविष्य की दिशा

  1. LLM सामग्री जनरेटर की प्रेरणा और विधियों का अध्ययन
  2. AI छवि और अन्य AI-उत्पन्न सामग्री डिटेक्शन तक विस्तार
  3. वेब पारिस्थितिकी तंत्र पर AI-उत्पन्न सामग्री के प्रभाव को मापना
  4. मिश्रित सामग्री वेबसाइटों को संभालने के लिए डिटेक्शन विधि में सुधार

गहन मूल्यांकन

शक्तियां

  1. व्यावहारिक समस्या-केंद्रित: वर्तमान वेब वातावरण में महत्वपूर्ण समस्या का समाधान
  2. विधि नवाचार: पृष्ठ-स्तर डिटेक्शन से वेबसाइट-स्तर डिटेक्शन में एकत्रीकरण विधि
  3. प्रयोग कठोरता: क्रॉस-डेटासेट सत्यापन विधि की सामान्यीकरण क्षमता सुनिश्चित करता है
  4. बड़े पैमाने पर सत्यापन: 20,000 वास्तविक वेबसाइटों पर परीक्षण प्रेरक है
  5. महत्वपूर्ण निष्कर्ष: वेब में LLM सामग्री के विकास प्रवृत्ति का खुलासा

कमियां

  1. बेसलाइन डेटासेट सीमा: केवल 120 वेबसाइटें, पर्याप्त प्रतिनिधि नहीं हो सकती हैं
  2. डिटेक्टर चयन: Binoculars के प्रदर्शन पर अत्यधिक निर्भरता
  3. सीमा प्रबंधन: मिश्रित सामग्री वेबसाइटों के लिए प्रबंधन रणनीति अधूरी है
  4. गतिशील अनुकूलन: LLM तकनीक के तेजी से विकास पर डिटेक्शन के प्रभाव पर विचार नहीं किया गया है

प्रभाव

  1. शैक्षणिक योगदान: वेबसाइट-स्तर LLM सामग्री डिटेक्शन का पहला व्यवस्थित अध्ययन
  2. व्यावहारिक मूल्य: खोज इंजन और सामग्री प्लेटफॉर्म के लिए प्रभावी उपकरण प्रदान करता है
  3. सामाजिक महत्व: वेब सामग्री गुणवत्ता और उपयोगकर्ता अनुभव बनाए रखने में सहायता
  4. पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, पुनरुत्पादन और सुधार में आसान

लागू परिदृश्य

  1. खोज इंजन अनुकूलन: कम गुणवत्ता वाली AI-उत्पन्न सामग्री की पहचान और डिग्रेडिंग
  2. सामग्री प्लेटफॉर्म निरीक्षण: प्लेटफॉर्म पर बड़े पैमाने पर AI-उत्पन्न सामग्री डिटेक्शन
  3. शैक्षणिक अनुसंधान: वेब पारिस्थितिकी तंत्र पर AI के प्रभाव का विश्लेषण
  4. नियामक अनुपालन: AI सामग्री प्रकटीकरण आवश्यकताओं को लागू करने में सहायता

संदर्भ

  1. Barbaresi, A. (2021). Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction. In ACL.
  2. Dugan, L. et al. (2024). RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors. In ACL.
  3. Hans, A. et al. (2024). Spotting llms with binoculars: Zero-shot detection of machine-generated text. In ICML.

यह पेपर AI-उत्पन्न सामग्री डिटेक्शन क्षेत्र में महत्वपूर्ण है, न केवल प्रभावी तकनीकी समाधान प्रस्तावित करता है, बल्कि बड़े पैमाने पर अनुभवजन्य अनुसंधान के माध्यम से वर्तमान वेब पारिस्थितिकी तंत्र द्वारा सामना की जाने वाली चुनौतियों का खुलासा करता है। इसकी एकत्रीकरण डिटेक्शन रणनीति और वेबसाइट-स्तर विश्लेषण विधि बाद के अनुसंधान के लिए मूल्यवान विचार प्रदान करती है।