2025-11-12T22:19:11.052121

Preprint: Poster: Did I Just Browse A Website Written by LLMs?

He, Govindan, Madhyastha
Increasingly, web content is automatically generated by large language models (LLMs) with little human input. We call this "LLM-dominant" content. Since LLMs plagiarize and hallucinate, LLM-dominant content can be unreliable and unethical. Yet, websites rarely disclose such content, and human readers struggle to distinguish it. Thus, we must develop reliable detectors for LLM-dominant content. However, state-of-the-art LLM detectors are inaccurate on web content, because web content has low positive rates, complex markup, and diverse genres, instead of clean, prose-like benchmark data SoTA detectors are optimized for. We propose a highly reliable, scalable pipeline that classifies entire websites. Instead of naively classifying text extracted from each page, we classify each site based on an LLM text detector's outputs of multiple prose-like pages to boost accuracies. We train and evaluate our detector by collecting 2 distinct ground truth datasets totaling 120 sites, and obtain 100% accuracies testing across them. In the wild, we detect a sizable portion of sites as LLM-dominant among 10k sites in search engine results and 10k in Common Crawl archives. We find LLM-dominant sites are growing in prevalence and rank highly in search results, raising questions about their impact on end users and the overall Web ecosystem.
academic

Prépublication : Affiche : Viens-je de consulter un site Web rédigé par des LLM ?

Informations de base

  • ID de l'article : 2507.13933
  • Titre : Poster: Did I Just Browse A Website Written by LLMs?
  • Auteurs : Sichang Steven He, Ramesh Govindan, Harsha V. Madhyastha (Université de Californie du Sud)
  • Classification : cs.NI cs.AI cs.CL cs.IR
  • Date de publication/Conférence : IMC '25 (Conférence de mesure Internet ACM 2025), 28-31 octobre 2025, Madison, WI, États-Unis
  • Lien de l'article : https://doi.org/10.1145/3730567.3768603

Résumé

Avec l'essor des grands modèles de langage (LLM), une quantité croissante de contenu Web est générée automatiquement par les LLM, avec peu ou pas d'intervention humaine. Les auteurs désignent ce type de contenu sous le terme « contenu dominé par les LLM ». En raison des problèmes de plagiat et d'hallucination inhérents aux LLM, le contenu dominé par les LLM peut être peu fiable et contraire à l'éthique. Cependant, les sites Web divulguent rarement ce type de contenu, et les lecteurs humains ont du mal à les distinguer. Par conséquent, il est impératif de développer des détecteurs fiables de contenu dominé par les LLM. Les détecteurs LLM de pointe existants fonctionnent mal sur le contenu Web en raison de son taux de cas positifs faible, de son étiquetage complexe et de sa diversité de types, contrairement aux ensembles de données de référence en prose propre sur lesquels les détecteurs existants sont optimisés.

Cet article propose un pipeline hautement fiable et évolutif pour classer des sites Web entiers. Au lieu de simplement classer le texte extrait de chaque page, la méthode classe chaque site en fonction des résultats du détecteur de texte LLM sur plusieurs pages en prose, afin d'améliorer la précision. En collectant deux ensembles de données réelles distinctes (120 sites au total) pour l'entraînement et l'évaluation, une précision de 100 % a été obtenue lors des tests inter-ensembles de données. En application pratique, une proportion considérable de sites dominés par les LJM a été détectée parmi 10 000 sites chacun dans les résultats des moteurs de recherche et les archives Common Crawl, révélant que la prévalence de ces sites augmente et qu'ils se classent bien dans les résultats de recherche.

Contexte de recherche et motivation

Définition du problème

  1. Problème central : Comment détecter de manière fiable le contenu de sites Web « dominés par les LLM » généré par de grands modèles de langage sur le Web
  2. Importance du problème :
    • Le contenu généré par les LJM présente des problèmes de plagiat et d'hallucination pouvant induire les utilisateurs en erreur
    • La loi sur l'IA de l'Union européenne exige la divulgation de l'utilisation de l'IA, mais les sites Web s'y conforment rarement
    • Les humains ont du mal à distinguer le contenu généré par les LJM

Limitations des méthodes existantes

Les auteurs identifient trois défis clés :

  1. Imprécision des détecteurs de texte : Les détecteurs de pointe existants fonctionnent mal dans les paramètres du monde réel exigeant des taux de faux positifs faibles
  2. Bruit du contenu Web : Les détecteurs sont conçus pour la prose propre et fonctionnent mal sur les types diversifiés du Web (comme les listes de liens, les déclarations de confidentialité)
  3. Absence d'étiquettes réelles : Il existe de nombreux ensembles de données de référence pour la détection au niveau des fragments de texte, mais il manque des ensembles de données au niveau des pages Web

Motivation de la recherche

  • Les services d'IA permettent à quiconque de générer du contenu Web en masse à faible coût
  • Les utilisateurs ont déjà commencé à se plaindre de voir des articles dominés par les LJM en ligne
  • Il est nécessaire de développer des méthodes de détection fiables pour protéger l'expérience utilisateur et l'écosystème Web

Contributions principales

  1. Proposition d'un pipeline de détection de contenu LJM au niveau du site Web : Amélioration de la précision par agrégation des résultats de détection de plusieurs pages
  2. Construction de deux ensembles de données réelles provenant de sources différentes : 120 sites Web au total pour l'entraînement et l'évaluation
  3. Réalisation d'une précision inter-ensembles de données de 100 % : Performance excellente dans les tests de distribution hors domaine rigoureux
  4. Fourniture d'une étude empirique à grande échelle : Analyse de 20 000 sites Web réels révélant les tendances de croissance des sites dominés par les LJM
  5. Découverte d'informations importantes sur l'écosystème Web : Les sites dominés par les LJM se classent bien dans les résultats de recherche et leur prévalence augmente continuellement

Explication détaillée de la méthode

Définition de la tâche

  • Entrée : URL du site Web
  • Sortie : Résultat de classification binaire (dominé par les LJM vs dominé par l'humain)
  • Contrainte : Le site Web doit avoir au moins 15 pages filtrables

Architecture du modèle

1. Acquisition de texte (Text Acquisition)

  • Échantillonnage aléatoire de pages à partir de sitemaps ou d'index de contenu Wayback Machine
  • Accès et rendu des pages HTML à l'aide de Chromium
  • Extraction du contenu textuel principal à l'aide de la bibliothèque Trafilatura

2. Notation et filtrage (Scoring and Filtering)

  • Utilisation du détecteur Binoculars pour la détection de texte LJM
  • Application de règles de filtrage strictes :
    • Filtrage des textes courts
    • Filtrage du contenu avec un ratio élevé de listes, tableaux et liens
    • Filtrage des textes en double au sein du site
  • Assurance que la plupart des textes filtrés sont de forme prose

3. Analyse d'agrégation (Aggregate Analysis)

  • Échantillonnage de 15-20 pages par site Web
  • Calcul du score Binoculars pour chaque page
  • Utilisation des 9 déciles du score comme vecteur de caractéristiques
  • Entraînement d'une machine à vecteurs de support (SVM) linéaire pour la classification des sites Web

Points d'innovation technique

  1. Stratégie d'agrégation : Ne repose pas sur les résultats de classification d'une seule page, mais améliore la robustesse en analysant la distribution des scores de plusieurs pages
  2. Filtrage intelligent : Stratégies de filtrage spécialisées conçues pour la diversité du contenu Web
  3. Caractéristiques de distribution : Utilisation des déciles pour capturer les caractéristiques de distribution des scores de contenu du site Web
  4. Détection au niveau du site Web : Élévation de la détection au niveau des pages à la détection au niveau du site Web, plus conforme aux besoins des applications pratiques

Configuration expérimentale

Ensembles de données

Ensemble de données de référence (120 sites Web, 2 630 pages filtrées)

  1. Ensemble de données Company :
    • 30 sites Web d'entreprises dominés par l'humain (issus de l'indice Russell 2000)
    • 30 sites Web correspondants générés par les LJM (utilisant le générateur de sites Web IA de Wix.com)
  2. Ensemble de données Personal :
    • 30 sites Web personnels (issus des blogs IndieWeb)
    • 30 sites Web correspondants générés par les LJM (utilisant B12.io)

Ensemble de données en environnement réel

  1. Résultats des moteurs de recherche : 17 036 sites Web (finalement 10 232 sites Web valides)
  2. Common Crawl : 10 479 sites Web aléatoires (2020-2025)

Métriques d'évaluation

  • Précision (Accuracy)
  • Taux de faux positifs (False Positive Rate, FPR)
  • Performance de généralisation hors distribution

Méthodes de comparaison

  • Détecteur Binoculars (niveau page)
  • Tests comparatifs avec 11 autres détecteurs de texte

Détails d'implémentation

  • Utilisation de Binoculars comme détecteur de base
  • SVM linéaire pour la classification finale
  • Échantillonnage de 15-20 pages par site Web
  • Utilisation de 9 déciles comme caractéristiques

Résultats expérimentaux

Résultats principaux

Performance sur l'ensemble de données de référence

  • Précision inter-ensembles de données : 100 % (Company entraîné → Personal testé, et vice versa)
  • Précision Binoculars au niveau page : Maximum 93 %
  • Précision SVM au niveau site Web : 100 % (séparation complète des sites LJM et humains)

Résultats de détection en environnement réel

  1. Résultats des moteurs de recherche :
    • 1 019 sites dominés par les LJM détectés (9,96 %)
    • Les sites LJM ne présentent pas de désavantage significatif dans le classement des recherches
    • Découverte du phénomène de frontière floue (sites avec contenu partiellement généré par les LJM)
  2. Analyse Common Crawl :
    • Taux de détection global : 4,30 % (451/10 479)
    • Sites après le lancement de ChatGPT : 7,25 % (358/4 938)
    • Nouveaux sites 2024-2025 : 10,08 % (77/764)
    • Taux de faux positifs : 1,22 % (16/1 315, sites avant ChatGPT)

Découvertes importantes

  1. Tendance de croissance : La proportion de sites dominés par les LJM augmente significativement au fil du temps
  2. Biais de recherche : La proportion de sites LJM dans les résultats des moteurs de recherche est bien supérieure à l'échantillonnage aléatoire
  3. Impact du classement : Les moteurs de recherche n'ont pas pénalisé efficacement le contenu dominé par les LJM
  4. Caractéristiques du contenu : Les sites LJM sont généralement des blogs génériques avec beaucoup de publicités et des informations d'auteur fausses

Expériences d'ablation

  • Efficacité de l'analyse d'agrégation : Même si la précision du détecteur de page unique n'est que de 93 %, la détection au niveau du site Web atteint toujours 100 %
  • Importance de la stratégie de filtrage : Réduction significative du bruit affectant la performance de détection

Travaux connexes

Domaine de la détection de texte

  • Les travaux existants se concentrent principalement sur la détection au niveau des fragments de texte
  • Les détecteurs comme Binoculars fonctionnent bien sous diverses attaques
  • Cependant, la précision est insuffisante dans les environnements Web réels

Analyse du contenu Web

  • Absence de méthodes de détection adaptées aux caractéristiques du contenu des pages Web
  • Les méthodes existantes ne tiennent pas compte de la diversité et du bruit du contenu Web

Détection de contenu généré par l'IA

  • Principalement concentré sur le domaine textuel
  • Absence de recherche sur l'impact sur l'écosystème Web entier

Conclusions et discussion

Conclusions principales

  1. Le pipeline de détection d'agrégation proposé fonctionne excellemment pour la détection de contenu LJM au niveau du site Web
  2. Les sites dominés par les LJM augmentent rapidement sur le Web, en particulier dans les résultats de recherche
  3. Les moteurs de recherche existants ne parviennent pas à identifier et à réduire efficacement le classement du contenu LJM
  4. L'écosystème Web est confronté à un impact significatif du contenu généré par l'IA

Limitations

  1. Problème de faux positifs : Un taux de faux positifs de 1,22 % persiste toujours
  2. Frontière floue : Certains sites contiennent du contenu mixte, difficile à classer avec précision
  3. Taille de l'ensemble de données : L'ensemble de données de référence est relativement petit (120 sites Web)
  4. Dépendance du détecteur : La performance est affectée par la qualité du détecteur de texte sous-jacent

Directions futures

  1. Étudier les motivations et les méthodes des générateurs de contenu LJM
  2. Étendre la détection aux images générées par l'IA et à d'autres contenus générés par l'IA
  3. Quantifier l'impact du contenu généré par l'IA sur l'écosystème Web
  4. Améliorer les méthodes de détection pour traiter les sites Web à contenu mixte

Évaluation approfondie

Avantages

  1. Orientation vers les problèmes pratiques : Résout un problème important dans l'environnement Web actuel
  2. Innovation méthodologique : Élévation de la détection au niveau des pages à la détection au niveau du site Web par agrégation
  3. Rigueur expérimentale : La validation inter-ensembles de données assure la généralisation de la méthode
  4. Validation à grande échelle : Les tests sur 20 000 sites Web réels sont convaincants
  5. Découvertes importantes : Révèle les tendances de croissance du contenu LJM sur le Web

Insuffisances

  1. Limitations de l'ensemble de données de référence : Seulement 120 sites Web, peut ne pas être suffisamment représentatif
  2. Sélection du détecteur : Dépendance excessive de la performance de Binoculars
  3. Traitement des frontières : Stratégie insuffisante pour traiter les sites Web à contenu mixte
  4. Adaptabilité dynamique : Ne tient pas compte de l'impact du développement rapide de la technologie LJM sur la détection

Impact

  1. Contribution académique : Première étude systématique de la détection de contenu LJM au niveau du site Web
  2. Valeur pratique : Fournit des outils efficaces aux moteurs de recherche et aux plateformes de contenu
  3. Signification sociale : Aide à maintenir la qualité du contenu Web et l'expérience utilisateur
  4. Reproductibilité : Description claire de la méthode, facile à reproduire et améliorer

Scénarios d'application

  1. Optimisation des moteurs de recherche : Identification et rétrogradation du contenu de faible qualité généré par l'IA
  2. Régulation des plateformes de contenu : Détection à grande échelle du contenu généré par l'IA sur les plateformes
  3. Recherche académique : Analyse de l'impact de l'IA sur l'écosystème Web
  4. Conformité réglementaire : Assistance à l'application des exigences de divulgation du contenu IA

Références

  1. Barbaresi, A. (2021). Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction. In ACL.
  2. Dugan, L. et al. (2024). RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors. In ACL.
  3. Hans, A. et al. (2024). Spotting llms with binoculars: Zero-shot detection of machine-generated text. In ICML.

Cet article revêt une importance significative dans le domaine de la détection de contenu généré par l'IA. Il propose non seulement une solution technique efficace, mais révèle également, par le biais d'une recherche empirique à grande échelle, les défis auxquels l'écosystème Web actuel est confronté. Sa stratégie de détection d'agrégation et sa méthode d'analyse au niveau du site Web offrent des perspectives précieuses pour les recherches ultérieures.