2025-11-12T22:19:11.052121

Preprint: Poster: Did I Just Browse A Website Written by LLMs?

He, Govindan, Madhyastha
Increasingly, web content is automatically generated by large language models (LLMs) with little human input. We call this "LLM-dominant" content. Since LLMs plagiarize and hallucinate, LLM-dominant content can be unreliable and unethical. Yet, websites rarely disclose such content, and human readers struggle to distinguish it. Thus, we must develop reliable detectors for LLM-dominant content. However, state-of-the-art LLM detectors are inaccurate on web content, because web content has low positive rates, complex markup, and diverse genres, instead of clean, prose-like benchmark data SoTA detectors are optimized for. We propose a highly reliable, scalable pipeline that classifies entire websites. Instead of naively classifying text extracted from each page, we classify each site based on an LLM text detector's outputs of multiple prose-like pages to boost accuracies. We train and evaluate our detector by collecting 2 distinct ground truth datasets totaling 120 sites, and obtain 100% accuracies testing across them. In the wild, we detect a sizable portion of sites as LLM-dominant among 10k sites in search engine results and 10k in Common Crawl archives. We find LLM-dominant sites are growing in prevalence and rank highly in search results, raising questions about their impact on end users and the overall Web ecosystem.
academic

Preprint: Poster: Ho Appena Consultato un Sito Web Scritto da LLM?

Informazioni Fondamentali

  • ID Articolo: 2507.13933
  • Titolo: Poster: Did I Just Browse A Website Written by LLMs?
  • Autori: Sichang Steven He, Ramesh Govindan, Harsha V. Madhyastha (University of Southern California)
  • Classificazione: cs.NI cs.AI cs.CL cs.IR
  • Data di Pubblicazione/Conferenza: IMC '25 (2025 ACM Internet Measurement Conference), 28–31 ottobre 2025, Madison, WI, USA
  • Link Articolo: https://doi.org/10.1145/3730567.3768603

Riassunto

Con l'ascesa dei modelli linguistici di grandi dimensioni (LLM), una quantità crescente di contenuti web viene generata automaticamente dagli LLM con minimo intervento umano. Gli autori definiscono tale contenuto come "dominato da LLM". Poiché gli LLM presentano problemi di plagio e allucinazione, i contenuti dominati da LLM possono essere inaffidabili e non etici. Tuttavia, i siti web raramente divulgano tali contenuti e i lettori umani hanno difficoltà a distinguerli. Pertanto, è necessario sviluppare rilevatori affidabili di contenuti dominati da LLM. I rilevatori LLM all'avanguardia attuali mostrano prestazioni scadenti sui contenuti web, poiché questi ultimi presentano bassi tassi di campioni positivi, etichettatura complessa e tipi diversificati, a differenza dei benchmark di prosa pulita su cui sono ottimizzati i rilevatori esistenti.

Questo articolo propone una pipeline altamente affidabile e scalabile per classificare interi siti web. Anziché classificare semplicemente il testo estratto da ogni pagina, il metodo classifica ogni sito in base agli output di un rilevatore di testo LLM su più pagine di prosa, al fine di migliorare l'accuratezza. Raccogliendo due diversi dataset reali distinti (complessivamente 120 siti) per l'addestramento e la valutazione, si è ottenuta un'accuratezza del 100% nei test tra dataset. In applicazioni pratiche, sono stati rilevati una proporzione considerevole di siti dominati da LLM in 10.000 siti ciascuno nei risultati dei motori di ricerca e nell'archivio Common Crawl, scoprendo che la prevalenza di questi siti è in crescita e si posizionano più in alto nei risultati di ricerca.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Come rilevare in modo affidabile i contenuti dei siti web "dominati da LLM" generati da modelli linguistici di grandi dimensioni
  2. Importanza del Problema:
    • I contenuti generati da LLM presentano problemi di plagio e allucinazione che possono fuorviare gli utenti
    • L'AI Act dell'Unione Europea richiede la divulgazione dell'uso dell'IA, ma i siti web raramente si conformano
    • Gli umani hanno difficoltà a distinguere i contenuti generati da LLM

Limitazioni dei Metodi Esistenti

Gli autori identificano tre sfide critiche:

  1. Imprecisione dei Rilevatori di Testo: I rilevatori all'avanguardia attuali mostrano prestazioni scadenti in scenari reali con requisiti di bassi falsi positivi
  2. Rumore nei Contenuti Web: I rilevatori sono progettati per prosa pulita e mostrano prestazioni scadenti su tipi diversificati di web (come elenchi di link, dichiarazioni sulla privacy)
  3. Mancanza di Etichette Reali: Esistono molti dataset di benchmark per il rilevamento a livello di frammento di testo, ma mancano dataset a livello di pagina web

Motivazione della Ricerca

  • I servizi di IA consentono a chiunque di generare contenuti web in massa a basso costo
  • Gli utenti hanno già iniziato a lamentarsi di articoli dominati da LLM visti online
  • È necessario sviluppare metodi di rilevamento affidabili per proteggere l'esperienza utente e l'ecosistema web

Contributi Fondamentali

  1. Propone una Pipeline di Rilevamento dei Contenuti LLM a Livello di Sito Web: Migliora l'accuratezza aggregando i risultati di rilevamento di più pagine
  2. Costruisce Due Dataset Reali da Fonti Diverse: Complessivamente 120 siti web per l'addestramento e la valutazione
  3. Realizza un'Accuratezza del 100% nei Test tra Dataset: Prestazioni eccellenti in test rigorosi fuori distribuzione
  4. Fornisce uno Studio Empirico su Larga Scala: Analizza 20.000 siti web reali, rivelando le tendenze di crescita dei siti dominati da LLM
  5. Scopre Importanti Intuizioni sull'Ecosistema Web: I siti dominati da LLM si posizionano più in alto nei risultati di ricerca e la loro prevalenza è in costante crescita

Spiegazione Dettagliata del Metodo

Definizione del Compito

  • Input: URL del sito web
  • Output: Risultato di classificazione binaria (dominato da LLM vs dominato da umani)
  • Vincoli: Il sito web deve avere almeno 15 pagine filtrabili

Architettura del Modello

1. Acquisizione del Testo (Text Acquisition)

  • Campionamento casuale di pagine dalla mappa del sito o dall'indice dei contenuti di Wayback Machine
  • Accesso e rendering delle pagine HTML utilizzando Chromium
  • Estrazione del contenuto di testo principale utilizzando la libreria Trafilatura

2. Scoring e Filtraggio (Scoring and Filtering)

  • Utilizzo del rilevatore Binoculars per il rilevamento del testo LLM
  • Applicazione di rigide regole di filtraggio:
    • Filtraggio del testo breve
    • Filtraggio dei contenuti con alta proporzione di elenchi, tabelle e link
    • Filtraggio del testo duplicato all'interno del sito
  • Garantisce che la maggior parte del testo filtrato sia in forma di prosa

3. Analisi Aggregata (Aggregate Analysis)

  • Campionamento di 15-20 pagine per ogni sito web
  • Calcolo del punteggio Binoculars per ogni pagina
  • Utilizzo dei 9 decili del punteggio come vettore di caratteristiche
  • Addestramento di una macchina a vettori di supporto lineare (SVM) per la classificazione del sito web

Punti di Innovazione Tecnica

  1. Strategia di Aggregazione: Non si basa sulla classificazione di singole pagine, ma analizza la distribuzione dei punteggi di più pagine per aumentare la robustezza
  2. Filtraggio Intelligente: Strategie di filtraggio specializzate progettate per la diversità dei contenuti web
  3. Caratteristiche di Distribuzione: Utilizza i decili per catturare le caratteristiche di distribuzione dei punteggi di contenuto del sito web
  4. Rilevamento a Livello di Sito Web: Eleva il rilevamento dal livello di pagina al livello di sito web, più conforme alle esigenze di applicazione pratica

Configurazione Sperimentale

Dataset

Dataset di Base (120 siti web, 2.630 pagine filtrate)

  1. Dataset Aziendale:
    • 30 siti web aziendali dominati da umani (dall'indice azionario Russell 2000)
    • 30 siti web corrispondenti generati da LLM (utilizzando il costruttore di siti web AI di Wix.com)
  2. Dataset Personale:
    • 30 siti web personali (dai Blog IndieWeb)
    • 30 siti web corrispondenti generati da LLM (utilizzando B12.io)

Dataset in Natura

  1. Risultati dei Motori di Ricerca: 17.036 siti web (infine 10.232 siti web validi)
  2. Common Crawl: 10.479 siti web casuali (2020-2025)

Metriche di Valutazione

  • Accuratezza (Accuracy)
  • Tasso di Falsi Positivi (False Positive Rate, FPR)
  • Prestazioni di generalizzazione fuori distribuzione

Metodi di Confronto

  • Rilevatore Binoculars (a livello di pagina)
  • Test comparativi con altri 11 rilevatori di testo

Dettagli di Implementazione

  • Utilizzo di Binoculars come rilevatore di base
  • SVM lineare per la classificazione finale
  • Campionamento di 15-20 pagine per ogni sito web
  • Utilizzo di 9 decili come caratteristiche

Risultati Sperimentali

Risultati Principali

Prestazioni del Dataset di Base

  • Accuratezza tra Dataset: 100% (addestramento su Dataset Aziendale → test su Dataset Personale, e viceversa)
  • Accuratezza a Livello di Pagina di Binoculars: Massimo 93%
  • Accuratezza a Livello di Sito Web di SVM: 100% (separazione completa tra siti dominati da LLM e da umani)

Risultati di Rilevamento in Natura

  1. Risultati dei Motori di Ricerca:
    • Rilevati 1.019 siti dominati da LLM (9,96%)
    • I siti LLM non mostrano significativi svantaggi nel ranking di ricerca
    • Scoperto il fenomeno dei confini sfumati (siti con contenuti parzialmente generati da LLM)
  2. Analisi di Common Crawl:
    • Tasso di rilevamento complessivo: 4,30% (451/10.479)
    • Siti web dopo il lancio di ChatGPT: 7,25% (358/4.938)
    • Nuovi siti web 2024-2025: 10,08% (77/764)
    • Tasso di falsi positivi: 1,22% (16/1.315, siti web precedenti a ChatGPT)

Scoperte Importanti

  1. Tendenza di Crescita: La proporzione di siti dominati da LLM cresce significativamente nel tempo
  2. Bias di Ricerca: La proporzione di siti LLM nei risultati dei motori di ricerca è molto più elevata rispetto al campionamento casuale
  3. Impatto sul Ranking: I motori di ricerca non puniscono efficacemente i contenuti dominati da LLM
  4. Caratteristiche dei Contenuti: I siti LLM sono tipicamente blog generici con numerosi annunci pubblicitari e informazioni di autore false

Esperimenti di Ablazione

  • Efficacia dell'analisi aggregata: Anche quando l'accuratezza del rilevatore a singola pagina è solo del 93%, il rilevamento a livello di sito web raggiunge il 100%
  • Importanza della strategia di filtraggio: Riduce significativamente l'impatto del rumore sulle prestazioni di rilevamento

Lavori Correlati

Campo del Rilevamento del Testo

  • I lavori esistenti si concentrano principalmente sul rilevamento a livello di frammento di testo
  • Rilevatori come Binoculars mostrano buone prestazioni sotto vari attacchi
  • Tuttavia, l'accuratezza è insufficiente in ambienti web reali

Analisi dei Contenuti Web

  • Mancanza di metodi di rilevamento adattati alle caratteristiche dei contenuti delle pagine web
  • I metodi esistenti non considerano la diversità e il rumore dei contenuti web

Rilevamento dei Contenuti Generati da IA

  • Principalmente concentrato nel dominio del testo
  • Mancanza di ricerca sull'impatto dell'ecosistema dell'intero sito web

Conclusioni e Discussione

Conclusioni Principali

  1. La pipeline di rilevamento aggregato proposta mostra prestazioni eccellenti nel rilevamento dei contenuti LLM a livello di sito web
  2. I siti dominati da LLM stanno crescendo rapidamente sul web, in particolare nei risultati di ricerca
  3. I motori di ricerca esistenti non riescono a identificare e ridurre efficacemente il ranking dei contenuti LLM
  4. L'ecosistema web sta affrontando un impatto significativo dei contenuti generati da IA

Limitazioni

  1. Problema dei Falsi Positivi: Persiste un tasso di falsi positivi dell'1,22%
  2. Confini Sfumati: Alcuni siti contengono contenuti misti, difficili da classificare accuratamente
  3. Dimensione del Dataset: Il dataset di base è relativamente piccolo (120 siti web)
  4. Dipendenza dal Rilevatore: Le prestazioni sono influenzate dalla qualità del rilevatore di testo sottostante

Direzioni Future

  1. Ricerca sulle motivazioni e i metodi dei generatori di contenuti LLM
  2. Estensione al rilevamento di immagini generate da IA e altri contenuti generati da IA
  3. Quantificazione dell'impatto dei contenuti generati da IA sull'ecosistema web
  4. Miglioramento dei metodi di rilevamento per gestire siti web con contenuti misti

Valutazione Approfondita

Punti di Forza

  1. Orientamento ai Problemi Pratici: Affronta un importante problema nell'ambiente web contemporaneo
  2. Innovazione Metodologica: Elevamento dal rilevamento a livello di pagina al rilevamento a livello di sito web mediante aggregazione
  3. Rigor Sperimentale: La validazione tra dataset garantisce la generalizzabilità del metodo
  4. Validazione su Larga Scala: I test su 20.000 siti web reali sono convincenti
  5. Scoperte Importanti: Rivela le tendenze di crescita dei contenuti LLM sul web

Carenze

  1. Limitazioni del Dataset di Base: Solo 120 siti web, potrebbe non essere sufficientemente rappresentativo
  2. Scelta del Rilevatore: Eccessiva dipendenza dalle prestazioni di Binoculars
  3. Gestione dei Confini: La strategia di gestione dei siti web con contenuti misti non è sufficientemente completa
  4. Adattabilità Dinamica: Non considera l'impatto del rapido sviluppo della tecnologia LLM sul rilevamento

Impatto

  1. Contributo Accademico: Primo studio sistematico del rilevamento dei contenuti LLM a livello di sito web
  2. Valore Pratico: Fornisce strumenti efficaci per i motori di ricerca e le piattaforme di contenuti
  3. Significato Sociale: Aiuta a mantenere la qualità dei contenuti web e l'esperienza dell'utente
  4. Riproducibilità: La descrizione del metodo è chiara e facile da riprodurre e migliorare

Scenari di Applicazione

  1. Ottimizzazione dei Motori di Ricerca: Identificazione e downgrade dei contenuti di bassa qualità generati da IA
  2. Regolamentazione delle Piattaforme di Contenuti: Rilevamento su larga scala dei contenuti generati da IA sulle piattaforme
  3. Ricerca Accademica: Analisi dell'impatto dell'IA sull'ecosistema web
  4. Conformità Normativa: Assistenza nell'applicazione dei requisiti di divulgazione dei contenuti IA

Riferimenti Bibliografici

  1. Barbaresi, A. (2021). Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction. In ACL.
  2. Dugan, L. et al. (2024). RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors. In ACL.
  3. Hans, A. et al. (2024). Spotting llms with binoculars: Zero-shot detection of machine-generated text. In ICML.

Questo articolo ha un'importanza significativa nel campo del rilevamento dei contenuti generati da IA, non solo proponendo una soluzione tecnica efficace, ma anche rivelando attraverso ricerca empirica su larga scala le sfide affrontate dall'attuale ecosistema web. La sua strategia di rilevamento aggregato e il metodo di analisi a livello di sito web forniscono prospettive preziose per la ricerca successiva.