Increasingly, web content is automatically generated by large language models (LLMs) with little human input. We call this "LLM-dominant" content. Since LLMs plagiarize and hallucinate, LLM-dominant content can be unreliable and unethical. Yet, websites rarely disclose such content, and human readers struggle to distinguish it. Thus, we must develop reliable detectors for LLM-dominant content. However, state-of-the-art LLM detectors are inaccurate on web content, because web content has low positive rates, complex markup, and diverse genres, instead of clean, prose-like benchmark data SoTA detectors are optimized for.
We propose a highly reliable, scalable pipeline that classifies entire websites. Instead of naively classifying text extracted from each page, we classify each site based on an LLM text detector's outputs of multiple prose-like pages to boost accuracies. We train and evaluate our detector by collecting 2 distinct ground truth datasets totaling 120 sites, and obtain 100% accuracies testing across them. In the wild, we detect a sizable portion of sites as LLM-dominant among 10k sites in search engine results and 10k in Common Crawl archives. We find LLM-dominant sites are growing in prevalence and rank highly in search results, raising questions about their impact on end users and the overall Web ecosystem.
academic- Papier-ID: 2507.13933
- Titel: Poster: Did I Just Browse A Website Written by LLMs?
- Autoren: Sichang Steven He, Ramesh Govindan, Harsha V. Madhyastha (University of Southern California)
- Klassifizierung: cs.NI cs.AI cs.CL cs.IR
- Veröffentlichungszeit/Konferenz: IMC '25 (2025 ACM Internet Measurement Conference), 28.–31. Oktober 2025, Madison, WI, USA
- Papierlink: https://doi.org/10.1145/3730567.3768603
Mit dem Aufstieg großer Sprachmodelle (LLMs) wird zunehmend mehr Webinhalte von LLMs automatisch generiert, mit minimaler menschlicher Eingabe. Die Autoren bezeichnen solche Inhalte als „LLM-dominierte" Inhalte. Aufgrund von Plagiats- und Halluzinationsproblemen bei LLMs können LLM-dominierte Inhalte unzuverlässig und unethisch sein. Allerdings offenbaren Websites solche Inhalte selten, und menschliche Leser haben Schwierigkeiten, sie zu unterscheiden. Daher ist die Entwicklung zuverlässiger LLM-dominierter Inhaltsdetektoren notwendig. Bestehende hochmoderne LLM-Detektoren funktionieren bei Webinhalten schlecht, da diese eine niedrige positive Stichprobenquote, komplexe Markierungen und vielfältige Typen aufweisen, im Gegensatz zu den sauberen Prosa-Benchmark-Datensätzen, auf die bestehende Detektoren optimiert sind.
Dieses Papier schlägt eine hochzuverlässige, skalierbare Pipeline zur Klassifizierung ganzer Websites vor. Anstatt einfach Text zu klassifizieren, der von jeder Seite extrahiert wird, klassifiziert die Methode jede Website basierend auf den Ausgaben eines LLM-Text-Detektors über mehrere Prosa-Seiten, um die Genauigkeit zu verbessern. Durch die Erfassung von zwei verschiedenen realen Datensätzen (insgesamt 120 Websites) für Training und Bewertung wurde eine Genauigkeit von 100% beim Cross-Dataset-Test erreicht. In praktischen Anwendungen wurden beträchtliche Anteile von LLM-dominierten Websites sowohl in Suchmaschinenergebnissen als auch im Common Crawl-Archiv (jeweils 10.000 Websites) erkannt, wobei festgestellt wurde, dass die Verbreitung dieser Websites wächst und sie in Suchergebnissen hoch eingestuft werden.
- Kernproblem: Wie können von großen Sprachmodellen generierte „LLM-dominierte" Webinhalte zuverlässig erkannt werden?
- Problemrelevanz:
- Von LLMs generierte Inhalte weisen Plagiat- und Halluzinationsprobleme auf und können Benutzer irreführen
- Das EU-AI-Gesetz verlangt die Offenlegung der KI-Nutzung, aber Websites halten sich selten daran
- Menschen haben Schwierigkeiten, von LLMs generierte Inhalte zu unterscheiden
Die Autoren identifizieren drei Schlüsselherausforderungen:
- Ungenauigkeit von Textdetektoren: Bestehende hochmoderne Detektoren funktionieren in realen Szenarien mit Anforderungen niedriger Falsch-Positiv-Raten schlecht
- Rauschen in Webinhalten: Detektoren sind für saubere Prosa konzipiert und funktionieren schlecht bei vielfältigen Webtypen (wie Linklisten, Datenschutzerklärungen)
- Fehlende echte Beschriftungen: Es gibt viele Benchmark-Datensätze für die Erkennung auf Textfragment-Ebene, aber es fehlen Datensätze auf Webseitenebene
- KI-Dienste ermöglichen es jedem, kostengünstig Webinhalte in großem Maßstab zu generieren
- Benutzer haben bereits begonnen, sich über LLM-dominierte Artikel online zu beschweren
- Es ist notwendig, zuverlässige Erkennungsmethoden zu entwickeln, um die Benutzererfahrung und das Web-Ökosystem zu schützen
- Vorschlag einer Website-Ebenen-LLM-Inhaltserkennungs-Pipeline: Verbesserung der Genauigkeit durch Aggregation von Erkennungsergebnissen mehrerer Seiten
- Konstruktion von zwei echten Datensätzen aus verschiedenen Quellen: Insgesamt 120 Websites für Training und Bewertung
- Erreichung von 100% Cross-Dataset-Genauigkeit: Ausgezeichnete Leistung bei strengem verteilungsabweichendem Test
- Bereitstellung einer großflächigen empirischen Studie: Analyse von 20.000 echten Websites zur Offenlegung von Wachstumstrends bei LLM-dominierten Websites
- Entdeckung wichtiger Web-Ökosystem-Erkenntnisse: LLM-dominierte Websites werden in Suchergebnissen höher eingestuft und ihre Verbreitung nimmt ständig zu
- Eingabe: Website-URL
- Ausgabe: Binäres Klassifizierungsergebnis (LLM-dominiert vs. menschlich-dominiert)
- Einschränkung: Website muss mindestens 15 filterbare Seiten haben
- Zufallsstichprobe von Seiten aus Sitemaps oder Wayback Machine-Inhaltsindizes
- Zugriff auf und Rendering von HTML-Seiten mit Chromium
- Extraktion von Haupttextinhalten mit der Trafilatura-Bibliothek
- Verwendung des Binoculars-Detektors zur LLM-Texterkennung
- Anwendung strenger Filterregeln:
- Filterung kurzer Texte
- Filterung von Inhalten mit hohem Anteil an Listen, Tabellen und Links
- Filterung von wiederholten Inhalten auf der Website
- Sicherstellung, dass der größte Teil des gefilterten Textes in Prosaform vorliegt
- Stichprobenentnahme von 15–20 Seiten pro Website
- Berechnung des Binoculars-Scores für jede Seite
- Verwendung von 9 Dezilen des Scores als Merkmalvektor
- Training einer linearen Support Vector Machine (SVM) zur Website-Klassifizierung
- Aggregationsstrategie: Verlässt sich nicht auf Klassifizierungsergebnisse einzelner Seiten, sondern verbessert die Robustheit durch Analyse der Verteilung von Scores mehrerer Seiten
- Intelligente Filterung: Speziell für die Vielfalt von Webinhalten konzipierte Filterstrategien
- Verteilungsmerkmale: Verwendung von Dezilen zur Erfassung von Verteilungsmerkmalen der Website-Inhalts-Scores
- Website-Ebenen-Erkennung: Aufstieg von der Seiten-Ebenen-Erkennung zur Website-Ebenen-Erkennung, besser geeignet für praktische Anwendungen
- Company-Datensatz:
- 30 menschlich-dominierte Unternehmenswebsites (aus dem Russell 2000 Aktienindex)
- 30 entsprechende LLM-generierte Websites (mit Wix.com AI Website Builder)
- Personal-Datensatz:
- 30 persönliche Websites (aus IndieWeb Blogs)
- 30 entsprechende LLM-generierte Websites (mit B12.io)
- Suchmaschinenergebnisse: 17.036 Websites (letztendlich 10.232 gültige Websites)
- Common Crawl: 10.479 zufällige Websites (2020–2025)
- Genauigkeit (Accuracy)
- Falsch-Positiv-Rate (False Positive Rate, FPR)
- Verallgemeinerungsleistung außerhalb der Verteilung
- Binoculars-Detektor (Seiten-Ebene)
- Vergleichstests mit 11 anderen Textdetektoren
- Verwendung von Binoculars als Basis-Detektor
- Lineare SVM für endgültige Klassifizierung
- Stichprobenentnahme von 15–20 Seiten pro Website
- Verwendung von 9 Dezilen als Merkmale
- Cross-Dataset-Genauigkeit: 100% (Company-Training → Personal-Test und umgekehrt)
- Binoculars-Seiten-Ebenen-Genauigkeit: Maximal 93%
- SVM-Website-Ebenen-Genauigkeit: 100% (vollständige Trennung von LLM- und menschlichen Websites)
- Suchmaschinenergebnisse:
- 1.019 LLM-dominierte Websites erkannt (9,96%)
- LLM-Websites haben keinen signifikanten Nachteil in Suchrangfolgen
- Entdeckung von verschwommenen Grenzen-Phänomenen (Websites mit teilweise LLM-Inhalten)
- Common Crawl-Analyse:
- Gesamterkennungsrate: 4,30% (451/10.479)
- Websites nach ChatGPT-Veröffentlichung: 7,25% (358/4.938)
- Neue Websites 2024–2025: 10,08% (77/764)
- Falsch-Positiv-Rate: 1,22% (16/1.315, Websites vor ChatGPT)
- Wachstumstrend: Der Anteil LLM-dominierter Websites nimmt mit der Zeit erheblich zu
- Suchverzerrung: Der Anteil von LLM-Websites in Suchmaschinenergebnissen ist viel höher als bei zufälligen Stichproben
- Ranking-Auswirkung: Suchmaschinen bestrafen LLM-dominierte Inhalte nicht wirksam
- Inhaltsmerkmale: LLM-Websites sind typischerweise generische Blogs mit vielen Anzeigen und gefälschten Autorenangaben
- Effektivität der Aggregatanalyse: Selbst wenn die Seiten-Ebenen-Detektorgenauigkeit nur 93% beträgt, erreicht die Website-Ebenen-Erkennung immer noch 100%
- Wichtigkeit der Filterstrategie: Reduziert erheblich die Auswirkungen von Rauschen auf die Erkennungsleistung
- Bestehende Arbeiten konzentrieren sich hauptsächlich auf die Erkennung auf Textfragment-Ebene
- Detektoren wie Binoculars zeigen gute Leistung unter verschiedenen Angriffen
- Aber die Genauigkeit in realen Web-Umgebungen ist unzureichend
- Fehlende Erkennungsmethoden, die die Besonderheiten von Webseiten-Inhalten berücksichtigen
- Bestehende Methoden berücksichtigen nicht die Vielfalt und das Rauschen von Webinhalten
- Hauptsächlich auf das Textfeld konzentriert
- Fehlende Forschung zu den Auswirkungen auf das gesamte Website-Ökosystem
- Die vorgeschlagene Aggregations-Erkennungs-Pipeline zeigt ausgezeichnete Leistung bei der Website-Ebenen-LLM-Inhaltserkennnung
- LLM-dominierte Websites wachsen schnell im Web, besonders in Suchergebnissen
- Bestehende Suchmaschinen können LLM-Inhalte nicht wirksam erkennen und herabstufen
- Das Web-Ökosystem wird erheblich durch KI-generierte Inhalte beeinflusst
- Falsch-Positiv-Problem: Es besteht immer noch eine Falsch-Positiv-Rate von 1,22%
- Verschwommene Grenzen: Einige Websites enthalten gemischte Inhalte, die schwer genau zu klassifizieren sind
- Datensatzgröße: Der Baseline-Datensatz ist relativ klein (120 Websites)
- Detektor-Abhängigkeit: Die Leistung wird durch die Qualität des zugrunde liegenden Textdetektors beeinflusst
- Untersuchung der Motivationen und Methoden von LLM-Inhalts-Generatoren
- Erweiterung auf die Erkennung von KI-generierten Bildern und anderen KI-generierten Inhalten
- Quantifizierung der Auswirkungen KI-generierter Inhalte auf das Web-Ökosystem
- Verbesserung von Erkennungsmethoden zur Behandlung von Websites mit gemischten Inhalten
- Praktische Problemorientierung: Löst ein wichtiges Problem in der aktuellen Web-Umgebung
- Methodische Innovation: Aggregationsmethode vom Seiten-Ebenen- zum Website-Ebenen-Erkennungsaufstieg
- Experimentelle Strenge: Cross-Dataset-Validierung gewährleistet die Verallgemeinerbarkeit der Methode
- Großflächige Validierung: Tests an 20.000 echten Websites sind überzeugend
- Wichtige Erkenntnisse: Offenlegung von Wachstumstrends bei LLM-Inhalten im Web
- Baseline-Datensatz-Einschränkung: Nur 120 Websites, möglicherweise nicht ausreichend repräsentativ
- Detektor-Auswahl: Übermäßige Abhängigkeit von der Binoculars-Leistung
- Grenzbehandlung: Behandlungsstrategie für Websites mit gemischten Inhalten nicht ausreichend
- Dynamische Anpassungsfähigkeit: Berücksichtigung der schnellen Entwicklung der LLM-Technologie auf die Erkennung nicht berücksichtigt
- Akademischer Beitrag: Erste systematische Untersuchung der Website-Ebenen-LLM-Inhaltserkennnung
- Praktischer Wert: Bereitstellung effektiver Werkzeuge für Suchmaschinen und Inhaltsplattformen
- Gesellschaftliche Bedeutung: Hilft bei der Aufrechterhaltung der Webinhaltsqualität und Benutzererfahrung
- Reproduzierbarkeit: Klare Methodenbeschreibung, leicht zu reproduzieren und zu verbessern
- Suchmaschinen-Optimierung: Identifizierung und Herabstufung von minderwertigen KI-generierten Inhalten
- Inhaltsplattform-Regulierung: Großflächige Erkennung von KI-generierten Inhalten auf Plattformen
- Akademische Forschung: Analyse der Auswirkungen von KI auf das Web-Ökosystem
- Regulatorische Compliance: Unterstützung bei der Durchsetzung von KI-Inhalts-Offenlegungsanforderungen
- Barbaresi, A. (2021). Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction. In ACL.
- Dugan, L. et al. (2024). RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors. In ACL.
- Hans, A. et al. (2024). Spotting llms with binoculars: Zero-shot detection of machine-generated text. In ICML.
Dieses Papier hat große Bedeutung im Bereich der Erkennung von KI-generierten Inhalten. Es bietet nicht nur eine effektive technische Lösung, sondern offenbart durch großflächige empirische Forschung auch die Herausforderungen, denen sich das aktuelle Web-Ökosystem gegenübersieht. Seine Aggregations-Erkennungsstrategie und Website-Ebenen-Analysemethode bieten wertvolle Perspektiven für nachfolgende Forschungen.