Increasingly, web content is automatically generated by large language models (LLMs) with little human input. We call this "LLM-dominant" content. Since LLMs plagiarize and hallucinate, LLM-dominant content can be unreliable and unethical. Yet, websites rarely disclose such content, and human readers struggle to distinguish it. Thus, we must develop reliable detectors for LLM-dominant content. However, state-of-the-art LLM detectors are inaccurate on web content, because web content has low positive rates, complex markup, and diverse genres, instead of clean, prose-like benchmark data SoTA detectors are optimized for.
We propose a highly reliable, scalable pipeline that classifies entire websites. Instead of naively classifying text extracted from each page, we classify each site based on an LLM text detector's outputs of multiple prose-like pages to boost accuracies. We train and evaluate our detector by collecting 2 distinct ground truth datasets totaling 120 sites, and obtain 100% accuracies testing across them. In the wild, we detect a sizable portion of sites as LLM-dominant among 10k sites in search engine results and 10k in Common Crawl archives. We find LLM-dominant sites are growing in prevalence and rank highly in search results, raising questions about their impact on end users and the overall Web ecosystem.
academic- 論文ID: 2507.13933
- タイトル: Poster: Did I Just Browse A Website Written by LLMs?
- 著者: Sichang Steven He、Ramesh Govindan、Harsha V. Madhyastha(南カリフォルニア大学)
- 分類: cs.NI cs.AI cs.CL cs.IR
- 発表時期/会議: IMC '25(2025年ACMインターネット測定会議)、2025年10月28~31日、米国ウィスコンシン州マディソン
- 論文リンク: https://doi.org/10.1145/3730567.3768603
大規模言語モデル(LLM)の台頭に伴い、ほぼ人間の入力なしにLLMによって自動生成されるウェブコンテンツが増加しています。著者らはこのようなコンテンツを「LLM主導」コンテンツと呼んでいます。LLMの盗用と幻覚の問題により、LLM主導のコンテンツは信頼性に欠け、倫理的に問題がある可能性があります。しかし、ウェブサイトはこのようなコンテンツをほとんど開示せず、人間の読者も区別することが困難です。したがって、信頼性の高いLLM主導コンテンツ検出器の開発が必須です。既存の最先端LLM検出器は、ウェブコンテンツ上で性能が低下しています。これは、ウェブコンテンツが低い正例率、複雑なマークアップ、多様なタイプを持つ一方で、既存の検出器が最適化されている清潔な散文形式のベンチマークデータとは異なるためです。
本論文は、ウェブサイト全体を分類するための高度に信頼性が高く、スケーラブルなパイプラインを提案しています。このアプローチは、各ページから抽出されたテキストを単純に分類するのではなく、複数の散文形式ページからのLLMテキスト検出器の出力に基づいて各サイトを分類することで、精度を向上させます。異なる2つの実世界データセット(合計120サイト)を収集して訓練と評価を行い、クロスデータセットテストで100%の精度を達成しました。実際の応用では、検索エンジン結果とCommon Crawlアーカイブのそれぞれ1万サイトでLLM主導サイトの相当な割合を検出し、これらのサイトの普及率が増加し、検索結果で高くランク付けされていることを発見しました。
- 中核的な問題: ウェブ上の大規模言語モデルによって生成された「LLM主導」ウェブサイトコンテンツを確実に検出する方法
- 問題の重要性:
- LLM生成コンテンツは盗用と幻覚の問題を抱えており、ユーザーを誤解させる可能性がある
- EU AI法はAI使用の開示を要求していますが、ウェブサイトはほとんど遵守していない
- 人間はLLM生成コンテンツを区別することが困難である
著者らは3つの重要な課題を特定しました:
- テキスト検出器の不正確性: 既存の最先端検出器は、低い偽陽性率を要求する実世界の設定で性能が低下する
- ウェブコンテンツのノイズ: 検出器は清潔な散文用に設計されており、リンクリスト、プライバシーステートメントなどのウェブの多様なタイプで性能が低下する
- 実世界ラベルの欠如: テキスト片レベルの検出用ベンチマークデータセットは多数存在しますが、ウェブページレベルのデータセットが不足している
- AIサービスにより、誰もが安価にウェブコンテンツを大量生成できるようになった
- ユーザーはすでにオンラインでLLM主導の記事を見ることについて不満を述べ始めている
- ユーザー体験とウェブエコシステムを保護するための信頼性の高い検出方法の開発が必要である
- ウェブサイトレベルのLLMコンテンツ検出パイプラインを提案: 複数ページの検出結果を集約することで精度を向上させる
- 異なるソースから2つの実世界データセットを構築: 訓練と評価用に合計120のウェブサイト
- 100%のクロスデータセット精度を達成: 厳格な分布外テストで優れた性能を発揮
- 大規模な実証研究を提供: 2万の実世界ウェブサイトを分析し、LLM主導ウェブサイトの増加傾向を明らかにする
- 重要なウェブエコシステムの洞察を発見: LLM主導ウェブサイトが検索結果で高くランク付けされ、普及率が継続的に増加している
- 入力: ウェブサイトURL
- 出力: 二値分類結果(LLM主導 vs 人間主導)
- 制約: ウェブサイトは少なくとも15個のフィルタリング可能なページが必要
- ウェブサイトマップまたはWayback Machineコンテンツインデックスからページをランダムにサンプリング
- Chromiumを使用してHTMLページにアクセスしレンダリング
- Trafilaturaライブラリを使用してメインテキストコンテンツを抽出
- Binoculars検出器を使用してLLMテキスト検出を実行
- 厳格なフィルタリングルールを適用:
- 短いテキストをフィルタリング
- リスト、表、リンクの比率が高いコンテンツをフィルタリング
- サイト内重複テキストをフィルタリング
- フィルタリング後のテキストの大部分が散文形式であることを確認
- 各ウェブサイトから15~20ページをサンプリング
- 各ページのBinocularsスコアを計算
- スコアの9つの十分位数を特徴ベクトルとして使用
- 線形サポートベクターマシン(SVM)を訓練してウェブサイトを分類
- 集約戦略: 単一ページの分類結果に依存せず、複数ページのスコア分布を分析することで堅牢性を向上させる
- インテリジェントフィルタリング: ウェブコンテンツの多様性に対応した専門的なフィルタリング戦略
- 分布特性: 十分位数を使用してウェブサイトコンテンツスコアの分布特性を捉える
- ウェブサイトレベル検出: ページレベル検出からウェブサイトレベル検出への昇格、実際の応用ニーズに適合
- Company データセット:
- 30個の人間主導企業ウェブサイト(Russell 2000株価指数から)
- 30個の対応するLLM生成ウェブサイト(Wix.comのAIウェブサイトビルダーを使用)
- Personal データセット:
- 30個の個人ウェブサイト(IndieWeb Blogsから)
- 30個の対応するLLM生成ウェブサイト(B12.ioを使用)
- 検索エンジン結果: 17,036ウェブサイト(最終的に10,232有効ウェブサイト)
- Common Crawl: 10,479ランダムウェブサイト(2020~2025年)
- 精度(Accuracy)
- 偽陽性率(False Positive Rate、FPR)
- 分布外汎化性能
- Binoculars検出器(ページレベル)
- その他11種類のテキスト検出器の比較テスト
- Binocularsを基礎検出器として使用
- 最終分類に線形SVMを使用
- 各ウェブサイトから15~20ページをサンプリング
- 特徴として9つの十分位数を使用
- クロスデータセット精度: 100%(Company訓練→Personal テスト、その逆も同様)
- Binocularsページレベル精度: 最大93%
- SVMウェブサイトレベル精度: 100%(LLMと人間ウェブサイトを完全に分離)
- 検索エンジン結果:
- 1,019個のLLM主導ウェブサイトを検出(9.96%)
- LLMウェブサイトは検索ランキングで顕著な不利を受けない
- 曖昧な境界現象を発見(LLMコンテンツを含む一部ウェブサイト)
- Common Crawl分析:
- 全体検出率: 4.30%(451/10,479)
- ChatGPT発表後のウェブサイト: 7.25%(358/4,938)
- 2024~2025年の新規ウェブサイト: 10.08%(77/764)
- 偽陽性率: 1.22%(16/1,315、ChatGPT前のウェブサイト)
- 増加傾向: LLM主導ウェブサイトの割合は時間とともに大幅に増加
- 検索エンジンの偏向: 検索エンジン結果におけるLLMウェブサイトの割合はランダムサンプリングよりもはるかに高い
- ランキングへの影響: 検索エンジンはLLM主導コンテンツを効果的に罰していない
- コンテンツ特性: LLMウェブサイトは通常、大量の広告を含む汎用ブログで、著者情報は虚偽である
- 集約分析の有効性:単一ページ検出器の精度が93%であっても、ウェブサイトレベル検出は100%に達する
- フィルタリング戦略の重要性:検出性能に対するノイズの影響を大幅に削減
- 既存の研究は主にテキスト片レベルの検出に焦点を当てている
- Binocularsなどの検出器は様々な攻撃に対して良好な性能を示す
- しかし、実世界のウェブ環境では精度が不足している
- ウェブページコンテンツの特性に対応した検出方法が不足している
- 既存の方法はウェブコンテンツの多様性とノイズを考慮していない
- 主にテキスト領域に集中している
- ウェブサイト全体のエコシステムへの影響に関する研究が不足している
- 提案された集約検出パイプラインはウェブサイトレベルのLLMコンテンツ検出で優れた性能を発揮する
- LLM主導ウェブサイトはウェブ上で急速に増加しており、特に検索結果で顕著である
- 既存の検索エンジンはLLMコンテンツを効果的に識別し、ランキングを低下させることができていない
- ウェブエコシステムはAI生成コンテンツの重大な影響に直面している
- 偽陽性の問題: 依然として1.22%の偽陽性率が存在する
- 境界の曖昧性: 一部のウェブサイトは混合コンテンツを含んでおり、正確な分類が困難である
- データセットサイズ: ベースラインデータセットは比較的小さい(120ウェブサイト)
- 検出器への依存: 性能は基礎となるテキスト検出器の品質に影響される
- LLMコンテンツ生成者の動機と方法に関する研究
- AI画像およびその他のAI生成コンテンツの検出への拡張
- AI生成コンテンツがウェブエコシステムに与える影響の定量化
- 混合コンテンツウェブサイトに対応するための検出方法の改善
- 実際の問題志向: 現在のウェブ環境における重要な問題を解決している
- 方法の革新: ページレベル検出からウェブサイトレベル検出への集約方法への昇格
- 実験の厳密性: クロスデータセット検証により方法の汎化性を確保
- 大規模検証: 2万の実世界ウェブサイトでのテストは説得力がある
- 重要な発見: ウェブ上のLLMコンテンツの増加傾向を明らかにしている
- ベースラインデータセットの制限: わずか120ウェブサイトで、代表性が不十分である可能性がある
- 検出器の選択: Binocularsの性能への過度な依存
- 境界処理: 混合コンテンツウェブサイトの処理戦略が不十分である
- 動的適応性: LLM技術の急速な発展が検出に与える影響を考慮していない
- 学術的貢献: ウェブサイトレベルのLLMコンテンツ検出を初めて体系的に研究
- 実用的価値: 検索エンジンとコンテンツプラットフォームに有効なツールを提供
- 社会的意義: ウェブコンテンツの品質とユーザー体験の維持に貢献
- 再現性: 方法の説明が明確で、再現と改善が容易である
- 検索エンジン最適化: 低品質なAI生成コンテンツの識別と降格
- コンテンツプラットフォーム監視: プラットフォーム上のAI生成コンテンツの大規模検出
- 学術研究: ウェブエコシステムに対するAIの影響分析
- 規制遵守: AI コンテンツ開示要件の実施を支援
- Barbaresi, A. (2021). Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction. In ACL.
- Dugan, L. et al. (2024). RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors. In ACL.
- Hans, A. et al. (2024). Spotting llms with binoculars: Zero-shot detection of machine-generated text. In ICML.
本論文はAI生成コンテンツ検出分野において重要な意義を持っており、有効な技術ソリューションを提案するだけでなく、大規模な実証研究を通じて現在のウェブエコシステムが直面する課題を明らかにしています。その集約検出戦略とウェブサイトレベルの分析方法は、後続の研究に有価値な洞察を提供しています。