2025-11-12T22:19:11.052121

Preprint: Poster: Did I Just Browse A Website Written by LLMs?

He, Govindan, Madhyastha
Increasingly, web content is automatically generated by large language models (LLMs) with little human input. We call this "LLM-dominant" content. Since LLMs plagiarize and hallucinate, LLM-dominant content can be unreliable and unethical. Yet, websites rarely disclose such content, and human readers struggle to distinguish it. Thus, we must develop reliable detectors for LLM-dominant content. However, state-of-the-art LLM detectors are inaccurate on web content, because web content has low positive rates, complex markup, and diverse genres, instead of clean, prose-like benchmark data SoTA detectors are optimized for. We propose a highly reliable, scalable pipeline that classifies entire websites. Instead of naively classifying text extracted from each page, we classify each site based on an LLM text detector's outputs of multiple prose-like pages to boost accuracies. We train and evaluate our detector by collecting 2 distinct ground truth datasets totaling 120 sites, and obtain 100% accuracies testing across them. In the wild, we detect a sizable portion of sites as LLM-dominant among 10k sites in search engine results and 10k in Common Crawl archives. We find LLM-dominant sites are growing in prevalence and rank highly in search results, raising questions about their impact on end users and the overall Web ecosystem.
academic

Preprint: Poster: Did I Just Browse A Website Written by LLMs?

基本信息

  • 论文ID: 2507.13933
  • 标题: Poster: Did I Just Browse A Website Written by LLMs?
  • 作者: Sichang Steven He, Ramesh Govindan, Harsha V. Madhyastha (University of Southern California)
  • 分类: cs.NI cs.AI cs.CL cs.IR
  • 发表时间/会议: IMC '25 (2025 ACM Internet Measurement Conference), October 28–31, 2025, Madison, WI, USA
  • 论文链接: https://doi.org/10.1145/3730567.3768603

摘要

随着大语言模型(LLMs)的兴起,越来越多的网络内容由LLMs自动生成,几乎没有人工输入。作者将此类内容称为"LLM主导"内容。由于LLMs存在抄袭和幻觉问题,LLM主导的内容可能不可靠且不道德。然而,网站很少披露此类内容,人类读者也难以区分。因此,必须开发可靠的LLM主导内容检测器。现有的最先进LLM检测器在网络内容上表现不佳,因为网络内容具有低正样本率、复杂标记和多样化类型,而非现有检测器优化的干净散文式基准数据。

本文提出了一个高度可靠、可扩展的管道来分类整个网站。该方法不是简单地分类从每个页面提取的文本,而是基于LLM文本检测器对多个散文式页面的输出来分类每个站点,以提高准确性。通过收集两个不同的真实数据集(共120个站点)进行训练和评估,在跨数据集测试中获得了100%的准确率。在实际应用中,在搜索引擎结果和Common Crawl档案的各1万个站点中检测到相当一部分LLM主导站点,发现这些站点的普及率正在增长且在搜索结果中排名较高。

研究背景与动机

问题定义

  1. 核心问题: 如何可靠地检测网络上由大语言模型生成的"LLM主导"网站内容
  2. 问题重要性:
    • LLM生成内容存在抄袭和幻觉问题,可能误导用户
    • 欧盟AI法案要求披露AI使用,但网站很少遵守
    • 人类难以区分LLM生成的内容

现有方法的局限性

作者识别出三个关键挑战:

  1. 文本检测器不准确性: 现有最先进检测器在低假阳性率要求的真实世界设置中表现不佳
  2. 网络内容噪声: 检测器针对干净散文设计,在网络多样化类型(如链接列表、隐私声明)上表现不佳
  3. 缺乏真实标签: 存在许多文本片段检测的基准数据集,但缺乏网页级别的数据集

研究动机

  • AI服务使任何人都能廉价地批量生成网络内容
  • 用户已经开始抱怨在线看到LLM主导的文章
  • 需要开发可靠的检测方法来保护用户体验和网络生态系统

核心贡献

  1. 提出了网站级别的LLM内容检测管道: 通过聚合多个页面的检测结果来提高准确性
  2. 构建了两个不同来源的真实数据集: 共120个网站用于训练和评估
  3. 实现了100%的跨数据集准确率: 在严格的分布外测试中表现优异
  4. 提供了大规模实证研究: 分析了2万个真实网站,揭示LLM主导网站的增长趋势
  5. 发现了重要的网络生态系统洞察: LLM主导网站在搜索结果中排名较高且普及率不断增长

方法详解

任务定义

  • 输入: 网站URL
  • 输出: 二分类结果(LLM主导 vs 人类主导)
  • 约束: 需要网站至少有15个可过滤的页面

模型架构

1. 文本获取(Text Acquisition)

  • 从网站地图或Wayback Machine内容索引随机采样页面
  • 使用Chromium访问并渲染HTML页面
  • 使用Trafilatura库提取主要文本内容

2. 评分和过滤(Scoring and Filtering)

  • 使用Binoculars检测器进行LLM文本检测
  • 应用严格过滤规则:
    • 过滤短文本
    • 过滤列表、表格、链接比例高的内容
    • 过滤站内重复文本
  • 确保大部分过滤后的文本为散文形式

3. 聚合分析(Aggregate Analysis)

  • 为每个网站采样15-20个页面
  • 计算每个页面的Binoculars分数
  • 使用分数的9个十分位数作为特征向量
  • 训练线性支持向量机(SVM)进行网站分类

技术创新点

  1. 聚合策略: 不依赖单个页面的分类结果,而是通过分析多个页面分数的分布来提高鲁棒性
  2. 智能过滤: 针对网络内容的多样性设计了专门的过滤策略
  3. 分布特征: 使用十分位数捕捉网站内容分数的分布特征
  4. 网站级检测: 从页面级检测提升到网站级检测,更符合实际应用需求

实验设置

数据集

基线数据集(120个网站,2630个过滤后页面)

  1. Company数据集:
    • 30个人类主导的公司网站(来自Russell 2000股票指数)
    • 30个对应的LLM生成网站(使用Wix.com的AI网站构建器)
  2. Personal数据集:
    • 30个个人网站(来自IndieWeb Blogs)
    • 30个对应的LLM生成网站(使用B12.io)

野外数据集

  1. 搜索引擎结果: 17,036个网站(最终10,232个有效网站)
  2. Common Crawl: 10,479个随机网站(2020-2025年)

评价指标

  • 准确率(Accuracy)
  • 假阳性率(False Positive Rate, FPR)
  • 分布外泛化性能

对比方法

  • Binoculars检测器(页面级)
  • 其他11种文本检测器的比较测试

实现细节

  • 使用Binoculars作为基础检测器
  • 线性SVM用于最终分类
  • 每个网站采样15-20个页面
  • 使用9个十分位数作为特征

实验结果

主要结果

基线数据集表现

  • 跨数据集准确率: 100%(Company训练→Personal测试,反之亦然)
  • Binoculars页面级准确率: 最高93%
  • SVM网站级准确率: 100%(完全分离LLM和人类网站)

野外检测结果

  1. 搜索引擎结果:
    • 检测到1,019个LLM主导网站(9.96%)
    • LLM网站在搜索排名中无显著劣势
    • 发现模糊边界现象(部分LLM内容的网站)
  2. Common Crawl分析:
    • 总体检测率: 4.30%(451/10,479)
    • ChatGPT发布后的网站: 7.25%(358/4938)
    • 2024-2025年新网站: 10.08%(77/764)
    • 假阳性率: 1.22%(16/1315,ChatGPT前的网站)

重要发现

  1. 增长趋势: LLM主导网站的比例随时间显著增长
  2. 搜索偏向: 搜索引擎结果中LLM网站比例远高于随机采样
  3. 排名影响: 搜索引擎未有效惩罚LLM主导内容
  4. 内容特征: LLM网站通常是带有大量广告的通用博客,作者信息虚假

消融实验

  • 聚合分析的有效性:即使单页面检测器准确率仅93%,网站级检测仍达到100%
  • 过滤策略的重要性:显著减少了噪声对检测性能的影响

相关工作

文本检测领域

  • 现有工作主要关注文本片段级别的检测
  • Binoculars等检测器在多种攻击下表现良好
  • 但在真实网络环境中准确性不足

网络内容分析

  • 缺乏针对网页内容特点的检测方法
  • 现有方法未考虑网络内容的多样性和噪声

AI生成内容检测

  • 主要集中在文本领域
  • 缺乏对整个网站生态系统影响的研究

结论与讨论

主要结论

  1. 提出的聚合检测管道在网站级LLM内容检测上表现优异
  2. LLM主导网站在网络上快速增长,特别是在搜索结果中
  3. 现有搜索引擎未能有效识别和降低LLM内容的排名
  4. 网络生态系统正面临AI生成内容的显著影响

局限性

  1. 假阳性问题: 仍存在1.22%的假阳性率
  2. 边界模糊: 部分网站包含混合内容,难以准确分类
  3. 数据集规模: 基线数据集相对较小(120个网站)
  4. 检测器依赖: 性能受底层文本检测器质量影响

未来方向

  1. 研究LLM内容生成者的动机和方法
  2. 扩展到AI图像和其他AI生成内容的检测
  3. 量化AI生成内容对网络生态系统的影响
  4. 改进检测方法以处理混合内容网站

深度评价

优点

  1. 实际问题导向: 解决了当前网络环境中的重要问题
  2. 方法创新: 从页面级检测提升到网站级检测的聚合方法
  3. 实验严谨: 跨数据集验证确保了方法的泛化性
  4. 大规模验证: 在2万个真实网站上的测试具有说服力
  5. 重要发现: 揭示了LLM内容在网络中的增长趋势

不足

  1. 基线数据集限制: 仅120个网站,可能不够代表性
  2. 检测器选择: 过度依赖Binoculars的性能
  3. 边界处理: 对于混合内容网站的处理策略不够完善
  4. 动态适应性: 未考虑LLM技术快速发展对检测的影响

影响力

  1. 学术贡献: 首次系统性地研究网站级LLM内容检测
  2. 实用价值: 为搜索引擎和内容平台提供了有效工具
  3. 社会意义: 有助于维护网络内容质量和用户体验
  4. 可复现性: 方法描述清晰,易于复现和改进

适用场景

  1. 搜索引擎优化: 识别和降级低质量AI生成内容
  2. 内容平台监管: 大规模检测平台上的AI生成内容
  3. 学术研究: 分析AI对网络生态系统的影响
  4. 监管合规: 协助执行AI内容披露要求

参考文献

  1. Barbaresi, A. (2021). Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction. In ACL.
  2. Dugan, L. et al. (2024). RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors. In ACL.
  3. Hans, A. et al. (2024). Spotting llms with binoculars: Zero-shot detection of machine-generated text. In ICML.

这篇论文在AI生成内容检测领域具有重要意义,不仅提出了有效的技术方案,还通过大规模实证研究揭示了当前网络生态系统面临的挑战。其聚合检测策略和网站级分析方法为后续研究提供了有价值的思路。