2025-11-12T22:19:11.052121

Preprint: Poster: Did I Just Browse A Website Written by LLMs?

He, Govindan, Madhyastha

Increasingly, web content is automatically generated by large language models (LLMs) with little human input. We call this "LLM-dominant" content. Since LLMs plagiarize and hallucinate, LLM-dominant content can be unreliable and unethical. Yet, websites rarely disclose such content, and human readers struggle to distinguish it. Thus, we must develop reliable detectors for LLM-dominant content. However, state-of-the-art LLM detectors are inaccurate on web content, because web content has low positive rates, complex markup, and diverse genres, instead of clean, prose-like benchmark data SoTA detectors are optimized for. We propose a highly reliable, scalable pipeline that classifies entire websites. Instead of naively classifying text extracted from each page, we classify each site based on an LLM text detector's outputs of multiple prose-like pages to boost accuracies. We train and evaluate our detector by collecting 2 distinct ground truth datasets totaling 120 sites, and obtain 100% accuracies testing across them. In the wild, we detect a sizable portion of sites as LLM-dominant among 10k sites in search engine results and 10k in Common Crawl archives. We find LLM-dominant sites are growing in prevalence and rank highly in search results, raising questions about their impact on end users and the overall Web ecosystem.

academic

Препринт: Постер: Я только что просмотрел веб-сайт, написанный LLM?

Основная информация

ID препринта: 2507.13933
Название: Poster: Did I Just Browse A Website Written by LLMs?
Авторы: Sichang Steven He, Ramesh Govindan, Harsha V. Madhyastha (Университет Южной Калифорнии)
Классификация: cs.NI cs.AI cs.CL cs.IR
Дата публикации/Конференция: IMC '25 (2025 ACM Internet Measurement Conference), 28–31 октября 2025 г., Мэдисон, Висконсин, США
Ссылка на статью: https://doi.org/10.1145/3730567.3768603

Аннотация

С развитием больших языковых моделей (LLM) всё больше веб-контента автоматически генерируется LLM с минимальным участием человека. Авторы называют такой контент "контентом, ориентированным на LLM". Поскольку LLM подвержены плагиату и галлюцинациям, контент, ориентированный на LLM, может быть ненадёжным и неэтичным. Однако веб-сайты редко раскрывают такой контент, и людям сложно его различить. Следовательно, необходимо разработать надёжные детекторы контента, ориентированного на LLM. Существующие передовые детекторы LLM работают плохо на веб-контенте из-за низкой доли положительных примеров, сложной разметки и разнообразных типов, в отличие от чистых прозаических эталонных наборов данных, на которых оптимизированы существующие детекторы.

В данной статье предлагается высоконадёжный масштабируемый конвейер для классификации целых веб-сайтов. Вместо простой классификации текста, извлеченного с каждой страницы, метод классифицирует каждый сайт на основе выходных данных детектора текста LLM для нескольких прозаических страниц, чтобы повысить точность. Путём сбора двух различных наборов данных из реальной жизни (всего 120 сайтов) для обучения и оценки достигнута 100% точность при кросс-датасетном тестировании. В практическом применении обнаружена значительная доля сайтов, ориентированных на LLM, в результатах поисковых систем и архиве Common Crawl (по 10 000 сайтов в каждом), выявлено, что распространённость этих сайтов растёт и они занимают высокие позиции в результатах поиска.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Как надёжно обнаружить контент веб-сайтов, ориентированный на LLM, в сети
Важность проблемы:
- Контент, генерируемый LLM, содержит плагиат и галлюцинации, которые могут ввести пользователей в заблуждение
- Закон об искусственном интеллекте ЕС требует раскрытия использования ИИ, но веб-сайты редко это соблюдают
- Людям сложно различить контент, генерируемый LLM

Ограничения существующих методов

Авторы выявили три ключевых вызова:

Неточность текстовых детекторов: Существующие передовые детекторы работают плохо в реальных условиях с требованиями низкого уровня ложноположительных результатов
Шум в веб-контенте: Детекторы разработаны для чистой прозы и работают плохо на разнообразных типах веб-контента (списки ссылок, заявления о конфиденциальности)
Отсутствие реальных меток: Существуют многие эталонные наборы данных для обнаружения текстовых фрагментов, но отсутствуют наборы данных на уровне веб-страниц

Исследовательская мотивация

Сервисы ИИ позволяют любому дешево массово генерировать веб-контент
Пользователи уже начали жаловаться на статьи, ориентированные на LLM, в интернете
Необходимо разработать надёжные методы обнаружения для защиты пользовательского опыта и экосистемы веб-сайтов

Основные вклады

Предложен конвейер обнаружения контента LLM на уровне веб-сайта: Повышение точности путём агрегирования результатов обнаружения с нескольких страниц
Построены два набора данных из реальной жизни из разных источников: Всего 120 веб-сайтов для обучения и оценки
Достигнута 100% точность кросс-датасетного тестирования: Отличная производительность при строгом тестировании вне распределения
Предоставлено крупномасштабное эмпирическое исследование: Анализ 20 000 реальных веб-сайтов, выявление тенденций роста сайтов, ориентированных на LLM
Выявлены важные выводы об экосистеме веб-сайтов: Сайты, ориентированные на LLM, занимают высокие позиции в результатах поиска и их распространённость постоянно растёт

Подробное описание методологии

Определение задачи

Входные данные: URL веб-сайта
Выходные данные: Бинарная классификация (ориентирован на LLM vs ориентирован на человека)
Ограничения: Веб-сайт должен содержать как минимум 15 фильтруемых страниц

Архитектура модели

1. Получение текста (Text Acquisition)

Случайная выборка страниц из карты сайта или индекса содержимого Wayback Machine
Доступ и отрисовка HTML-страниц с использованием Chromium
Извлечение основного текстового контента с использованием библиотеки Trafilatura

2. Оценка и фильтрация (Scoring and Filtering)

Использование детектора Binoculars для обнаружения текста LLM
Применение строгих правил фильтрации:
- Фильтрация коротких текстов
- Фильтрация контента с высокой долей списков, таблиц и ссылок
- Фильтрация дублирующегося контента на сайте
Обеспечение того, чтобы большинство отфильтрованного текста было в прозаической форме

3. Совокупный анализ (Aggregate Analysis)

Выборка 15–20 страниц для каждого веб-сайта
Расчёт оценки Binoculars для каждой страницы
Использование 9 децилей оценок в качестве вектора признаков
Обучение линейной машины опорных векторов (SVM) для классификации веб-сайтов

Технические инновации

Стратегия агрегирования: Не полагается на результаты классификации отдельных страниц, а повышает надёжность путём анализа распределения оценок нескольких страниц
Интеллектуальная фильтрация: Специализированные стратегии фильтрации, разработанные для разнообразия веб-контента
Признаки распределения: Использование децилей для захвата характеристик распределения оценок контента веб-сайта
Обнаружение на уровне веб-сайта: Повышение уровня с обнаружения на уровне страницы на обнаружение на уровне веб-сайта, что лучше соответствует практическим требованиям

Экспериментальная установка

Наборы данных

Эталонный набор данных (120 веб-сайтов, 2630 отфильтрованных страниц)

Набор данных Company:
- 30 веб-сайтов компаний, ориентированных на человека (из индекса Russell 2000)
- 30 соответствующих веб-сайтов, генерируемых LLM (с использованием конструктора веб-сайтов AI Wix.com)
Набор данных Personal:
- 30 личных веб-сайтов (из IndieWeb Blogs)
- 30 соответствующих веб-сайтов, генерируемых LLM (с использованием B12.io)

Наборы данных в дикой природе

Результаты поисковых систем: 17 036 веб-сайтов (в итоге 10 232 действительных веб-сайта)
Common Crawl: 10 479 случайных веб-сайтов (2020–2025 гг.)

Метрики оценки

Точность (Accuracy)
Уровень ложноположительных результатов (False Positive Rate, FPR)
Производительность обобщения вне распределения

Методы сравнения

Детектор Binoculars (на уровне страницы)
Сравнительное тестирование с 11 другими текстовыми детекторами

Детали реализации

Использование Binoculars в качестве базового детектора
Линейная SVM для окончательной классификации
Выборка 15–20 страниц для каждого веб-сайта
Использование 9 децилей в качестве признаков

Результаты экспериментов

Основные результаты

Производительность на эталонном наборе данных

Точность кросс-датасетного тестирования: 100% (обучение на Company → тестирование на Personal и наоборот)
Точность Binoculars на уровне страницы: максимум 93%
Точность SVM на уровне веб-сайта: 100% (полное разделение сайтов, ориентированных на LLM и человека)

Результаты обнаружения в дикой природе

Результаты поисковых систем:
- Обнаружено 1 019 веб-сайтов, ориентированных на LLM (9,96%)
- Веб-сайты LLM не имеют значительного недостатка в рейтинге поиска
- Обнаружены явления размытых границ (веб-сайты с частичным контентом LLM)
Анализ Common Crawl:
- Общий уровень обнаружения: 4,30% (451/10 479)
- Веб-сайты после выпуска ChatGPT: 7,25% (358/4938)
- Новые веб-сайты 2024–2025 гг.: 10,08% (77/764)
- Уровень ложноположительных результатов: 1,22% (16/1315, веб-сайты до ChatGPT)

Важные выводы

Тенденция роста: Доля веб-сайтов, ориентированных на LLM, значительно растёт со временем
Смещение поиска: Доля сайтов LLM в результатах поисковых систем намного выше, чем при случайной выборке
Влияние на рейтинг: Поисковые системы не эффективно штрафуют контент, ориентированный на LLM
Характеристики контента: Веб-сайты LLM обычно представляют собой универсальные блоги с большим количеством объявлений и поддельной информацией об авторе

Абляционные эксперименты

Эффективность совокупного анализа: даже если точность детектора на одной странице составляет всего 93%, обнаружение на уровне веб-сайта достигает 100%
Важность стратегии фильтрации: значительно снижает влияние шума на производительность обнаружения

Связанные работы

Область обнаружения текста

Существующие работы в основном сосредоточены на обнаружении на уровне текстовых фрагментов
Детекторы, такие как Binoculars, хорошо работают при различных атаках
Однако точность в реальной сетевой среде недостаточна

Анализ веб-контента

Отсутствуют методы обнаружения, учитывающие характеристики веб-контента
Существующие методы не учитывают разнообразие и шум веб-контента

Обнаружение контента, генерируемого ИИ

В основном сосредоточено на текстовой области
Отсутствуют исследования влияния на экосистему целого веб-сайта

Заключение и обсуждение

Основные выводы

Предложенный конвейер совокупного обнаружения показывает отличную производительность при обнаружении контента LLM на уровне веб-сайта
Веб-сайты, ориентированные на LLM, быстро растут в сети, особенно в результатах поиска
Существующие поисковые системы не могут эффективно идентифицировать и снижать рейтинг контента LLM
Экосистема веб-сайтов сталкивается со значительным влиянием контента, генерируемого ИИ

Ограничения

Проблема ложноположительных результатов: Остаётся уровень ложноположительных результатов 1,22%
Размытые границы: Некоторые веб-сайты содержат смешанный контент, который сложно точно классифицировать
Размер набора данных: Эталонный набор данных относительно небольшой (120 веб-сайтов)
Зависимость от детектора: Производительность зависит от качества базового текстового детектора

Направления будущих исследований

Исследование мотивов и методов генераторов контента LLM
Расширение на обнаружение AI-изображений и другого контента, генерируемого ИИ
Количественная оценка влияния контента, генерируемого ИИ, на экосистему веб-сайтов
Улучшение методов обнаружения для обработки веб-сайтов со смешанным контентом

Глубокая оценка

Преимущества

Ориентация на практические проблемы: Решает важную проблему в современной сетевой среде
Методологические инновации: Повышение уровня с обнаружения на уровне страницы на обнаружение на уровне веб-сайта путём агрегирования
Строгие эксперименты: Кросс-датасетная проверка обеспечивает обобщаемость метода
Крупномасштабная проверка: Тестирование на 20 000 реальных веб-сайтов убедительно
Важные выводы: Выявляет тенденции роста контента LLM в сети

Недостатки

Ограничения эталонного набора данных: Всего 120 веб-сайтов могут быть недостаточно репрезентативны
Выбор детектора: Чрезмерная зависимость от производительности Binoculars
Обработка границ: Стратегия обработки веб-сайтов со смешанным контентом недостаточно совершенна
Динамическая адаптивность: Не учитывает влияние быстрого развития технологии LLM на обнаружение

Влияние

Академический вклад: Первое систематическое исследование обнаружения контента LLM на уровне веб-сайта
Практическая ценность: Предоставляет эффективный инструмент для поисковых систем и платформ контента
Социальное значение: Помогает поддерживать качество веб-контента и пользовательский опыт
Воспроизводимость: Методология описана ясно и легко воспроизводима и улучшаема

Применимые сценарии

Оптимизация поисковых систем: Идентификация и понижение рейтинга низкокачественного контента, генерируемого ИИ
Регулирование платформ контента: Крупномасштабное обнаружение контента, генерируемого ИИ, на платформах
Академические исследования: Анализ влияния ИИ на экосистему веб-сайтов
Нормативное соответствие: Помощь в соблюдении требований раскрытия контента ИИ

Библиография

Barbaresi, A. (2021). Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction. In ACL.
Dugan, L. et al. (2024). RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors. In ACL.
Hans, A. et al. (2024). Spotting llms with binoculars: Zero-shot detection of machine-generated text. In ICML.

Данная статья имеет важное значение в области обнаружения контента, генерируемого ИИ. Она не только предлагает эффективное техническое решение, но и через крупномасштабное эмпирическое исследование выявляет вызовы, с которыми сталкивается современная экосистема веб-сайтов. Стратегия совокупного обнаружения и методология анализа на уровне веб-сайта предоставляют ценные идеи для последующих исследований.