2025-11-12T22:19:11.052121

Preprint: Poster: Did I Just Browse A Website Written by LLMs?

He, Govindan, Madhyastha
Increasingly, web content is automatically generated by large language models (LLMs) with little human input. We call this "LLM-dominant" content. Since LLMs plagiarize and hallucinate, LLM-dominant content can be unreliable and unethical. Yet, websites rarely disclose such content, and human readers struggle to distinguish it. Thus, we must develop reliable detectors for LLM-dominant content. However, state-of-the-art LLM detectors are inaccurate on web content, because web content has low positive rates, complex markup, and diverse genres, instead of clean, prose-like benchmark data SoTA detectors are optimized for. We propose a highly reliable, scalable pipeline that classifies entire websites. Instead of naively classifying text extracted from each page, we classify each site based on an LLM text detector's outputs of multiple prose-like pages to boost accuracies. We train and evaluate our detector by collecting 2 distinct ground truth datasets totaling 120 sites, and obtain 100% accuracies testing across them. In the wild, we detect a sizable portion of sites as LLM-dominant among 10k sites in search engine results and 10k in Common Crawl archives. We find LLM-dominant sites are growing in prevalence and rank highly in search results, raising questions about their impact on end users and the overall Web ecosystem.
academic

Preimpresión: Póster: ¿Acabo de Navegar por un Sitio Web Escrito por LLMs?

Información Básica

  • ID del Artículo: 2507.13933
  • Título: Poster: Did I Just Browse A Website Written by LLMs?
  • Autores: Sichang Steven He, Ramesh Govindan, Harsha V. Madhyastha (Universidad del Sur de California)
  • Clasificación: cs.NI cs.AI cs.CL cs.IR
  • Fecha de Publicación/Conferencia: IMC '25 (Conferencia de Medición de Internet ACM 2025), 28–31 de octubre de 2025, Madison, WI, EE.UU.
  • Enlace del Artículo: https://doi.org/10.1145/3730567.3768603

Resumen

Con el auge de los modelos de lenguaje grandes (LLMs), cada vez más contenido web se genera automáticamente mediante LLMs con mínima intervención humana. Los autores denominan este contenido como "contenido dominado por LLM". Debido a los problemas de plagio y alucinación en los LLMs, el contenido dominado por LLM puede ser poco confiable e inmoral. Sin embargo, los sitios web rara vez divulgan tal contenido, y los lectores humanos tienen dificultades para distinguirlo. Por lo tanto, es necesario desarrollar detectores confiables de contenido dominado por LJM. Los detectores LLM de última generación existentes funcionan mal en contenido web porque el contenido web tiene baja tasa de muestras positivas, etiquetado complejo y tipos diversos, a diferencia de los datos de referencia de prosa limpia para los que se optimizaron los detectores existentes.

Este artículo propone un pipeline altamente confiable y escalable para clasificar sitios web completos. En lugar de clasificar simplemente el texto extraído de cada página, el método clasifica cada sitio basándose en los resultados del detector de texto LLM en múltiples páginas de prosa para mejorar la precisión. Mediante la recopilación de dos conjuntos de datos reales distintos (120 sitios en total) para entrenamiento y evaluación, se logró una precisión del 100% en pruebas entre conjuntos de datos. En aplicaciones prácticas, se detectó una proporción considerable de sitios dominados por LJM en 10,000 sitios cada uno en resultados de motores de búsqueda y en el archivo Common Crawl, revelando que la prevalencia de estos sitios está creciendo y se clasifican alto en los resultados de búsqueda.

Contexto de Investigación y Motivación

Definición del Problema

  1. Problema Central: Cómo detectar de manera confiable el contenido de sitios web "dominados por LJM" generados por modelos de lenguaje grandes en la web
  2. Importancia del Problema:
    • El contenido generado por LJM presenta problemas de plagio y alucinación que pueden engañar a los usuarios
    • La Ley de IA de la Unión Europea requiere divulgación del uso de IA, pero los sitios web rara vez cumplen
    • Los humanos tienen dificultades para distinguir contenido generado por LJM

Limitaciones de Métodos Existentes

Los autores identifican tres desafíos clave:

  1. Inexactitud de Detectores de Texto: Los detectores de última generación existentes funcionan mal en configuraciones del mundo real con requisitos de baja tasa de falsos positivos
  2. Ruido en Contenido Web: Los detectores se diseñaron para prosa limpia y funcionan mal en tipos diversos de web (como listas de enlaces, declaraciones de privacidad)
  3. Falta de Etiquetas Reales: Existen muchos conjuntos de datos de referencia para detección de fragmentos de texto, pero faltan conjuntos de datos a nivel de página web

Motivación de la Investigación

  • Los servicios de IA permiten que cualquiera genere contenido web en masa a bajo costo
  • Los usuarios ya han comenzado a quejarse de artículos dominados por LJM en línea
  • Se necesita desarrollar métodos de detección confiables para proteger la experiencia del usuario y el ecosistema web

Contribuciones Principales

  1. Propone un pipeline de detección de contenido LJM a nivel de sitio web: Mejora la precisión mediante la agregación de resultados de detección de múltiples páginas
  2. Construye dos conjuntos de datos reales de diferentes fuentes: 120 sitios web en total para entrenamiento y evaluación
  3. Logra una precisión del 100% entre conjuntos de datos: Desempeño excepcional en pruebas rigurosas fuera de distribución
  4. Proporciona un estudio empírico a gran escala: Analiza 20,000 sitios web reales, revelando tendencias de crecimiento de sitios dominados por LJM
  5. Descubre información importante sobre el ecosistema web: Los sitios dominados por LJM se clasifican alto en resultados de búsqueda y su prevalencia continúa creciendo

Explicación Detallada del Método

Definición de Tarea

  • Entrada: URL del sitio web
  • Salida: Resultado de clasificación binaria (dominado por LJM vs. dominado por humanos)
  • Restricción: El sitio web debe tener al menos 15 páginas filtrables

Arquitectura del Modelo

1. Adquisición de Texto (Text Acquisition)

  • Muestreo aleatorio de páginas desde mapas de sitio o índices de contenido de Wayback Machine
  • Acceso y renderización de páginas HTML usando Chromium
  • Extracción de contenido de texto principal usando la biblioteca Trafilatura

2. Puntuación y Filtrado (Scoring and Filtering)

  • Uso del detector Binoculars para detección de texto LJM
  • Aplicación de reglas de filtrado estrictas:
    • Filtrado de texto corto
    • Filtrado de contenido con alta proporción de listas, tablas y enlaces
    • Filtrado de texto duplicado dentro del sitio
  • Garantía de que la mayoría del texto filtrado sea en formato de prosa

3. Análisis Agregado (Aggregate Analysis)

  • Muestreo de 15-20 páginas por sitio web
  • Cálculo de puntuación Binoculars para cada página
  • Uso de 9 deciles de puntuación como vector de características
  • Entrenamiento de máquina de vectores de soporte (SVM) lineal para clasificación de sitios web

Puntos de Innovación Técnica

  1. Estrategia de Agregación: No depende de resultados de clasificación de páginas individuales, sino que mejora la robustez mediante análisis de distribución de puntuaciones de múltiples páginas
  2. Filtrado Inteligente: Estrategias de filtrado especializadas diseñadas para la diversidad del contenido web
  3. Características de Distribución: Uso de deciles para capturar características de distribución de puntuaciones de contenido del sitio web
  4. Detección a Nivel de Sitio Web: Elevación desde detección a nivel de página a detección a nivel de sitio web, más alineada con necesidades de aplicación práctica

Configuración Experimental

Conjunto de Datos

Conjunto de Datos de Referencia (120 sitios web, 2,630 páginas filtradas)

  1. Conjunto de Datos de Empresas:
    • 30 sitios web de empresas dominados por humanos (del índice de acciones Russell 2000)
    • 30 sitios web generados por LJM correspondientes (usando el constructor de sitios web AI de Wix.com)
  2. Conjunto de Datos Personal:
    • 30 sitios web personales (de Blogs IndieWeb)
    • 30 sitios web generados por LJM correspondientes (usando B12.io)

Conjunto de Datos en Entorno Silvestre

  1. Resultados de Motores de Búsqueda: 17,036 sitios web (finalmente 10,232 sitios web válidos)
  2. Common Crawl: 10,479 sitios web aleatorios (2020-2025)

Métricas de Evaluación

  • Precisión (Accuracy)
  • Tasa de Falsos Positivos (False Positive Rate, FPR)
  • Desempeño de generalización fuera de distribución

Métodos de Comparación

  • Detector Binoculars (a nivel de página)
  • Pruebas comparativas con otros 11 detectores de texto

Detalles de Implementación

  • Uso de Binoculars como detector base
  • SVM lineal para clasificación final
  • Muestreo de 15-20 páginas por sitio web
  • Uso de 9 deciles como características

Resultados Experimentales

Resultados Principales

Desempeño en Conjunto de Datos de Referencia

  • Precisión Entre Conjuntos de Datos: 100% (Entrenamiento en Empresas → Prueba en Personal, y viceversa)
  • Precisión a Nivel de Página de Binoculars: Máximo 93%
  • Precisión a Nivel de Sitio Web de SVM: 100% (separación completa de sitios LJM y humanos)

Resultados de Detección en Entorno Silvestre

  1. Resultados de Motores de Búsqueda:
    • Se detectaron 1,019 sitios web dominados por LJM (9.96%)
    • Los sitios LJM no tienen desventaja significativa en clasificación de búsqueda
    • Se descubrió fenómeno de límites borrosos (sitios con contenido parcialmente LJM)
  2. Análisis de Common Crawl:
    • Tasa de detección general: 4.30% (451/10,479)
    • Sitios web posteriores al lanzamiento de ChatGPT: 7.25% (358/4,938)
    • Sitios web nuevos 2024-2025: 10.08% (77/764)
    • Tasa de falsos positivos: 1.22% (16/1,315, sitios web anteriores a ChatGPT)

Hallazgos Importantes

  1. Tendencia de Crecimiento: La proporción de sitios web dominados por LJM crece significativamente con el tiempo
  2. Sesgo de Búsqueda: La proporción de sitios LJM en resultados de motores de búsqueda es mucho mayor que en muestreo aleatorio
  3. Impacto en Clasificación: Los motores de búsqueda no penalizan efectivamente el contenido dominado por LJM
  4. Características de Contenido: Los sitios LJM suelen ser blogs genéricos con mucha publicidad e información de autor falsa

Experimentos de Ablación

  • Efectividad del análisis agregado: Incluso con precisión de detector de página única de solo 93%, la detección a nivel de sitio web alcanza 100%
  • Importancia de la estrategia de filtrado: Reduce significativamente el impacto del ruido en el desempeño de detección

Trabajo Relacionado

Campo de Detección de Texto

  • El trabajo existente se enfoca principalmente en detección a nivel de fragmento de texto
  • Detectores como Binoculars funcionan bien bajo múltiples ataques
  • Pero la precisión es insuficiente en entornos web reales

Análisis de Contenido Web

  • Falta de métodos de detección adaptados a características de contenido de páginas web
  • Los métodos existentes no consideran la diversidad y ruido del contenido web

Detección de Contenido Generado por IA

  • Se concentra principalmente en el dominio de texto
  • Falta investigación sobre el impacto en todo el ecosistema de sitios web

Conclusiones y Discusión

Conclusiones Principales

  1. El pipeline de detección agregado propuesto funciona excepcionalmente bien en detección de contenido LJM a nivel de sitio web
  2. Los sitios web dominados por LJM están creciendo rápidamente en la web, especialmente en resultados de búsqueda
  3. Los motores de búsqueda existentes no pueden identificar y desclasificar efectivamente el contenido LJM
  4. El ecosistema web enfrenta un impacto significativo del contenido generado por IA

Limitaciones

  1. Problema de Falsos Positivos: Aún existe una tasa de falsos positivos del 1.22%
  2. Límites Borrosos: Algunos sitios web contienen contenido mixto, difícil de clasificar con precisión
  3. Tamaño del Conjunto de Datos: El conjunto de datos de referencia es relativamente pequeño (120 sitios web)
  4. Dependencia del Detector: El desempeño se ve afectado por la calidad del detector de texto subyacente

Direcciones Futuras

  1. Investigar las motivaciones y métodos de los generadores de contenido LJM
  2. Extender a detección de imágenes generadas por IA y otros contenidos generados por IA
  3. Cuantificar el impacto del contenido generado por IA en el ecosistema web
  4. Mejorar métodos de detección para manejar sitios web con contenido mixto

Evaluación Profunda

Fortalezas

  1. Orientación a Problemas Prácticos: Aborda un problema importante en el entorno web actual
  2. Innovación Metodológica: Elevación de detección a nivel de página a detección a nivel de sitio web mediante agregación
  3. Rigor Experimental: La validación entre conjuntos de datos asegura la generalización del método
  4. Validación a Gran Escala: Las pruebas en 20,000 sitios web reales son convincentes
  5. Hallazgos Importantes: Revela tendencias de crecimiento de contenido LJM en la web

Deficiencias

  1. Limitaciones del Conjunto de Datos de Referencia: Solo 120 sitios web, puede no ser suficientemente representativo
  2. Selección de Detector: Dependencia excesiva del desempeño de Binoculars
  3. Manejo de Límites: Estrategia incompleta para manejar sitios web con contenido mixto
  4. Adaptabilidad Dinámica: No considera el impacto del rápido desarrollo de tecnología LJM en la detección

Impacto

  1. Contribución Académica: Primer estudio sistemático de detección de contenido LJM a nivel de sitio web
  2. Valor Práctico: Proporciona herramientas efectivas para motores de búsqueda y plataformas de contenido
  3. Significado Social: Ayuda a mantener la calidad del contenido web y la experiencia del usuario
  4. Reproducibilidad: Descripción clara del método, fácil de reproducir y mejorar

Escenarios de Aplicación

  1. Optimización de Motores de Búsqueda: Identificar y desclasificar contenido de baja calidad generado por IA
  2. Regulación de Plataformas de Contenido: Detección a gran escala de contenido generado por IA en plataformas
  3. Investigación Académica: Análisis del impacto de IA en el ecosistema web
  4. Cumplimiento Normativo: Asistencia en la aplicación de requisitos de divulgación de contenido de IA

Referencias

  1. Barbaresi, A. (2021). Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction. En ACL.
  2. Dugan, L. et al. (2024). RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors. En ACL.
  3. Hans, A. et al. (2024). Spotting llms with binoculars: Zero-shot detection of machine-generated text. En ICML.

Este artículo tiene importancia significativa en el campo de la detección de contenido generado por IA, no solo propone una solución técnica efectiva, sino que también revela desafíos que enfrenta el ecosistema web actual a través de investigación empírica a gran escala. Su estrategia de detección agregada y método de análisis a nivel de sitio web proporcionan ideas valiosas para investigaciones posteriores.