Increasingly, web content is automatically generated by large language models (LLMs) with little human input. We call this "LLM-dominant" content. Since LLMs plagiarize and hallucinate, LLM-dominant content can be unreliable and unethical. Yet, websites rarely disclose such content, and human readers struggle to distinguish it. Thus, we must develop reliable detectors for LLM-dominant content. However, state-of-the-art LLM detectors are inaccurate on web content, because web content has low positive rates, complex markup, and diverse genres, instead of clean, prose-like benchmark data SoTA detectors are optimized for.
We propose a highly reliable, scalable pipeline that classifies entire websites. Instead of naively classifying text extracted from each page, we classify each site based on an LLM text detector's outputs of multiple prose-like pages to boost accuracies. We train and evaluate our detector by collecting 2 distinct ground truth datasets totaling 120 sites, and obtain 100% accuracies testing across them. In the wild, we detect a sizable portion of sites as LLM-dominant among 10k sites in search engine results and 10k in Common Crawl archives. We find LLM-dominant sites are growing in prevalence and rank highly in search results, raising questions about their impact on end users and the overall Web ecosystem.
academic- 논문 ID: 2507.13933
- 제목: Poster: Did I Just Browse A Website Written by LLMs?
- 저자: Sichang Steven He, Ramesh Govindan, Harsha V. Madhyastha (University of Southern California)
- 분류: cs.NI cs.AI cs.CL cs.IR
- 발표 시간/학회: IMC '25 (2025 ACM Internet Measurement Conference), 2025년 10월 28-31일, 미국 위스콘신주 매디슨
- 논문 링크: https://doi.org/10.1145/3730567.3768603
대규모 언어 모델(LLM)의 부상으로 인해 인간의 입력이 거의 없이 LLM에 의해 자동으로 생성되는 웹 콘텐츠가 증가하고 있습니다. 저자들은 이러한 콘텐츠를 "LLM 주도" 콘텐츠라고 명명합니다. LLM의 표절 및 환각 문제로 인해 LLM 주도 콘텐츠는 신뢰할 수 없고 비윤리적일 수 있습니다. 그러나 웹사이트는 이러한 콘텐츠를 거의 공개하지 않으며, 인간 독자도 구별하기 어렵습니다. 따라서 신뢰할 수 있는 LLM 주도 콘텐츠 탐지기를 개발해야 합니다. 기존의 최첨단 LLM 탐지기는 낮은 양성 샘플 비율, 복잡한 레이블 지정, 다양한 유형으로 인해 웹 콘텐츠에서 성능이 저하되며, 이는 기존 탐지기가 최적화한 깨끗한 산문 벤치마크 데이터와 다릅니다.
본 논문은 전체 웹사이트를 분류하기 위한 매우 신뢰할 수 있고 확장 가능한 파이프라인을 제안합니다. 각 페이지에서 추출한 텍스트를 단순히 분류하는 대신, 정확성을 향상시키기 위해 여러 산문 페이지에 대한 LLM 텍스트 탐지기의 출력을 기반으로 각 사이트를 분류합니다. 두 개의 서로 다른 실제 데이터셋(총 120개 사이트)을 수집하여 훈련 및 평가를 수행했으며, 데이터셋 간 테스트에서 100%의 정확도를 달성했습니다. 실제 적용에서는 검색 엔진 결과와 Common Crawl 아카이브의 각각 1만 개 사이트에서 상당한 비율의 LLM 주도 사이트를 탐지했으며, 이러한 사이트의 보급률이 증가하고 있으며 검색 결과에서 높은 순위를 차지하고 있음을 발견했습니다.
- 핵심 문제: 웹상의 대규모 언어 모델로 생성된 "LLM 주도" 웹사이트 콘텐츠를 신뢰할 수 있게 탐지하는 방법
- 문제의 중요성:
- LLM 생성 콘텐츠는 표절 및 환각 문제가 있어 사용자를 오도할 수 있음
- EU AI 법안은 AI 사용 공개를 요구하지만 웹사이트는 거의 준수하지 않음
- 인간은 LLM 생성 콘텐츠를 구별하기 어려움
저자들은 세 가지 주요 과제를 식별했습니다:
- 텍스트 탐지기의 부정확성: 기존 최첨단 탐지기는 낮은 거짓 양성률이 요구되는 실제 환경에서 성능이 저하됨
- 웹 콘텐츠 노이즈: 탐지기는 깨끗한 산문을 위해 설계되었으나 링크 목록, 개인정보 보호 정책 등 웹의 다양한 유형에서 성능이 저하됨
- 실제 레이블 부족: 텍스트 조각 탐지를 위한 많은 벤치마크 데이터셋이 있지만 웹페이지 수준의 데이터셋이 부족함
- AI 서비스는 누구나 저렴하게 대량으로 웹 콘텐츠를 생성할 수 있게 함
- 사용자들이 이미 온라인에서 LLM 주도 기사를 보는 것에 대해 불평하기 시작함
- 사용자 경험과 웹 생태계를 보호하기 위해 신뢰할 수 있는 탐지 방법을 개발해야 함
- 웹사이트 수준의 LLM 콘텐츠 탐지 파이프라인 제안: 여러 페이지의 탐지 결과를 집계하여 정확성 향상
- 서로 다른 출처의 두 개 실제 데이터셋 구축: 훈련 및 평가를 위한 총 120개 웹사이트
- 100%의 데이터셋 간 정확도 달성: 엄격한 분포 외 테스트에서 우수한 성능
- 대규모 실증 연구 제공: 2만 개 실제 웹사이트 분석으로 LLM 주도 웹사이트의 증가 추세 파악
- 중요한 웹 생태계 통찰 발견: LLM 주도 웹사이트가 검색 결과에서 높은 순위를 차지하고 보급률이 지속적으로 증가
- 입력: 웹사이트 URL
- 출력: 이진 분류 결과 (LLM 주도 vs 인간 주도)
- 제약: 웹사이트는 최소 15개의 필터링 가능한 페이지 필요
- 웹사이트 맵 또는 Wayback Machine 콘텐츠 인덱스에서 페이지 무작위 샘플링
- Chromium을 사용하여 HTML 페이지 접근 및 렌더링
- Trafilatura 라이브러리를 사용하여 주요 텍스트 콘텐츠 추출
- Binoculars 탐지기를 사용한 LLM 텍스트 탐지
- 엄격한 필터링 규칙 적용:
- 짧은 텍스트 필터링
- 목록, 표, 링크 비율이 높은 콘텐츠 필터링
- 사이트 내 중복 텍스트 필터링
- 필터링된 대부분의 텍스트가 산문 형식임을 보장
- 각 웹사이트당 15-20개 페이지 샘플링
- 각 페이지의 Binoculars 점수 계산
- 점수의 9개 십분위수를 특징 벡터로 사용
- 웹사이트 분류를 위해 선형 지원 벡터 머신(SVM) 훈련
- 집계 전략: 단일 페이지의 분류 결과에 의존하지 않고 여러 페이지 점수의 분포 분석을 통해 견고성 향상
- 지능형 필터링: 웹 콘텐츠의 다양성을 위해 설계된 전문화된 필터링 전략
- 분포 특징: 십분위수를 사용하여 웹사이트 콘텐츠 점수의 분포 특징 포착
- 웹사이트 수준 탐지: 페이지 수준 탐지에서 웹사이트 수준 탐지로 상향, 실제 적용 요구사항에 더 부합
- Company 데이터셋:
- 30개 인간 주도 회사 웹사이트 (Russell 2000 주식 지수에서)
- 30개 해당 LLM 생성 웹사이트 (Wix.com AI 웹사이트 빌더 사용)
- Personal 데이터셋:
- 30개 개인 웹사이트 (IndieWeb Blogs에서)
- 30개 해당 LLM 생성 웹사이트 (B12.io 사용)
- 검색 엔진 결과: 17,036개 웹사이트 (최종 10,232개 유효 웹사이트)
- Common Crawl: 10,479개 무작위 웹사이트 (2020-2025년)
- 정확도 (Accuracy)
- 거짓 양성률 (False Positive Rate, FPR)
- 분포 외 일반화 성능
- Binoculars 탐지기 (페이지 수준)
- 기타 11가지 텍스트 탐지기의 비교 테스트
- Binoculars를 기본 탐지기로 사용
- 최종 분류를 위해 선형 SVM 사용
- 웹사이트당 15-20개 페이지 샘플링
- 특징으로 9개 십분위수 사용
- 데이터셋 간 정확도: 100% (Company 훈련→Personal 테스트, 그 반대도)
- Binoculars 페이지 수준 정확도: 최대 93%
- SVM 웹사이트 수준 정확도: 100% (LLM과 인간 웹사이트 완전 분리)
- 검색 엔진 결과:
- 1,019개 LLM 주도 웹사이트 탐지 (9.96%)
- LLM 웹사이트가 검색 순위에서 유의미한 불리함 없음
- 모호한 경계 현상 발견 (부분 LLM 콘텐츠 웹사이트)
- Common Crawl 분석:
- 전체 탐지율: 4.30% (451/10,479)
- ChatGPT 출시 후 웹사이트: 7.25% (358/4,938)
- 2024-2025년 신규 웹사이트: 10.08% (77/764)
- 거짓 양성률: 1.22% (16/1,315, ChatGPT 이전 웹사이트)
- 증가 추세: LLM 주도 웹사이트의 비율이 시간에 따라 유의미하게 증가
- 검색 편향: 검색 엔진 결과의 LLM 웹사이트 비율이 무작위 샘플링보다 훨씬 높음
- 순위 영향: 검색 엔진이 LLM 주도 콘텐츠를 효과적으로 처벌하지 않음
- 콘텐츠 특징: LLM 웹사이트는 일반적으로 광고가 많은 일반 블로그이며 저자 정보는 허위
- 집계 분석의 효과성: 단일 페이지 탐지기 정확도가 93%에 불과해도 웹사이트 수준 탐지는 100% 달성
- 필터링 전략의 중요성: 탐지 성능에 대한 노이즈의 영향을 크게 감소
- 기존 연구는 주로 텍스트 조각 수준의 탐지에 초점
- Binoculars 등 탐지기는 다양한 공격에서 좋은 성능 발휘
- 그러나 실제 웹 환경에서 정확성 부족
- 웹페이지 콘텐츠 특성에 맞춘 탐지 방법 부족
- 기존 방법이 웹 콘텐츠의 다양성과 노이즈를 고려하지 않음
- 주로 텍스트 분야에 집중
- 전체 웹사이트 생태계에 대한 영향 연구 부족
- 제안된 집계 탐지 파이프라인이 웹사이트 수준 LLM 콘텐츠 탐지에서 우수한 성능 발휘
- LLM 주도 웹사이트가 웹상에서 빠르게 증가, 특히 검색 결과에서
- 기존 검색 엔진이 LLM 콘텐츠를 효과적으로 식별하고 순위를 낮추지 못함
- 웹 생태계가 AI 생성 콘텐츠의 상당한 영향을 받고 있음
- 거짓 양성 문제: 여전히 1.22%의 거짓 양성률 존재
- 경계 모호성: 일부 웹사이트는 혼합 콘텐츠를 포함하여 정확한 분류 어려움
- 데이터셋 규모: 기준 데이터셋이 상대적으로 작음 (120개 웹사이트)
- 탐지기 의존성: 성능이 기본 텍스트 탐지기의 품질에 영향을 받음
- LLM 콘텐츠 생성자의 동기 및 방법 연구
- AI 이미지 및 기타 AI 생성 콘텐츠 탐지로 확장
- AI 생성 콘텐츠가 웹 생태계에 미치는 영향 정량화
- 혼합 콘텐츠 웹사이트를 처리하기 위한 탐지 방법 개선
- 실제 문제 지향: 현재 웹 환경의 중요한 문제 해결
- 방법 혁신: 페이지 수준 탐지에서 웹사이트 수준 탐지로의 집계 방법
- 실험 엄격성: 데이터셋 간 검증으로 방법의 일반화 보장
- 대규모 검증: 2만 개 실제 웹사이트에 대한 테스트로 설득력 있음
- 중요 발견: 웹에서 LLM 콘텐츠의 증가 추세 파악
- 기준 데이터셋 제한: 120개 웹사이트만으로는 대표성이 부족할 수 있음
- 탐지기 선택: Binoculars 성능에 과도하게 의존
- 경계 처리: 혼합 콘텐츠 웹사이트에 대한 처리 전략이 불완전
- 동적 적응성: LLM 기술의 빠른 발전이 탐지에 미치는 영향을 고려하지 않음
- 학술 기여: 웹사이트 수준 LLM 콘텐츠 탐지를 처음으로 체계적으로 연구
- 실용적 가치: 검색 엔진 및 콘텐츠 플랫폼에 효과적인 도구 제공
- 사회적 의의: 웹 콘텐츠 품질 및 사용자 경험 유지에 도움
- 재현성: 방법 설명이 명확하여 재현 및 개선 용이
- 검색 엔진 최적화: 저품질 AI 생성 콘텐츠 식별 및 순위 낮추기
- 콘텐츠 플랫폼 규제: 플랫폼의 AI 생성 콘텐츠 대규모 탐지
- 학술 연구: AI가 웹 생태계에 미치는 영향 분석
- 규제 준수: AI 콘텐츠 공개 요구사항 이행 지원
- Barbaresi, A. (2021). Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction. In ACL.
- Dugan, L. et al. (2024). RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors. In ACL.
- Hans, A. et al. (2024). Spotting llms with binoculars: Zero-shot detection of machine-generated text. In ICML.
이 논문은 AI 생성 콘텐츠 탐지 분야에서 중요한 의미를 가지며, 효과적인 기술 솔루션을 제시할 뿐만 아니라 대규모 실증 연구를 통해 현재 웹 생태계가 직면한 과제를 드러냅니다. 그 집계 탐지 전략과 웹사이트 수준 분석 방법은 후속 연구에 귀중한 통찰력을 제공합니다.