2025-11-12T22:19:11.052121

Preprint: Poster: Did I Just Browse A Website Written by LLMs?

He, Govindan, Madhyastha
Increasingly, web content is automatically generated by large language models (LLMs) with little human input. We call this "LLM-dominant" content. Since LLMs plagiarize and hallucinate, LLM-dominant content can be unreliable and unethical. Yet, websites rarely disclose such content, and human readers struggle to distinguish it. Thus, we must develop reliable detectors for LLM-dominant content. However, state-of-the-art LLM detectors are inaccurate on web content, because web content has low positive rates, complex markup, and diverse genres, instead of clean, prose-like benchmark data SoTA detectors are optimized for. We propose a highly reliable, scalable pipeline that classifies entire websites. Instead of naively classifying text extracted from each page, we classify each site based on an LLM text detector's outputs of multiple prose-like pages to boost accuracies. We train and evaluate our detector by collecting 2 distinct ground truth datasets totaling 120 sites, and obtain 100% accuracies testing across them. In the wild, we detect a sizable portion of sites as LLM-dominant among 10k sites in search engine results and 10k in Common Crawl archives. We find LLM-dominant sites are growing in prevalence and rank highly in search results, raising questions about their impact on end users and the overall Web ecosystem.
academic

рдкреНрд░реАрдкреНрд░рд┐рдВрдЯ: рдкреЛрд╕реНрдЯрд░: рдХреНрдпрд╛ рдореИрдВрдиреЗ рдЕрднреА рдПрдХ рдРрд╕реА рд╡реЗрдмрд╕рд╛рдЗрдЯ рдмреНрд░рд╛рдЙрдЬрд╝ рдХреА рд╣реИ рдЬреЛ LLMs рджреНрд╡рд╛рд░рд╛ рд▓рд┐рдЦреА рдЧрдИ рд╣реИ?

рдореВрд▓ рдЬрд╛рдирдХрд╛рд░реА

  • рдкреЗрдкрд░ ID: 2507.13933
  • рд╢реАрд░реНрд╖рдХ: Poster: Did I Just Browse A Website Written by LLMs?
  • рд▓реЗрдЦрдХ: Sichang Steven He, Ramesh Govindan, Harsha V. Madhyastha (рдпреВрдирд┐рд╡рд░реНрд╕рд┐рдЯреА рдСрдлрд╝ рд╕рд╛рдЙрджрд░реНрди рдХреИрд▓рд┐рдлреЛрд░реНрдирд┐рдпрд╛)
  • рд╡рд░реНрдЧреАрдХрд░рдг: cs.NI cs.AI cs.CL cs.IR
  • рдкреНрд░рдХрд╛рд╢рди рд╕рдордп/рд╕рдореНрдореЗрд▓рди: IMC '25 (2025 ACM Internet Measurement Conference), 28тАУ31 рдЕрдХреНрдЯреВрдмрд░, 2025, рдореИрдбрд┐рд╕рди, WI, USA
  • рдкреЗрдкрд░ рд▓рд┐рдВрдХ: https://doi.org/10.1145/3730567.3768603

рд╕рд╛рд░рд╛рдВрд╢

рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓ (LLMs) рдХреЗ рдЙрджрдп рдХреЗ рд╕рд╛рде, рдЕрдзрд┐рдХрд╛рдВрд╢ рд╡реЗрдм рд╕рд╛рдордЧреНрд░реА LLMs рджреНрд╡рд╛рд░рд╛ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рд░реВрдк рд╕реЗ рдЙрддреНрдкрдиреНрди рдХреА рдЬрд╛ рд░рд╣реА рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рдиреНрдпреВрдирддрдо рдорд╛рдирд╡реАрдп рдЗрдирдкреБрдЯ рд╣реЛрддрд╛ рд╣реИред рд▓реЗрдЦрдХреЛрдВ рдиреЗ рдРрд╕реА рд╕рд╛рдордЧреНрд░реА рдХреЛ "LLM-рдкреНрд░рдзрд╛рди" рд╕рд╛рдордЧреНрд░реА рдХрд╣рд╛ рд╣реИред LLMs рдореЗрдВ рд╕рд╛рд╣рд┐рддреНрдпрд┐рдХ рдЪреЛрд░реА рдФрд░ рднреНрд░рдо рдХреА рд╕рдорд╕реНрдпрд╛рдУрдВ рдХреЗ рдХрд╛рд░рдг, LLM-рдкреНрд░рдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдЕрд╡рд┐рд╢реНрд╡рд╕рдиреАрдп рдФрд░ рдЕрдиреИрддрд┐рдХ рд╣реЛ рд╕рдХрддреА рд╣реИред рд╣рд╛рд▓рд╛рдВрдХрд┐, рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ рд╢рд╛рдпрдж рд╣реА рдХрднреА рдРрд╕реА рд╕рд╛рдордЧреНрд░реА рдХрд╛ рдЦреБрд▓рд╛рд╕рд╛ рдХрд░рддреА рд╣реИрдВ, рдФрд░ рдорд╛рдирд╡ рдкрд╛рдардХреЛрдВ рдХреЛ рднреА рдЕрдВрддрд░ рдХрд░рдирд╛ рдореБрд╢реНрдХрд┐рд▓ рд╣реЛрддрд╛ рд╣реИред рдЗрд╕рд▓рд┐рдП, рд╡рд┐рд╢реНрд╡рд╕рдиреАрдп LLM-рдкреНрд░рдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдбрд┐рдЯреЗрдХреНрдЯрд░ рд╡рд┐рдХрд╕рд┐рдд рдХрд░рдирд╛ рдЖрд╡рд╢реНрдпрдХ рд╣реИред рдореМрдЬреВрджрд╛ рдЕрддреНрдпрд╛рдзреБрдирд┐рдХ LLM рдбрд┐рдЯреЗрдХреНрдЯрд░ рд╡реЗрдм рд╕рд╛рдордЧреНрд░реА рдкрд░ рдЦрд░рд╛рдм рдкреНрд░рджрд░реНрд╢рди рдХрд░рддреЗ рд╣реИрдВ, рдХреНрдпреЛрдВрдХрд┐ рд╡реЗрдм рд╕рд╛рдордЧреНрд░реА рдореЗрдВ рдХрдо рд╕рдХрд╛рд░рд╛рддреНрдордХ рджрд░, рдЬрдЯрд┐рд▓ рд▓реЗрдмрд▓рд┐рдВрдЧ рдФрд░ рд╡рд┐рд╡рд┐рдз рдкреНрд░рдХрд╛рд░ рд╣реЛрддреЗ рд╣реИрдВ, рди рдХрд┐ рдореМрдЬреВрджрд╛ рдбрд┐рдЯреЗрдХреНрдЯрд░ рджреНрд╡рд╛рд░рд╛ рдЕрдиреБрдХреВрд▓рд┐рдд рд╕реНрд╡рдЪреНрдЫ рдЧрджреНрдп рдмреЗрдВрдЪрдорд╛рд░реНрдХ рдбреЗрдЯрд╛ред

рдпрд╣ рдкреЗрдкрд░ рдкреВрд░реА рд╡реЗрдмрд╕рд╛рдЗрдЯ рдХреЛ рд╡рд░реНрдЧреАрдХреГрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрддреНрдпрдзрд┐рдХ рд╡рд┐рд╢реНрд╡рд╕рдиреАрдп, рд╕реНрдХреЗрд▓реЗрдмрд▓ рдкрд╛рдЗрдкрд▓рд╛рдЗрди рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдХрд░рддрд╛ рд╣реИред рдпрд╣ рд╡рд┐рдзрд┐ рдкреНрд░рддреНрдпреЗрдХ рдкреГрд╖реНрда рд╕реЗ рдирд┐рдХрд╛рд▓реА рдЧрдИ рд╕рд╛рдордЧреНрд░реА рдХреЛ рд╕рд░рд▓рддрд╛ рд╕реЗ рд╡рд░реНрдЧреАрдХреГрдд рдХрд░рдиреЗ рдХреЗ рдмрдЬрд╛рдп, рдХрдИ рдЧрджреНрдп рдкреГрд╖реНрдареЛрдВ рдкрд░ LLM рдкрд╛рда рдбрд┐рдЯреЗрдХреНрдЯрд░ рдХреЗ рдЖрдЙрдЯрдкреБрдЯ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдкреНрд░рддреНрдпреЗрдХ рд╕рд╛рдЗрдЯ рдХреЛ рд╡рд░реНрдЧреАрдХреГрдд рдХрд░рддреА рд╣реИ, рдЬрд┐рд╕рд╕реЗ рд╕рдЯреАрдХрддрд╛ рдореЗрдВ рд╕реБрдзрд╛рд░ рд╣реЛрддрд╛ рд╣реИред рджреЛ рдЕрд▓рдЧ-рдЕрд▓рдЧ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдбреЗрдЯрд╛рд╕реЗрдЯ (рдХреБрд▓ 120 рд╕рд╛рдЗрдЯреЗрдВ) рдПрдХрддреНрд░ рдХрд░рдХреЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдФрд░ рдореВрд▓реНрдпрд╛рдВрдХрди рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ, рдХреНрд░реЙрд╕-рдбреЗрдЯрд╛рд╕реЗрдЯ рдкрд░реАрдХреНрд╖рдг рдореЗрдВ 100% рд╕рдЯреАрдХрддрд╛ рдкреНрд░рд╛рдкреНрдд рдХреА рдЧрдИ рд╣реИред рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдЕрдиреБрдкреНрд░рдпреЛрдЧ рдореЗрдВ, рдЦреЛрдЬ рдЗрдВрдЬрди рдкрд░рд┐рдгрд╛рдореЛрдВ рдФрд░ Common Crawl рд╕рдВрдЧреНрд░рд╣ рдореЗрдВ рдкреНрд░рддреНрдпреЗрдХ 10,000 рд╕рд╛рдЗрдЯреЛрдВ рдореЗрдВ LLM-рдкреНрд░рдзрд╛рди рд╕рд╛рдЗрдЯреЛрдВ рдХрд╛ рдПрдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдЕрдиреБрдкрд╛рдд рдкрд╛рдпрд╛ рдЧрдпрд╛, рдЬрд┐рд╕рд╕реЗ рдкрддрд╛ рдЪрд▓рддрд╛ рд╣реИ рдХрд┐ рдЗрди рд╕рд╛рдЗрдЯреЛрдВ рдХреА рд▓реЛрдХрдкреНрд░рд┐рдпрддрд╛ рдмрдврд╝ рд░рд╣реА рд╣реИ рдФрд░ рдЦреЛрдЬ рдкрд░рд┐рдгрд╛рдореЛрдВ рдореЗрдВ рдЙрдЪреНрдЪ рд░реИрдВрдХрд┐рдВрдЧ рд╣реИред

рдЕрдиреБрд╕рдВрдзрд╛рди рдкреГрд╖реНрдарднреВрдорд┐ рдФрд░ рдкреНрд░реЗрд░рдгрд╛

рд╕рдорд╕реНрдпрд╛ рдкрд░рд┐рднрд╛рд╖рд╛

  1. рдореБрдЦреНрдп рд╕рдорд╕реНрдпрд╛: рд╡реЗрдм рдкрд░ рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рджреНрд╡рд╛рд░рд╛ рдЙрддреНрдкрдиреНрди "LLM-рдкреНрд░рдзрд╛рди" рд╡реЗрдмрд╕рд╛рдЗрдЯ рд╕рд╛рдордЧреНрд░реА рдХреЛ рдХреИрд╕реЗ рд╡рд┐рд╢реНрд╡рд╕рдиреАрдп рд░реВрдк рд╕реЗ рдкрд╣рдЪрд╛рдирд╛ рдЬрд╛рдП
  2. рд╕рдорд╕реНрдпрд╛ рдХреА рдорд╣рддреНрддрд╛:
    • LLM-рдЙрддреНрдкрдиреНрди рд╕рд╛рдордЧреНрд░реА рдореЗрдВ рд╕рд╛рд╣рд┐рддреНрдпрд┐рдХ рдЪреЛрд░реА рдФрд░ рднреНрд░рдо рдХреА рд╕рдорд╕реНрдпрд╛рдПрдВ рд╣реИрдВ, рдЬреЛ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛рдУрдВ рдХреЛ рдЧреБрдорд░рд╛рд╣ рдХрд░ рд╕рдХрддреА рд╣реИрдВ
    • рдпреВрд░реЛрдкреАрдп рд╕рдВрдШ рдХрд╛ AI рдЕрдзрд┐рдирд┐рдпрдо AI рдЙрдкрдпреЛрдЧ рдХрд╛ рдЦреБрд▓рд╛рд╕рд╛ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ рд╢рд╛рдпрдж рд╣реА рдХрднреА рдЗрд╕рдХрд╛ рдкрд╛рд▓рди рдХрд░рддреА рд╣реИрдВ
    • рдордиреБрд╖реНрдп LLM-рдЙрддреНрдкрдиреНрди рд╕рд╛рдордЧреНрд░реА рдХреЛ рдЕрд▓рдЧ рдХрд░рдирд╛ рдореБрд╢реНрдХрд┐рд▓ рдкрд╛рддреЗ рд╣реИрдВ

рдореМрдЬреВрджрд╛ рд╡рд┐рдзрд┐рдпреЛрдВ рдХреА рд╕реАрдорд╛рдПрдВ

рд▓реЗрдЦрдХреЛрдВ рдиреЗ рддреАрди рдореБрдЦреНрдп рдЪреБрдиреМрддрд┐рдпреЛрдВ рдХреА рдкрд╣рдЪрд╛рди рдХреА рд╣реИ:

  1. рдкрд╛рда рдбрд┐рдЯреЗрдХреНрдЯрд░ рдХреА рдЕрд╢реБрджреНрдзрд┐: рдореМрдЬреВрджрд╛ рдЕрддреНрдпрд╛рдзреБрдирд┐рдХ рдбрд┐рдЯреЗрдХреНрдЯрд░ рдХрдо рдЭреВрдареА рд╕рдХрд╛рд░рд╛рддреНрдордХ рджрд░ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╡рд╛рд▓реА рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреА рд╕реЗрдЯрд┐рдВрдЧ рдореЗрдВ рдЦрд░рд╛рдм рдкреНрд░рджрд░реНрд╢рди рдХрд░рддреЗ рд╣реИрдВ
  2. рд╡реЗрдм рд╕рд╛рдордЧреНрд░реА рд╢реЛрд░: рдбрд┐рдЯреЗрдХреНрдЯрд░ рд╕реНрд╡рдЪреНрдЫ рдЧрджреНрдп рдХреЗ рд▓рд┐рдП рдбрд┐рдЬрд╝рд╛рдЗрди рдХрд┐рдП рдЧрдП рд╣реИрдВ, рд╡реЗрдм рдХреЗ рд╡рд┐рд╡рд┐рдз рдкреНрд░рдХрд╛рд░реЛрдВ (рдЬреИрд╕реЗ рд▓рд┐рдВрдХ рд╕реВрдЪрд┐рдпрд╛рдВ, рдЧреЛрдкрдиреАрдпрддрд╛ рд╡рд┐рд╡рд░рдг) рдкрд░ рдЦрд░рд╛рдм рдкреНрд░рджрд░реНрд╢рди рдХрд░рддреЗ рд╣реИрдВ
  3. рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд▓реЗрдмрд▓ рдХреА рдХрдореА: рдкрд╛рда рдЦрдВрдб рдбрд┐рдЯреЗрдХреНрд╢рди рдХреЗ рд▓рд┐рдП рдХрдИ рдмреЗрдВрдЪрдорд╛рд░реНрдХ рдбреЗрдЯрд╛рд╕реЗрдЯ рд╣реИрдВ, рд▓реЗрдХрд┐рди рд╡реЗрдм рдкреГрд╖реНрда рд╕реНрддрд░ рдХреЗ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХреА рдХрдореА рд╣реИ

рдЕрдиреБрд╕рдВрдзрд╛рди рдкреНрд░реЗрд░рдгрд╛

  • AI рд╕реЗрд╡рд╛рдПрдВ рдХрд┐рд╕реА рдХреЛ рднреА рд╕рд╕реНрддреЗ рдореЗрдВ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рд╡реЗрдм рд╕рд╛рдордЧреНрд░реА рдЙрддреНрдкрдиреНрди рдХрд░рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рдмрдирд╛рддреА рд╣реИрдВ
  • рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛рдУрдВ рдиреЗ рдСрдирд▓рд╛рдЗрди LLM-рдкреНрд░рдзрд╛рди рд▓реЗрдЦ рджреЗрдЦрдиреЗ рдХреА рд╢рд┐рдХрд╛рдпрдд рдХрд░рдирд╛ рд╢реБрд░реВ рдХрд░ рджрд┐рдпрд╛ рд╣реИ
  • рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдЕрдиреБрднрд╡ рдФрд░ рд╡реЗрдм рдкрд╛рд░рд┐рд╕реНрдерд┐рддрд┐рдХреА рддрдВрддреНрд░ рдХреА рд░рдХреНрд╖рд╛ рдХреЗ рд▓рд┐рдП рд╡рд┐рд╢реНрд╡рд╕рдиреАрдп рдбрд┐рдЯреЗрдХреНрд╢рди рд╡рд┐рдзрд┐ рд╡рд┐рдХрд╕рд┐рдд рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ

рдореБрдЦреНрдп рдпреЛрдЧрджрд╛рди

  1. рд╡реЗрдмрд╕рд╛рдЗрдЯ рд╕реНрддрд░ рдкрд░ LLM рд╕рд╛рдордЧреНрд░реА рдбрд┐рдЯреЗрдХреНрд╢рди рдкрд╛рдЗрдкрд▓рд╛рдЗрди рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдХреА: рдХрдИ рдкреГрд╖реНрдареЛрдВ рдХреЗ рдбрд┐рдЯреЗрдХреНрд╢рди рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреЛ рдПрдХрддреНрд░рд┐рдд рдХрд░рдХреЗ рд╕рдЯреАрдХрддрд╛ рдореЗрдВ рд╕реБрдзрд╛рд░
  2. рд╡рд┐рднрд┐рдиреНрди рд╕реНрд░реЛрддреЛрдВ рд╕реЗ рджреЛ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдбреЗрдЯрд╛рд╕реЗрдЯ рдХрд╛ рдирд┐рд░реНрдорд╛рдг: рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдФрд░ рдореВрд▓реНрдпрд╛рдВрдХрди рдХреЗ рд▓рд┐рдП рдХреБрд▓ 120 рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ
  3. 100% рдХреНрд░реЙрд╕-рдбреЗрдЯрд╛рд╕реЗрдЯ рд╕рдЯреАрдХрддрд╛ рдкреНрд░рд╛рдкреНрдд рдХреА: рдХрдареЛрд░ рд╡рд┐рддрд░рдг-рдмрд╛рд╣рд░ рдкрд░реАрдХреНрд╖рдг рдореЗрдВ рдЙрддреНрдХреГрд╖реНрдЯ рдкреНрд░рджрд░реНрд╢рди
  4. рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рдЕрдиреБрднрд╡рдЬрдиреНрдп рдЕрдзреНрдпрдпрди рдкреНрд░рджрд╛рди рдХрд┐рдпрд╛: 20,000 рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╡реЗрдмрд╕рд╛рдЗрдЯреЛрдВ рдХрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг, LLM-рдкреНрд░рдзрд╛рди рд╡реЗрдмрд╕рд╛рдЗрдЯреЛрдВ рдХреЗ рд╡рд┐рдХрд╛рд╕ рдкреНрд░рд╡реГрддреНрддрд┐ рдХрд╛ рдЦреБрд▓рд╛рд╕рд╛
  5. рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╡реЗрдм рдкрд╛рд░рд┐рд╕реНрдерд┐рддрд┐рдХреА рддрдВрддреНрд░ рдЕрдВрддрд░реНрджреГрд╖реНрдЯрд┐ рдХреА рдЦреЛрдЬ рдХреА: LLM-рдкреНрд░рдзрд╛рди рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ рдЦреЛрдЬ рдкрд░рд┐рдгрд╛рдореЛрдВ рдореЗрдВ рдЙрдЪреНрдЪ рд░реИрдВрдХрд┐рдВрдЧ рдФрд░ рдмрдврд╝рддреА рд▓реЛрдХрдкреНрд░рд┐рдпрддрд╛

рд╡рд┐рдзрд┐ рд╡рд┐рд╡рд░рдг

рдХрд╛рд░реНрдп рдкрд░рд┐рднрд╛рд╖рд╛

  • рдЗрдирдкреБрдЯ: рд╡реЗрдмрд╕рд╛рдЗрдЯ URL
  • рдЖрдЙрдЯрдкреБрдЯ: рджреНрд╡рд┐рдЖрдзрд╛рд░реА рд╡рд░реНрдЧреАрдХрд░рдг рдкрд░рд┐рдгрд╛рдо (LLM-рдкреНрд░рдзрд╛рди рдмрдирд╛рдо рдорд╛рдирд╡-рдкреНрд░рдзрд╛рди)
  • рдмрд╛рдзрд╛: рд╡реЗрдмрд╕рд╛рдЗрдЯ рдХреЗ рдкрд╛рд╕ рдХрдо рд╕реЗ рдХрдо 15 рдлрд╝рд┐рд▓реНрдЯрд░ рдпреЛрдЧреНрдп рдкреГрд╖реНрда рд╣реЛрдиреЗ рдЪрд╛рд╣рд┐рдП

рдореЙрдбрд▓ рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░

1. рдкрд╛рда рдЕрдзрд┐рдЧреНрд░рд╣рдг (Text Acquisition)

  • рд╕рд╛рдЗрдЯрдореИрдк рдпрд╛ Wayback Machine рд╕рд╛рдордЧреНрд░реА рд╕реВрдЪрдХрд╛рдВрдХ рд╕реЗ рдкреГрд╖реНрдареЛрдВ рдХрд╛ рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рдирдореВрдирд╛
  • HTML рдкреГрд╖реНрдареЛрдВ рдХреЛ рдПрдХреНрд╕реЗрд╕ рдФрд░ рд░реЗрдВрдбрд░ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП Chromium рдХрд╛ рдЙрдкрдпреЛрдЧ
  • рдореБрдЦреНрдп рдкрд╛рда рд╕рд╛рдордЧреНрд░реА рдирд┐рдХрд╛рд▓рдиреЗ рдХреЗ рд▓рд┐рдП Trafilatura рд▓рд╛рдЗрдмреНрд░реЗрд░реА рдХрд╛ рдЙрдкрдпреЛрдЧ

2. рд╕реНрдХреЛрд░рд┐рдВрдЧ рдФрд░ рдлрд╝рд┐рд▓реНрдЯрд░рд┐рдВрдЧ (Scoring and Filtering)

  • LLM рдкрд╛рда рдбрд┐рдЯреЗрдХреНрд╢рди рдХреЗ рд▓рд┐рдП Binoculars рдбрд┐рдЯреЗрдХреНрдЯрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ
  • рдХрдареЛрд░ рдлрд╝рд┐рд▓реНрдЯрд░рд┐рдВрдЧ рдирд┐рдпрдо рд▓рд╛рдЧреВ рдХрд░реЗрдВ:
    • рдЫреЛрдЯреЗ рдкрд╛рда рдХреЛ рдлрд╝рд┐рд▓реНрдЯрд░ рдХрд░реЗрдВ
    • рд╕реВрдЪрд┐рдпреЛрдВ, рддрд╛рд▓рд┐рдХрд╛рдУрдВ, рдЙрдЪреНрдЪ рд▓рд┐рдВрдХ рдЕрдиреБрдкрд╛рдд рд╡рд╛рд▓реА рд╕рд╛рдордЧреНрд░реА рдХреЛ рдлрд╝рд┐рд▓реНрдЯрд░ рдХрд░реЗрдВ
    • рд╕рд╛рдЗрдЯ-рд╡реНрдпрд╛рдкреА рдбреБрдкреНрд▓рд┐рдХреЗрдЯ рдкрд╛рда рдХреЛ рдлрд╝рд┐рд▓реНрдЯрд░ рдХрд░реЗрдВ
  • рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░реЗрдВ рдХрд┐ рдЕрдзрд┐рдХрд╛рдВрд╢ рдлрд╝рд┐рд▓реНрдЯрд░ рдХреА рдЧрдИ рд╕рд╛рдордЧреНрд░реА рдЧрджреНрдп рд░реВрдк рдореЗрдВ рд╣реИ

3. рдПрдХрддреНрд░реАрдХрд░рдг рд╡рд┐рд╢реНрд▓реЗрд╖рдг (Aggregate Analysis)

  • рдкреНрд░рддреНрдпреЗрдХ рд╡реЗрдмрд╕рд╛рдЗрдЯ рдХреЗ рд▓рд┐рдП 15-20 рдкреГрд╖реНрдареЛрдВ рдХрд╛ рдирдореВрдирд╛
  • рдкреНрд░рддреНрдпреЗрдХ рдкреГрд╖реНрда рдХреЗ рд▓рд┐рдП Binoculars рд╕реНрдХреЛрд░ рдХреА рдЧрдгрдирд╛ рдХрд░реЗрдВ
  • рд╕реНрдХреЛрд░ рдХреЗ 9 рджрд╢рдорд▓рд╡ рдХреЗ рд░реВрдк рдореЗрдВ рдлреАрдЪрд░ рд╡реЗрдХреНрдЯрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВ
  • рд╡реЗрдмрд╕рд╛рдЗрдЯ рд╡рд░реНрдЧреАрдХрд░рдг рдХреЗ рд▓рд┐рдП рд░реИрдЦрд┐рдХ рд╕рдорд░реНрдерди рд╡реЗрдХреНрдЯрд░ рдорд╢реАрди (SVM) рдХреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░реЗрдВ

рддрдХрдиреАрдХреА рдирд╡рд╛рдЪрд╛рд░ рдмрд┐рдВрджреБ

  1. рдПрдХрддреНрд░реАрдХрд░рдг рд░рдгрдиреАрддрд┐: рдПрдХрд▓ рдкреГрд╖реНрда рдХреЗ рд╡рд░реНрдЧреАрдХрд░рдг рдкрд░рд┐рдгрд╛рдореЛрдВ рдкрд░ рдирд┐рд░реНрднрд░ рдирд╣реАрдВ, рдмрд▓реНрдХрд┐ рдХрдИ рдкреГрд╖реНрдареЛрдВ рдХреЗ рд╕реНрдХреЛрд░ рд╡рд┐рддрд░рдг рдХрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░рдХреЗ рдордЬрдмреВрддрддрд╛ рдореЗрдВ рд╕реБрдзрд╛рд░
  2. рдмреБрджреНрдзрд┐рдорд╛рди рдлрд╝рд┐рд▓реНрдЯрд░рд┐рдВрдЧ: рд╡реЗрдм рд╕рд╛рдордЧреНрд░реА рдХреА рд╡рд┐рд╡рд┐рдзрддрд╛ рдХреЗ рд▓рд┐рдП рд╡рд┐рд╢реЗрд╖ рдлрд╝рд┐рд▓реНрдЯрд░рд┐рдВрдЧ рд░рдгрдиреАрддрд┐ рдбрд┐рдЬрд╝рд╛рдЗрди рдХреА рдЧрдИ
  3. рд╡рд┐рддрд░рдг рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдВ: рд╡реЗрдмрд╕рд╛рдЗрдЯ рд╕рд╛рдордЧреНрд░реА рд╕реНрдХреЛрд░ рд╡рд┐рддрд░рдг рдХреА рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЛ рдХреИрдкреНрдЪрд░ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рджрд╢рдорд▓рд╡ рдХрд╛ рдЙрдкрдпреЛрдЧ
  4. рд╡реЗрдмрд╕рд╛рдЗрдЯ рд╕реНрддрд░ рдбрд┐рдЯреЗрдХреНрд╢рди: рдкреГрд╖реНрда-рд╕реНрддрд░ рдбрд┐рдЯреЗрдХреНрд╢рди рд╕реЗ рд╡реЗрдмрд╕рд╛рдЗрдЯ-рд╕реНрддрд░ рдбрд┐рдЯреЗрдХреНрд╢рди рдореЗрдВ рдЙрдиреНрдирдпрди, рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдЕрдиреБрдкреНрд░рдпреЛрдЧ рдЖрд╡рд╢реНрдпрдХрддрд╛рдУрдВ рдХреЗ рдЕрдиреБрд░реВрдк

рдкреНрд░рдпреЛрдЧрд╛рддреНрдордХ рд╕реЗрдЯрдЕрдк

рдбреЗрдЯрд╛рд╕реЗрдЯ

рдмреЗрд╕рд▓рд╛рдЗрди рдбреЗрдЯрд╛рд╕реЗрдЯ (120 рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ, 2,630 рдлрд╝рд┐рд▓реНрдЯрд░ рдХрд┐рдП рдЧрдП рдкреГрд╖реНрда)

  1. рдХрдВрдкрдиреА рдбреЗрдЯрд╛рд╕реЗрдЯ:
    • 30 рдорд╛рдирд╡-рдкреНрд░рдзрд╛рди рдХрдВрдкрдиреА рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ (Russell 2000 рд╕реНрдЯреЙрдХ рдЗрдВрдбреЗрдХреНрд╕ рд╕реЗ)
    • 30 рд╕рдВрдмрдВрдзрд┐рдд LLM-рдЙрддреНрдкрдиреНрди рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ (Wix.com рдХреЗ AI рд╡реЗрдмрд╕рд╛рдЗрдЯ рдмрд┐рд▓реНрдбрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ)
  2. рд╡реНрдпрдХреНрддрд┐рдЧрдд рдбреЗрдЯрд╛рд╕реЗрдЯ:
    • 30 рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ (IndieWeb Blogs рд╕реЗ)
    • 30 рд╕рдВрдмрдВрдзрд┐рдд LLM-рдЙрддреНрдкрдиреНрди рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ (B12.io рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ)

рд╡рд╛рдЗрд▓реНрдб рдбреЗрдЯрд╛рд╕реЗрдЯ

  1. рдЦреЛрдЬ рдЗрдВрдЬрди рдкрд░рд┐рдгрд╛рдо: 17,036 рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ (рдЕрдВрддрд┐рдо 10,232 рд╡реИрдз рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ)
  2. Common Crawl: 10,479 рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ (2020-2025)

рдореВрд▓реНрдпрд╛рдВрдХрди рдореЗрдЯреНрд░рд┐рдХреНрд╕

  • рд╕рдЯреАрдХрддрд╛ (Accuracy)
  • рдЭреВрдареА рд╕рдХрд╛рд░рд╛рддреНрдордХ рджрд░ (False Positive Rate, FPR)
  • рд╡рд┐рддрд░рдг-рдмрд╛рд╣рд░ рд╕рд╛рдорд╛рдиреНрдпреАрдХрд░рдг рдкреНрд░рджрд░реНрд╢рди

рддреБрд▓рдирд╛рддреНрдордХ рд╡рд┐рдзрд┐рдпрд╛рдВ

  • Binoculars рдбрд┐рдЯреЗрдХреНрдЯрд░ (рдкреГрд╖реНрда-рд╕реНрддрд░)
  • рдЕрдиреНрдп 11 рдкрд╛рда рдбрд┐рдЯреЗрдХреНрдЯрд░реЛрдВ рдХреА рддреБрд▓рдирд╛рддреНрдордХ рдкрд░реАрдХреНрд╖рд╛

рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рд╡рд┐рд╡рд░рдг

  • рдЖрдзрд╛рд░ рдбрд┐рдЯреЗрдХреНрдЯрд░ рдХреЗ рд░реВрдк рдореЗрдВ Binoculars рдХрд╛ рдЙрдкрдпреЛрдЧ
  • рдЕрдВрддрд┐рдо рд╡рд░реНрдЧреАрдХрд░рдг рдХреЗ рд▓рд┐рдП рд░реИрдЦрд┐рдХ SVM
  • рдкреНрд░рддреНрдпреЗрдХ рд╡реЗрдмрд╕рд╛рдЗрдЯ рдХреЗ рд▓рд┐рдП 15-20 рдкреГрд╖реНрдареЛрдВ рдХрд╛ рдирдореВрдирд╛
  • рдлреАрдЪрд░ рдХреЗ рд░реВрдк рдореЗрдВ 9 рджрд╢рдорд▓рд╡ рдХрд╛ рдЙрдкрдпреЛрдЧ

рдкреНрд░рдпреЛрдЧрд╛рддреНрдордХ рдкрд░рд┐рдгрд╛рдо

рдореБрдЦреНрдп рдкрд░рд┐рдгрд╛рдо

рдмреЗрд╕рд▓рд╛рдЗрди рдбреЗрдЯрд╛рд╕реЗрдЯ рдкреНрд░рджрд░реНрд╢рди

  • рдХреНрд░реЙрд╕-рдбреЗрдЯрд╛рд╕реЗрдЯ рд╕рдЯреАрдХрддрд╛: 100% (рдХрдВрдкрдиреА рдкреНрд░рд╢рд┐рдХреНрд╖рдг тЖТ рд╡реНрдпрдХреНрддрд┐рдЧрдд рдкрд░реАрдХреНрд╖рд╛, рдФрд░ рдЗрд╕рдХреЗ рд╡рд┐рдкрд░реАрдд)
  • Binoculars рдкреГрд╖реНрда-рд╕реНрддрд░ рд╕рдЯреАрдХрддрд╛: рдЕрдзрд┐рдХрддрдо 93%
  • SVM рд╡реЗрдмрд╕рд╛рдЗрдЯ-рд╕реНрддрд░ рд╕рдЯреАрдХрддрд╛: 100% (LLM рдФрд░ рдорд╛рдирд╡ рд╡реЗрдмрд╕рд╛рдЗрдЯреЛрдВ рдХреЛ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЕрд▓рдЧ рдХрд░рдирд╛)

рд╡рд╛рдЗрд▓реНрдб рдбрд┐рдЯреЗрдХреНрд╢рди рдкрд░рд┐рдгрд╛рдо

  1. рдЦреЛрдЬ рдЗрдВрдЬрди рдкрд░рд┐рдгрд╛рдо:
    • 1,019 LLM-рдкреНрд░рдзрд╛рди рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ рдкрд╛рдИ рдЧрдИрдВ (9.96%)
    • LLM рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ рдЦреЛрдЬ рд░реИрдВрдХрд┐рдВрдЧ рдореЗрдВ рдХреЛрдИ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдиреБрдХрд╕рд╛рди рдирд╣реАрдВ
    • рдЕрд╕реНрдкрд╖реНрдЯ рд╕реАрдорд╛ рдШрдЯрдирд╛ рдХреА рдЦреЛрдЬ (рдЖрдВрд╢рд┐рдХ LLM рд╕рд╛рдордЧреНрд░реА рд╡рд╛рд▓реА рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ)
  2. Common Crawl рд╡рд┐рд╢реНрд▓реЗрд╖рдг:
    • рдХреБрд▓ рдбрд┐рдЯреЗрдХреНрд╢рди рджрд░: 4.30% (451/10,479)
    • ChatGPT рд░рд┐рд▓реАрдЬ рдХреЗ рдмрд╛рдж рдХреА рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ: 7.25% (358/4,938)
    • 2024-2025 рдХреА рдирдИ рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ: 10.08% (77/764)
    • рдЭреВрдареА рд╕рдХрд╛рд░рд╛рддреНрдордХ рджрд░: 1.22% (16/1,315, ChatGPT рд╕реЗ рдкрд╣рд▓реЗ рдХреА рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ)

рдорд╣рддреНрд╡рдкреВрд░реНрдг рдирд┐рд╖реНрдХрд░реНрд╖

  1. рд╡рд┐рдХрд╛рд╕ рдкреНрд░рд╡реГрддреНрддрд┐: LLM-рдкреНрд░рдзрд╛рди рд╡реЗрдмрд╕рд╛рдЗрдЯреЛрдВ рдХрд╛ рдЕрдиреБрдкрд╛рдд рд╕рдордп рдХреЗ рд╕рд╛рде рдорд╣рддреНрд╡рдкреВрд░реНрдг рд░реВрдк рд╕реЗ рдмрдврд╝рддрд╛ рд╣реИ
  2. рдЦреЛрдЬ рдкреВрд░реНрд╡рд╛рдЧреНрд░рд╣: рдЦреЛрдЬ рдЗрдВрдЬрди рдкрд░рд┐рдгрд╛рдореЛрдВ рдореЗрдВ LLM рд╡реЗрдмрд╕рд╛рдЗрдЯреЛрдВ рдХрд╛ рдЕрдиреБрдкрд╛рдд рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рдирдореВрдиреЗ рд╕реЗ рдмрд╣реБрдд рдЕрдзрд┐рдХ рд╣реИ
  3. рд░реИрдВрдХрд┐рдВрдЧ рдкреНрд░рднрд╛рд╡: рдЦреЛрдЬ рдЗрдВрдЬрди LLM-рдкреНрд░рдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЛ рдкреНрд░рднрд╛рд╡реА рд░реВрдк рд╕реЗ рджрдВрдбрд┐рдд рдирд╣реАрдВ рдХрд░рддреЗ рд╣реИрдВ
  4. рд╕рд╛рдордЧреНрд░реА рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдВ: LLM рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ рдЖрдорддреМрд░ рдкрд░ рдмрдбрд╝реА рдорд╛рддреНрд░рд╛ рдореЗрдВ рд╡рд┐рдЬреНрдЮрд╛рдкрдиреЛрдВ рд╡рд╛рд▓реА рд╕рд╛рдорд╛рдиреНрдп рдмреНрд▓реЙрдЧ рд╣реЛрддреА рд╣реИрдВ, рд▓реЗрдЦрдХ рдХреА рдЬрд╛рдирдХрд╛рд░реА рдирдХрд▓реА рд╣реЛрддреА рд╣реИ

рд╡рд┐рд▓реЛрдкрди рдкреНрд░рдпреЛрдЧ

  • рдПрдХрддреНрд░реАрдХрд░рдг рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреА рдкреНрд░рднрд╛рд╡рд╢реАрд▓рддрд╛: рднрд▓реЗ рд╣реА рдПрдХрд▓ рдкреГрд╖реНрда рдбрд┐рдЯреЗрдХреНрдЯрд░ рд╕рдЯреАрдХрддрд╛ рдХреЗрд╡рд▓ 93% рд╣реЛ, рд╡реЗрдмрд╕рд╛рдЗрдЯ-рд╕реНрддрд░ рдбрд┐рдЯреЗрдХреНрд╢рди рдЕрднреА рднреА 100% рддрдХ рдкрд╣реБрдВрдЪрддрд╛ рд╣реИ
  • рдлрд╝рд┐рд▓реНрдЯрд░рд┐рдВрдЧ рд░рдгрдиреАрддрд┐ рдХреА рдорд╣рддреНрддрд╛: рдбрд┐рдЯреЗрдХреНрд╢рди рдкреНрд░рджрд░реНрд╢рди рдкрд░ рд╢реЛрд░ рдХреЗ рдкреНрд░рднрд╛рд╡ рдХреЛ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд░реВрдк рд╕реЗ рдХрдо рдХрд░рддрд╛ рд╣реИ

рд╕рдВрдмрдВрдзрд┐рдд рдХрд╛рд░реНрдп

рдкрд╛рда рдбрд┐рдЯреЗрдХреНрд╢рди рдХреНрд╖реЗрддреНрд░

  • рдореМрдЬреВрджрд╛ рдХрд╛рд░реНрдп рдореБрдЦреНрдп рд░реВрдк рд╕реЗ рдкрд╛рда рдЦрдВрдб-рд╕реНрддрд░ рдбрд┐рдЯреЗрдХреНрд╢рди рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд╣реИ
  • Binoculars рдЬреИрд╕реЗ рдбрд┐рдЯреЗрдХреНрдЯрд░ рдХрдИ рд╣рдорд▓реЛрдВ рдХреЗ рддрд╣рдд рдЕрдЪреНрдЫрд╛ рдкреНрд░рджрд░реНрд╢рди рдХрд░рддреЗ рд╣реИрдВ
  • рд▓реЗрдХрд┐рди рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╡реЗрдм рд╡рд╛рддрд╛рд╡рд░рдг рдореЗрдВ рд╕рдЯреАрдХрддрд╛ рдЕрдкрд░реНрдпрд╛рдкреНрдд рд╣реИ

рд╡реЗрдм рд╕рд╛рдордЧреНрд░реА рд╡рд┐рд╢реНрд▓реЗрд╖рдг

  • рд╡реЗрдм рд╕рд╛рдордЧреНрд░реА рдХреА рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЗ рд▓рд┐рдП рдбрд┐рдЯреЗрдХреНрд╢рди рд╡рд┐рдзрд┐ рдХреА рдХрдореА
  • рдореМрдЬреВрджрд╛ рд╡рд┐рдзрд┐рдпрд╛рдВ рд╡реЗрдм рд╕рд╛рдордЧреНрд░реА рдХреА рд╡рд┐рд╡рд┐рдзрддрд╛ рдФрд░ рд╢реЛрд░ рдкрд░ рд╡рд┐рдЪрд╛рд░ рдирд╣реАрдВ рдХрд░рддреА рд╣реИрдВ

AI-рдЙрддреНрдкрдиреНрди рд╕рд╛рдордЧреНрд░реА рдбрд┐рдЯреЗрдХреНрд╢рди

  • рдореБрдЦреНрдп рд░реВрдк рд╕реЗ рдкрд╛рда рдХреНрд╖реЗрддреНрд░ рдореЗрдВ рдХреЗрдВрджреНрд░рд┐рдд
  • рдкреВрд░реЗ рд╡реЗрдмрд╕рд╛рдЗрдЯ рдкрд╛рд░рд┐рд╕реНрдерд┐рддрд┐рдХреА рддрдВрддреНрд░ рдкрд░ AI-рдЙрддреНрдкрдиреНрди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреНрд░рднрд╛рд╡ рдХреЗ рдЕрдзреНрдпрдпрди рдХреА рдХрдореА

рдирд┐рд╖реНрдХрд░реНрд╖ рдФрд░ рдЪрд░реНрдЪрд╛

рдореБрдЦреНрдп рдирд┐рд╖реНрдХрд░реНрд╖

  1. рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдПрдХрддреНрд░реАрдХрд░рдг рдбрд┐рдЯреЗрдХреНрд╢рди рдкрд╛рдЗрдкрд▓рд╛рдЗрди рд╡реЗрдмрд╕рд╛рдЗрдЯ-рд╕реНрддрд░ LLM рд╕рд╛рдордЧреНрд░реА рдбрд┐рдЯреЗрдХреНрд╢рди рдкрд░ рдЙрддреНрдХреГрд╖реНрдЯ рдкреНрд░рджрд░реНрд╢рди рдХрд░рддрд╛ рд╣реИ
  2. LLM-рдкреНрд░рдзрд╛рди рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ рд╡реЗрдм рдкрд░ рддреЗрдЬреА рд╕реЗ рдмрдврд╝ рд░рд╣реА рд╣реИрдВ, рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдЦреЛрдЬ рдкрд░рд┐рдгрд╛рдореЛрдВ рдореЗрдВ
  3. рдореМрдЬреВрджрд╛ рдЦреЛрдЬ рдЗрдВрдЬрди LLM рд╕рд╛рдордЧреНрд░реА рдХреЛ рдкреНрд░рднрд╛рд╡реА рд░реВрдк рд╕реЗ рдкрд╣рдЪрд╛рдирдиреЗ рдФрд░ рд░реИрдВрдХрд┐рдВрдЧ рдХрдо рдХрд░рдиреЗ рдореЗрдВ рд╡рд┐рдлрд▓ рд╣реИрдВ
  4. рд╡реЗрдм рдкрд╛рд░рд┐рд╕реНрдерд┐рддрд┐рдХреА рддрдВрддреНрд░ AI-рдЙрддреНрдкрдиреНрди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдкреНрд░рднрд╛рд╡ рдХрд╛ рд╕рд╛рдордирд╛ рдХрд░ рд░рд╣рд╛ рд╣реИ

рд╕реАрдорд╛рдПрдВ

  1. рдЭреВрдареА рд╕рдХрд╛рд░рд╛рддреНрдордХ рд╕рдорд╕реНрдпрд╛: рдЕрднреА рднреА 1.22% рдЭреВрдареА рд╕рдХрд╛рд░рд╛рддреНрдордХ рджрд░ рдореМрдЬреВрдж рд╣реИ
  2. рд╕реАрдорд╛ рдЕрд╕реНрдкрд╖реНрдЯрддрд╛: рдХреБрдЫ рд╡реЗрдмрд╕рд╛рдЗрдЯреЛрдВ рдореЗрдВ рдорд┐рд╢реНрд░рд┐рдд рд╕рд╛рдордЧреНрд░реА рд╣реЛрддреА рд╣реИ, рд╕рдЯреАрдХ рд╡рд░реНрдЧреАрдХрд░рдг рдореБрд╢реНрдХрд┐рд▓ рд╣реИ
  3. рдбреЗрдЯрд╛рд╕реЗрдЯ рдЖрдХрд╛рд░: рдмреЗрд╕рд▓рд╛рдЗрди рдбреЗрдЯрд╛рд╕реЗрдЯ рдЕрдкреЗрдХреНрд╖рд╛рдХреГрдд рдЫреЛрдЯрд╛ рд╣реИ (120 рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ)
  4. рдбрд┐рдЯреЗрдХреНрдЯрд░ рдирд┐рд░реНрднрд░рддрд╛: рдкреНрд░рджрд░реНрд╢рди рдЕрдВрддрд░реНрдирд┐рд╣рд┐рдд рдкрд╛рда рдбрд┐рдЯреЗрдХреНрдЯрд░ рдХреА рдЧреБрдгрд╡рддреНрддрд╛ рд╕реЗ рдкреНрд░рднрд╛рд╡рд┐рдд рд╣реЛрддрд╛ рд╣реИ

рднрд╡рд┐рд╖реНрдп рдХреА рджрд┐рд╢рд╛

  1. LLM рд╕рд╛рдордЧреНрд░реА рдЬрдирд░реЗрдЯрд░ рдХреА рдкреНрд░реЗрд░рдгрд╛ рдФрд░ рд╡рд┐рдзрд┐рдпреЛрдВ рдХрд╛ рдЕрдзреНрдпрдпрди
  2. AI рдЫрд╡рд┐ рдФрд░ рдЕрдиреНрдп AI-рдЙрддреНрдкрдиреНрди рд╕рд╛рдордЧреНрд░реА рдбрд┐рдЯреЗрдХреНрд╢рди рддрдХ рд╡рд┐рд╕реНрддрд╛рд░
  3. рд╡реЗрдм рдкрд╛рд░рд┐рд╕реНрдерд┐рддрд┐рдХреА рддрдВрддреНрд░ рдкрд░ AI-рдЙрддреНрдкрдиреНрди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреНрд░рднрд╛рд╡ рдХреЛ рдорд╛рдкрдирд╛
  4. рдорд┐рд╢реНрд░рд┐рдд рд╕рд╛рдордЧреНрд░реА рд╡реЗрдмрд╕рд╛рдЗрдЯреЛрдВ рдХреЛ рд╕рдВрднрд╛рд▓рдиреЗ рдХреЗ рд▓рд┐рдП рдбрд┐рдЯреЗрдХреНрд╢рди рд╡рд┐рдзрд┐ рдореЗрдВ рд╕реБрдзрд╛рд░

рдЧрд╣рди рдореВрд▓реНрдпрд╛рдВрдХрди

рд╢рдХреНрддрд┐рдпрд╛рдВ

  1. рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рд╕рдорд╕реНрдпрд╛-рдХреЗрдВрджреНрд░рд┐рдд: рд╡рд░реНрддрдорд╛рди рд╡реЗрдм рд╡рд╛рддрд╛рд╡рд░рдг рдореЗрдВ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╕рдорд╕реНрдпрд╛ рдХрд╛ рд╕рдорд╛рдзрд╛рди
  2. рд╡рд┐рдзрд┐ рдирд╡рд╛рдЪрд╛рд░: рдкреГрд╖реНрда-рд╕реНрддрд░ рдбрд┐рдЯреЗрдХреНрд╢рди рд╕реЗ рд╡реЗрдмрд╕рд╛рдЗрдЯ-рд╕реНрддрд░ рдбрд┐рдЯреЗрдХреНрд╢рди рдореЗрдВ рдПрдХрддреНрд░реАрдХрд░рдг рд╡рд┐рдзрд┐
  3. рдкреНрд░рдпреЛрдЧ рдХрдареЛрд░рддрд╛: рдХреНрд░реЙрд╕-рдбреЗрдЯрд╛рд╕реЗрдЯ рд╕рддреНрдпрд╛рдкрди рд╡рд┐рдзрд┐ рдХреА рд╕рд╛рдорд╛рдиреНрдпреАрдХрд░рдг рдХреНрд╖рдорддрд╛ рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рддрд╛ рд╣реИ
  4. рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рд╕рддреНрдпрд╛рдкрди: 20,000 рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╡реЗрдмрд╕рд╛рдЗрдЯреЛрдВ рдкрд░ рдкрд░реАрдХреНрд╖рдг рдкреНрд░реЗрд░рдХ рд╣реИ
  5. рдорд╣рддреНрд╡рдкреВрд░реНрдг рдирд┐рд╖реНрдХрд░реНрд╖: рд╡реЗрдм рдореЗрдВ LLM рд╕рд╛рдордЧреНрд░реА рдХреЗ рд╡рд┐рдХрд╛рд╕ рдкреНрд░рд╡реГрддреНрддрд┐ рдХрд╛ рдЦреБрд▓рд╛рд╕рд╛

рдХрдорд┐рдпрд╛рдВ

  1. рдмреЗрд╕рд▓рд╛рдЗрди рдбреЗрдЯрд╛рд╕реЗрдЯ рд╕реАрдорд╛: рдХреЗрд╡рд▓ 120 рд╡реЗрдмрд╕рд╛рдЗрдЯреЗрдВ, рдкрд░реНрдпрд╛рдкреНрдд рдкреНрд░рддрд┐рдирд┐рдзрд┐ рдирд╣реАрдВ рд╣реЛ рд╕рдХрддреА рд╣реИрдВ
  2. рдбрд┐рдЯреЗрдХреНрдЯрд░ рдЪрдпрди: Binoculars рдХреЗ рдкреНрд░рджрд░реНрд╢рди рдкрд░ рдЕрддреНрдпрдзрд┐рдХ рдирд┐рд░реНрднрд░рддрд╛
  3. рд╕реАрдорд╛ рдкреНрд░рдмрдВрдзрди: рдорд┐рд╢реНрд░рд┐рдд рд╕рд╛рдордЧреНрд░реА рд╡реЗрдмрд╕рд╛рдЗрдЯреЛрдВ рдХреЗ рд▓рд┐рдП рдкреНрд░рдмрдВрдзрди рд░рдгрдиреАрддрд┐ рдЕрдзреВрд░реА рд╣реИ
  4. рдЧрддрд┐рд╢реАрд▓ рдЕрдиреБрдХреВрд▓рди: LLM рддрдХрдиреАрдХ рдХреЗ рддреЗрдЬреА рд╕реЗ рд╡рд┐рдХрд╛рд╕ рдкрд░ рдбрд┐рдЯреЗрдХреНрд╢рди рдХреЗ рдкреНрд░рднрд╛рд╡ рдкрд░ рд╡рд┐рдЪрд╛рд░ рдирд╣реАрдВ рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ

рдкреНрд░рднрд╛рд╡

  1. рд╢реИрдХреНрд╖рдгрд┐рдХ рдпреЛрдЧрджрд╛рди: рд╡реЗрдмрд╕рд╛рдЗрдЯ-рд╕реНрддрд░ LLM рд╕рд╛рдордЧреНрд░реА рдбрд┐рдЯреЗрдХреНрд╢рди рдХрд╛ рдкрд╣рд▓рд╛ рд╡реНрдпрд╡рд╕реНрдерд┐рдд рдЕрдзреНрдпрдпрди
  2. рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдореВрд▓реНрдп: рдЦреЛрдЬ рдЗрдВрдЬрди рдФрд░ рд╕рд╛рдордЧреНрд░реА рдкреНрд▓реЗрдЯрдлреЙрд░реНрдо рдХреЗ рд▓рд┐рдП рдкреНрд░рднрд╛рд╡реА рдЙрдкрдХрд░рдг рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ
  3. рд╕рд╛рдорд╛рдЬрд┐рдХ рдорд╣рддреНрд╡: рд╡реЗрдм рд╕рд╛рдордЧреНрд░реА рдЧреБрдгрд╡рддреНрддрд╛ рдФрд░ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдЕрдиреБрднрд╡ рдмрдирд╛рдП рд░рдЦрдиреЗ рдореЗрдВ рд╕рд╣рд╛рдпрддрд╛
  4. рдкреБрдирд░реБрддреНрдкрд╛рджрдиреАрдпрддрд╛: рд╡рд┐рдзрд┐ рд╡рд┐рд╡рд░рдг рд╕реНрдкрд╖реНрдЯ рд╣реИ, рдкреБрдирд░реБрддреНрдкрд╛рджрди рдФрд░ рд╕реБрдзрд╛рд░ рдореЗрдВ рдЖрд╕рд╛рди

рд▓рд╛рдЧреВ рдкрд░рд┐рджреГрд╢реНрдп

  1. рдЦреЛрдЬ рдЗрдВрдЬрди рдЕрдиреБрдХреВрд▓рди: рдХрдо рдЧреБрдгрд╡рддреНрддрд╛ рд╡рд╛рд▓реА AI-рдЙрддреНрдкрдиреНрди рд╕рд╛рдордЧреНрд░реА рдХреА рдкрд╣рдЪрд╛рди рдФрд░ рдбрд┐рдЧреНрд░реЗрдбрд┐рдВрдЧ
  2. рд╕рд╛рдордЧреНрд░реА рдкреНрд▓реЗрдЯрдлреЙрд░реНрдо рдирд┐рд░реАрдХреНрд╖рдг: рдкреНрд▓реЗрдЯрдлреЙрд░реНрдо рдкрд░ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ AI-рдЙрддреНрдкрдиреНрди рд╕рд╛рдордЧреНрд░реА рдбрд┐рдЯреЗрдХреНрд╢рди
  3. рд╢реИрдХреНрд╖рдгрд┐рдХ рдЕрдиреБрд╕рдВрдзрд╛рди: рд╡реЗрдм рдкрд╛рд░рд┐рд╕реНрдерд┐рддрд┐рдХреА рддрдВрддреНрд░ рдкрд░ AI рдХреЗ рдкреНрд░рднрд╛рд╡ рдХрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг
  4. рдирд┐рдпрд╛рдордХ рдЕрдиреБрдкрд╛рд▓рди: AI рд╕рд╛рдордЧреНрд░реА рдкреНрд░рдХрдЯреАрдХрд░рдг рдЖрд╡рд╢реНрдпрдХрддрд╛рдУрдВ рдХреЛ рд▓рд╛рдЧреВ рдХрд░рдиреЗ рдореЗрдВ рд╕рд╣рд╛рдпрддрд╛

рд╕рдВрджрд░реНрдн

  1. Barbaresi, A. (2021). Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction. In ACL.
  2. Dugan, L. et al. (2024). RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors. In ACL.
  3. Hans, A. et al. (2024). Spotting llms with binoculars: Zero-shot detection of machine-generated text. In ICML.

рдпрд╣ рдкреЗрдкрд░ AI-рдЙрддреНрдкрдиреНрди рд╕рд╛рдордЧреНрд░реА рдбрд┐рдЯреЗрдХреНрд╢рди рдХреНрд╖реЗрддреНрд░ рдореЗрдВ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИ, рди рдХреЗрд╡рд▓ рдкреНрд░рднрд╛рд╡реА рддрдХрдиреАрдХреА рд╕рдорд╛рдзрд╛рди рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдХрд░рддрд╛ рд╣реИ, рдмрд▓реНрдХрд┐ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рдЕрдиреБрднрд╡рдЬрдиреНрдп рдЕрдиреБрд╕рдВрдзрд╛рди рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╡рд░реНрддрдорд╛рди рд╡реЗрдм рдкрд╛рд░рд┐рд╕реНрдерд┐рддрд┐рдХреА рддрдВрддреНрд░ рджреНрд╡рд╛рд░рд╛ рд╕рд╛рдордирд╛ рдХреА рдЬрд╛рдиреЗ рд╡рд╛рд▓реА рдЪреБрдиреМрддрд┐рдпреЛрдВ рдХрд╛ рдЦреБрд▓рд╛рд╕рд╛ рдХрд░рддрд╛ рд╣реИред рдЗрд╕рдХреА рдПрдХрддреНрд░реАрдХрд░рдг рдбрд┐рдЯреЗрдХреНрд╢рди рд░рдгрдиреАрддрд┐ рдФрд░ рд╡реЗрдмрд╕рд╛рдЗрдЯ-рд╕реНрддрд░ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рд╡рд┐рдзрд┐ рдмрд╛рдж рдХреЗ рдЕрдиреБрд╕рдВрдзрд╛рди рдХреЗ рд▓рд┐рдП рдореВрд▓реНрдпрд╡рд╛рди рд╡рд┐рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рддреА рд╣реИред