2025-11-20T03:55:14.474171

Brought a Gun to a Knife Fight: Modern VFM Baselines Outgun Specialized Detectors on In-the-Wild AI Image Detection

Zhou, He, Lin et al.
While specialized detectors for AI-generated images excel on curated benchmarks, they fail catastrophically in real-world scenarios, as evidenced by their critically high false-negative rates on `in-the-wild' benchmarks. Instead of crafting another specialized `knife' for this problem, we bring a `gun' to the fight: a simple linear classifier on a modern Vision Foundation Model (VFM). Trained on identical data, this baseline decisively `outguns' bespoke detectors, boosting in-the-wild accuracy by a striking margin of over 20\%. Our analysis pinpoints the source of the VFM's `firepower': First, by probing text-image similarities, we find that recent VLMs (e.g., Perception Encoder, Meta CLIP2) have learned to align synthetic images with forgery-related concepts (e.g., `AI-generated'), unlike previous versions. Second, we speculate that this is due to data exposure, as both this alignment and overall accuracy plummet on a novel dataset scraped after the VFM's pre-training cut-off date, ensuring it was unseen during pre-training. Our findings yield two critical conclusions: 1) For the real-world `gunfight' of AI-generated image detection, the raw `firepower' of an updated VFM is far more effective than the `craftsmanship' of a static detector. 2) True generalization evaluation requires test data to be independent of the model's entire training history, including pre-training.
academic

Принёс пистолет на ножевой бой: Современные VFM базовые модели превосходят специализированные детекторы при обнаружении AI-изображений в дикой природе

Основная информация

  • ID статьи: 2509.12995
  • Название: Brought a Gun to a Knife Fight: Modern VFM Baselines Outgun Specialized Detectors on In-the-Wild AI Image Detection
  • Авторы: Yue Zhou, Xinan He, Kaiqing Lin, Bing Fan, Feng Ding, Jinhua Zeng, Bin Li
  • Категория: cs.CV (Компьютерное зрение)
  • Дата публикации: препринт arXiv, 15 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2509.12995

Аннотация

Специализированные детекторы AI-генерируемых изображений демонстрируют отличные результаты на тщательно подготовленных эталонных наборах, однако катастрофически отказывают в реальных сценариях, показывая чрезвычайно высокие показатели ложноотрицательных результатов на эталонных наборах "в дикой природе". Вместо того чтобы создавать ещё один специализированный "нож" для решения этой проблемы, авторы привносят "пистолет": простой линейный классификатор на основе современных визуальных фундаментальных моделей (VFM). При обучении на одних и тех же данных этот базовый метод решительно "превосходит" специализированные детекторы, достигая значительного улучшения точности на диких данных более чем на 20%. Анализ раскрывает источник "огневой мощи" VFM: посредством зондирования сходства текст-изображение обнаруживается, что новейшие VLM научились выравнивать синтетические изображения с концепциями, связанными с подделкой, что обусловлено воздействием данных.

Исследовательский контекст и мотивация

Проблемный фон

С взрывным развитием технологии генерирования AI-изображений, особенно создания высокореалистичных синтетических изображений посредством передовых генеративных моделей, значительно ускорилось распространение дезинформации, создавая серьёзные угрозы для общественной безопасности и личной приватности. Следовательно, ключевой вызов при обнаружении AIGI заключается в построении моделей с сильной способностью к обобщению, способных эффективно идентифицировать и верифицировать изображения, генерируемые различными неизвестными методами.

Ограничения существующих подходов

  1. Хрупкость специализированных детекторов: Существующие судебно-экспертные специализированные детекторы показывают превосходные результаты на тщательно подготовленных эталонных наборах, но отказывают в реальных сценариях, особенно плохо работают на диких наборах данных, таких как Chameleon
  2. Недостаточная способность к обобщению: Традиционные методы обнаружения, такие как CNNSpot, UnivFD и др., демонстрируют ложную точность, близкую к нулю на диких наборах данных, что указывает на серьёзные проблемы с обобщением
  3. Ограничения статических эталонных наборов: Существующие протоколы оценки не могут по-настоящему проверить способность моделей справляться с действительно новыми угрозами

Исследовательская мотивация

Ключевое понимание в этой работе заключается в следующем: вместо продолжения разработки сложных специализированных детекторов следует использовать мощные возможности представления современных визуальных фундаментальных моделей. Авторы обнаруживают, что простой линейный классификатор в сочетании с новейшими VFM может значительно превзойти специально разработанные детекторы.

Основные вклады

  1. Установление превосходства современных VFM базовых моделей: Доказано, что простые современные VFM базовые модели превосходят специализированные детекторы в сценариях дикой природы, предоставляя более эффективную стратегию для практических приложений
  2. Раскрытие механизма воздействия данных: Посредством построения верифицируемых невидимых наборов данных выявлено, что воздействие данных является основной причиной успеха, раскрывая фундаментальные недостатки статических эталонных наборов
  3. Предложение динамического протокола оценки: Выступление за переход к динамическим, постоянно обновляемым протоколам оценки, обеспечивающим сохранение тестовых данных в верифицируемо невидимом состоянии
  4. Глубокий анализ семантического выравнивания VLM: Обнаружение того, что современные VLM научились выравнивать синтетические изображения с концепциями, связанными с подделкой, предоставляя семантическое объяснение эффективности

Подробное описание методологии

Определение задачи

Задача обнаружения AI-генерируемых изображений определяется как задача бинарной классификации: для данного входного изображения определить, является ли оно реальным изображением или синтетическим AI-генерируемым изображением.

Архитектура модели

Статья использует чрезвычайно простую архитектуру:

  1. Экстрактор признаков: Использование предварительно обученной VFM в качестве замороженного экстрактора признаков для извлечения признаков токена [CLS] изображения
  2. Классификационная головка: Обучение однослойного линейного классификатора на извлечённых признаках
  3. Без расширения данных: Прямое обучение на наборе данных GenImage без использования каких-либо методов расширения данных

Категории оценённых VFM

  1. Современные VFM (выпущены после 2025 г.): Meta CLIP-2, PE (Perception Encoder), SigLIP-2
  2. Предыдущие модели: CLIP, Meta CLIP, SigLIP
  3. Самоконтролируемые модели: DINOv3, DINOv2

Технические инновационные моменты

  1. Принцип простоты: Отказ от сложного специализированного проектирования, доказывающий эффективность простых методов
  2. Использование фундаментальных моделей: Полное использование богатого представления, полученного современными VFM при обучении на крупномасштабных данных
  3. Анализ семантического выравнивания: Раскрытие внутреннего механизма VLM посредством зондирования сходства текст-изображение

Экспериментальная установка

Наборы данных

Наборы данных для обучения:

  • GenImage (подмножество SD v1.4): используется для обучения линейного классификатора

Наборы данных для оценки:

  1. Источники социальных сетей: WildRF, SocialRF (из Twitter, Facebook, Reddit)
  2. Источники сообщества AI-художников: Chameleon, CommunityAI (из ArtStation, Civitai)
  3. Верифицируемые невидимые наборы данных: WebAIG-25 (содержит изображения из Reddit и частные фотографии, полученные после даты отсечки обучения)

Метрики оценки

  • Средняя точность (Avg.): Общая точность классификации
  • Точность реальных изображений (R.Acc): Точность классификации реальных изображений
  • Точность поддельных изображений (F.Acc): Точность классификации поддельных изображений

Методы сравнения

Включают несколько SOTA специализированных детекторов:

  • CNNSpot, FreqNet, GramNet, UnivFD, NPR, AIDE, PPL, OMAT, NPLB и др.

Детали реализации

  • Использование максимальных официально выпущенных весов для каждой VFM
  • Замораживание параметров VFM, обучение только классификационной головки
  • Обучение на наборе данных GenImage без использования расширения данных

Экспериментальные результаты

Основные результаты

Сравнение GenImage vs Chameleon:

  • Специализированные детекторы показывают отличные результаты на GenImage (PPL: 97,2%, NPLB: 97,1%), но катастрофически падают на Chameleon
  • Современные VFM показывают отличные результаты: PE достигает 96,1%, Meta CLIP-2 достигает 91,8%, DINOv3 достигает 92,4%
  • Улучшение производительности превышает значительный показатель в 20%

Верификация на нескольких наборах данных:

  • Набор данных WildRF: DINOv3 достигает 96,4%, в то время как большинство специализированных детекторов отказывают
  • SocialRF и CommunityAI: PE и DINOv3 достигают соответственно 97,1% и 95,3%

Ключевые находки

Верификация воздействия данных: На верифицируемом невидимом наборе данных WebAIG-25:

  • Специализированные детекторы показывают сильное смещение в сторону "реальности", высокая точность на частных реальных фотографиях, но отказ на новых поддельных изображениях
  • Современные VLM показывают противоположное смещение: превосходны в идентификации новых поддельных изображений, но испытывают трудности с распределённо-внешними реальными фотографиями
  • DINOv3 является единственным исключением, показывая отличные результаты как на реальных, так и на поддельных изображениях (94,5%)

Анализ семантического выравнивания:

  • Старые модели (CLIP, SigLIP) не могут связать поддельные изображения с концепциями, связанными с подделкой
  • Современные VLM (Meta CLIP-2, PE) показывают сильное согласованное выравнивание, с верхними совпадающими концепциями, являющимися терминами, связанными с подделкой, такими как "AI generated"

Визуальный анализ

Визуализация t-SNE показывает:

  • На GenImage как Meta CLIP-2, так и CLIP демонстрируют аналогичные запутанные пространства признаков
  • На Chameleon пространство признаков CLIP хаотично и неразделимо, в то время как Meta CLIP-2 показывает чёткое разделение кластеризации реальных/поддельных

Связанные работы

Развитие специализированных детекторов

Исследователи в этой области разработали различные судебно-экспертные специализированные детекторы, включая:

  1. Методы расширения данных: Введение дополнительных расширенных образцов (полная или частичная реконструкция изображений)
  2. Улучшенные стратегии обучения: Разработка лучших парадигм обучения
  3. Инновации архитектуры: Такие как методы на основе Transformer, обучение в частотной области и др.

Применение VFM при обнаружении

Хотя VFM не были специально разработаны для судебно-экспертной работы, новое поколение фундаментальных моделей демонстрирует поразительную производительность на задачах обнаружения, включая визуально-языковые модели и архитектуры с самоконтролем.

Заключение и обсуждение

Основные выводы

  1. Приоритет практичности: Для обнаружения AI-генерируемых изображений в реальном мире использование сырой "огневой мощи" новейших VFM более эффективно, чем "мастерство" статических детекторов
  2. Инновация протокола оценки: Истинная оценка обобщения требует, чтобы тестовые данные были независимы от всей истории обучения модели, включая этап предварительного обучения

Ограничения

  1. Зависимость от воздействия данных: Превосходство современных VFM в основном происходит из воздействия данных во время предварительного обучения, а не из улучшенной внутренней способности к обобщению
  2. Проблема своевременности: С появлением новых технологий генерирования VFM, обученные на старых данных, могут отказать
  3. Требования к вычислительным ресурсам: Крупные VFM требуют больше вычислительных ресурсов

Направления будущих исследований

  1. Динамическое тестирование: Установление постоянно обновляемых протоколов оценки, обеспечивающих новизну тестовых данных
  2. Истинное исследование обобщения: Разработка методов обнаружения, не зависящих от воздействия данных
  3. Механизмы обновления в реальном времени: Исследование способов быстрой адаптации к новым появляющимся технологиям генерирования

Глубокая оценка

Преимущества

  1. Глубокие понимания: Раскрытие разрыва в производительности между специализированными детекторами и простыми VFM базовыми моделями, оспаривая традиционное понимание в области
  2. Комплексные эксперименты: Систематическая оценка на нескольких диких наборах данных с убедительными результатами
  3. Тщательный анализ механизма: Глубокое исследование коренных причин различий в производительности посредством анализа семантического выравнивания и верифицируемых невидимых наборов данных
  4. Высокая практическая ценность: Предоставление простого и эффективного решения для практических приложений

Недостатки

  1. Ограниченная инновационность методов: По сути, прямое применение существующих VFM с ограниченной технической инновацией
  2. Сомнительная долгосрочная устойчивость: Неизвестна эффективность методов, зависящих от воздействия данных, при столкновении с совершенно новыми технологиями генерирования
  3. Недостаточный теоретический анализ: Отсутствие теоретического объяснения того, почему простого линейного классификатора достаточно

Влияние

  1. Смена парадигмы: Может направить область от сложного специализированного проектирования к использованию универсальных фундаментальных моделей
  2. Инновация стандартов оценки: Продвижение установления более строгих стандартов оценки способности к обобщению
  3. Практическая ценность приложений: Предоставление промышленности немедленно применяемого эффективного решения

Применимые сценарии

  1. Системы обнаружения в реальном времени: Подходит для сценариев приложений, требующих быстрого развёртывания и высокой точности
  2. Крупномасштабная модерация контента: Автоматическая фильтрация контента платформ социальных сетей
  3. Верификация новостей: Помощь новостным организациям в быстрой идентификации AI-генерируемого контента

Библиография

Статья цитирует 86 связанных работ, охватывающих важные работы в нескольких направлениях исследований, включая обнаружение AI-генерируемых изображений, визуальные фундаментальные модели, многомодальное обучение и др., предоставляя прочную теоретическую основу для исследования.


Эта статья, используя свою уникальную метафору "пистолета и ножа", ярко демонстрирует подавляющее превосходство современных VFM в задаче обнаружения AI-генерируемых изображений, не только предоставляя практическое решение, но, что более важно, раскрывая фундаментальные недостатки текущей системы оценки, указывая новое направление для развития области.