2025-11-20T03:55:14.474171

Brought a Gun to a Knife Fight: Modern VFM Baselines Outgun Specialized Detectors on In-the-Wild AI Image Detection

Zhou, He, Lin et al.

While specialized detectors for AI-generated images excel on curated benchmarks, they fail catastrophically in real-world scenarios, as evidenced by their critically high false-negative rates on `in-the-wild' benchmarks. Instead of crafting another specialized `knife' for this problem, we bring a `gun' to the fight: a simple linear classifier on a modern Vision Foundation Model (VFM). Trained on identical data, this baseline decisively `outguns' bespoke detectors, boosting in-the-wild accuracy by a striking margin of over 20\%. Our analysis pinpoints the source of the VFM's `firepower': First, by probing text-image similarities, we find that recent VLMs (e.g., Perception Encoder, Meta CLIP2) have learned to align synthetic images with forgery-related concepts (e.g., `AI-generated'), unlike previous versions. Second, we speculate that this is due to data exposure, as both this alignment and overall accuracy plummet on a novel dataset scraped after the VFM's pre-training cut-off date, ensuring it was unseen during pre-training. Our findings yield two critical conclusions: 1) For the real-world `gunfight' of AI-generated image detection, the raw `firepower' of an updated VFM is far more effective than the `craftsmanship' of a static detector. 2) True generalization evaluation requires test data to be independent of the model's entire training history, including pre-training.

academic

Принёс пистолет на ножевой бой: Современные VFM базовые модели превосходят специализированные детекторы при обнаружении AI-изображений в дикой природе

Основная информация

ID статьи: 2509.12995
Название: Brought a Gun to a Knife Fight: Modern VFM Baselines Outgun Specialized Detectors on In-the-Wild AI Image Detection
Авторы: Yue Zhou, Xinan He, Kaiqing Lin, Bing Fan, Feng Ding, Jinhua Zeng, Bin Li
Категория: cs.CV (Компьютерное зрение)
Дата публикации: препринт arXiv, 15 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2509.12995

Аннотация

Специализированные детекторы AI-генерируемых изображений демонстрируют отличные результаты на тщательно подготовленных эталонных наборах, однако катастрофически отказывают в реальных сценариях, показывая чрезвычайно высокие показатели ложноотрицательных результатов на эталонных наборах "в дикой природе". Вместо того чтобы создавать ещё один специализированный "нож" для решения этой проблемы, авторы привносят "пистолет": простой линейный классификатор на основе современных визуальных фундаментальных моделей (VFM). При обучении на одних и тех же данных этот базовый метод решительно "превосходит" специализированные детекторы, достигая значительного улучшения точности на диких данных более чем на 20%. Анализ раскрывает источник "огневой мощи" VFM: посредством зондирования сходства текст-изображение обнаруживается, что новейшие VLM научились выравнивать синтетические изображения с концепциями, связанными с подделкой, что обусловлено воздействием данных.

Исследовательский контекст и мотивация

Проблемный фон

С взрывным развитием технологии генерирования AI-изображений, особенно создания высокореалистичных синтетических изображений посредством передовых генеративных моделей, значительно ускорилось распространение дезинформации, создавая серьёзные угрозы для общественной безопасности и личной приватности. Следовательно, ключевой вызов при обнаружении AIGI заключается в построении моделей с сильной способностью к обобщению, способных эффективно идентифицировать и верифицировать изображения, генерируемые различными неизвестными методами.

Ограничения существующих подходов

Хрупкость специализированных детекторов: Существующие судебно-экспертные специализированные детекторы показывают превосходные результаты на тщательно подготовленных эталонных наборах, но отказывают в реальных сценариях, особенно плохо работают на диких наборах данных, таких как Chameleon
Недостаточная способность к обобщению: Традиционные методы обнаружения, такие как CNNSpot, UnivFD и др., демонстрируют ложную точность, близкую к нулю на диких наборах данных, что указывает на серьёзные проблемы с обобщением
Ограничения статических эталонных наборов: Существующие протоколы оценки не могут по-настоящему проверить способность моделей справляться с действительно новыми угрозами

Исследовательская мотивация

Ключевое понимание в этой работе заключается в следующем: вместо продолжения разработки сложных специализированных детекторов следует использовать мощные возможности представления современных визуальных фундаментальных моделей. Авторы обнаруживают, что простой линейный классификатор в сочетании с новейшими VFM может значительно превзойти специально разработанные детекторы.

Основные вклады

Установление превосходства современных VFM базовых моделей: Доказано, что простые современные VFM базовые модели превосходят специализированные детекторы в сценариях дикой природы, предоставляя более эффективную стратегию для практических приложений
Раскрытие механизма воздействия данных: Посредством построения верифицируемых невидимых наборов данных выявлено, что воздействие данных является основной причиной успеха, раскрывая фундаментальные недостатки статических эталонных наборов
Предложение динамического протокола оценки: Выступление за переход к динамическим, постоянно обновляемым протоколам оценки, обеспечивающим сохранение тестовых данных в верифицируемо невидимом состоянии
Глубокий анализ семантического выравнивания VLM: Обнаружение того, что современные VLM научились выравнивать синтетические изображения с концепциями, связанными с подделкой, предоставляя семантическое объяснение эффективности

Подробное описание методологии

Определение задачи

Задача обнаружения AI-генерируемых изображений определяется как задача бинарной классификации: для данного входного изображения определить, является ли оно реальным изображением или синтетическим AI-генерируемым изображением.

Архитектура модели

Статья использует чрезвычайно простую архитектуру:

Экстрактор признаков: Использование предварительно обученной VFM в качестве замороженного экстрактора признаков для извлечения признаков токена [CLS] изображения
Классификационная головка: Обучение однослойного линейного классификатора на извлечённых признаках
Без расширения данных: Прямое обучение на наборе данных GenImage без использования каких-либо методов расширения данных

Категории оценённых VFM

Современные VFM (выпущены после 2025 г.): Meta CLIP-2, PE (Perception Encoder), SigLIP-2
Предыдущие модели: CLIP, Meta CLIP, SigLIP
Самоконтролируемые модели: DINOv3, DINOv2

Технические инновационные моменты

Принцип простоты: Отказ от сложного специализированного проектирования, доказывающий эффективность простых методов
Использование фундаментальных моделей: Полное использование богатого представления, полученного современными VFM при обучении на крупномасштабных данных
Анализ семантического выравнивания: Раскрытие внутреннего механизма VLM посредством зондирования сходства текст-изображение

Экспериментальная установка

Наборы данных

Наборы данных для обучения:

GenImage (подмножество SD v1.4): используется для обучения линейного классификатора

Наборы данных для оценки:

Источники социальных сетей: WildRF, SocialRF (из Twitter, Facebook, Reddit)
Источники сообщества AI-художников: Chameleon, CommunityAI (из ArtStation, Civitai)
Верифицируемые невидимые наборы данных: WebAIG-25 (содержит изображения из Reddit и частные фотографии, полученные после даты отсечки обучения)

Метрики оценки

Средняя точность (Avg.): Общая точность классификации
Точность реальных изображений (R.Acc): Точность классификации реальных изображений
Точность поддельных изображений (F.Acc): Точность классификации поддельных изображений

Методы сравнения

Включают несколько SOTA специализированных детекторов:

CNNSpot, FreqNet, GramNet, UnivFD, NPR, AIDE, PPL, OMAT, NPLB и др.

Детали реализации

Использование максимальных официально выпущенных весов для каждой VFM
Замораживание параметров VFM, обучение только классификационной головки
Обучение на наборе данных GenImage без использования расширения данных

Экспериментальные результаты

Основные результаты

Сравнение GenImage vs Chameleon:

Специализированные детекторы показывают отличные результаты на GenImage (PPL: 97,2%, NPLB: 97,1%), но катастрофически падают на Chameleon
Современные VFM показывают отличные результаты: PE достигает 96,1%, Meta CLIP-2 достигает 91,8%, DINOv3 достигает 92,4%
Улучшение производительности превышает значительный показатель в 20%

Верификация на нескольких наборах данных:

Набор данных WildRF: DINOv3 достигает 96,4%, в то время как большинство специализированных детекторов отказывают
SocialRF и CommunityAI: PE и DINOv3 достигают соответственно 97,1% и 95,3%

Ключевые находки

Верификация воздействия данных: На верифицируемом невидимом наборе данных WebAIG-25:

Специализированные детекторы показывают сильное смещение в сторону "реальности", высокая точность на частных реальных фотографиях, но отказ на новых поддельных изображениях
Современные VLM показывают противоположное смещение: превосходны в идентификации новых поддельных изображений, но испытывают трудности с распределённо-внешними реальными фотографиями
DINOv3 является единственным исключением, показывая отличные результаты как на реальных, так и на поддельных изображениях (94,5%)

Анализ семантического выравнивания:

Старые модели (CLIP, SigLIP) не могут связать поддельные изображения с концепциями, связанными с подделкой
Современные VLM (Meta CLIP-2, PE) показывают сильное согласованное выравнивание, с верхними совпадающими концепциями, являющимися терминами, связанными с подделкой, такими как "AI generated"

Визуальный анализ

Визуализация t-SNE показывает:

На GenImage как Meta CLIP-2, так и CLIP демонстрируют аналогичные запутанные пространства признаков
На Chameleon пространство признаков CLIP хаотично и неразделимо, в то время как Meta CLIP-2 показывает чёткое разделение кластеризации реальных/поддельных

Связанные работы

Развитие специализированных детекторов

Исследователи в этой области разработали различные судебно-экспертные специализированные детекторы, включая:

Методы расширения данных: Введение дополнительных расширенных образцов (полная или частичная реконструкция изображений)
Улучшенные стратегии обучения: Разработка лучших парадигм обучения
Инновации архитектуры: Такие как методы на основе Transformer, обучение в частотной области и др.

Применение VFM при обнаружении

Хотя VFM не были специально разработаны для судебно-экспертной работы, новое поколение фундаментальных моделей демонстрирует поразительную производительность на задачах обнаружения, включая визуально-языковые модели и архитектуры с самоконтролем.

Заключение и обсуждение

Основные выводы

Приоритет практичности: Для обнаружения AI-генерируемых изображений в реальном мире использование сырой "огневой мощи" новейших VFM более эффективно, чем "мастерство" статических детекторов
Инновация протокола оценки: Истинная оценка обобщения требует, чтобы тестовые данные были независимы от всей истории обучения модели, включая этап предварительного обучения

Ограничения

Зависимость от воздействия данных: Превосходство современных VFM в основном происходит из воздействия данных во время предварительного обучения, а не из улучшенной внутренней способности к обобщению
Проблема своевременности: С появлением новых технологий генерирования VFM, обученные на старых данных, могут отказать
Требования к вычислительным ресурсам: Крупные VFM требуют больше вычислительных ресурсов

Направления будущих исследований

Динамическое тестирование: Установление постоянно обновляемых протоколов оценки, обеспечивающих новизну тестовых данных
Истинное исследование обобщения: Разработка методов обнаружения, не зависящих от воздействия данных
Механизмы обновления в реальном времени: Исследование способов быстрой адаптации к новым появляющимся технологиям генерирования

Глубокая оценка

Преимущества

Глубокие понимания: Раскрытие разрыва в производительности между специализированными детекторами и простыми VFM базовыми моделями, оспаривая традиционное понимание в области
Комплексные эксперименты: Систематическая оценка на нескольких диких наборах данных с убедительными результатами
Тщательный анализ механизма: Глубокое исследование коренных причин различий в производительности посредством анализа семантического выравнивания и верифицируемых невидимых наборов данных
Высокая практическая ценность: Предоставление простого и эффективного решения для практических приложений

Недостатки

Ограниченная инновационность методов: По сути, прямое применение существующих VFM с ограниченной технической инновацией
Сомнительная долгосрочная устойчивость: Неизвестна эффективность методов, зависящих от воздействия данных, при столкновении с совершенно новыми технологиями генерирования
Недостаточный теоретический анализ: Отсутствие теоретического объяснения того, почему простого линейного классификатора достаточно

Влияние

Смена парадигмы: Может направить область от сложного специализированного проектирования к использованию универсальных фундаментальных моделей
Инновация стандартов оценки: Продвижение установления более строгих стандартов оценки способности к обобщению
Практическая ценность приложений: Предоставление промышленности немедленно применяемого эффективного решения

Применимые сценарии

Системы обнаружения в реальном времени: Подходит для сценариев приложений, требующих быстрого развёртывания и высокой точности
Крупномасштабная модерация контента: Автоматическая фильтрация контента платформ социальных сетей
Верификация новостей: Помощь новостным организациям в быстрой идентификации AI-генерируемого контента

Библиография

Статья цитирует 86 связанных работ, охватывающих важные работы в нескольких направлениях исследований, включая обнаружение AI-генерируемых изображений, визуальные фундаментальные модели, многомодальное обучение и др., предоставляя прочную теоретическую основу для исследования.

Эта статья, используя свою уникальную метафору "пистолета и ножа", ярко демонстрирует подавляющее превосходство современных VFM в задаче обнаружения AI-генерируемых изображений, не только предоставляя практическое решение, но, что более важно, раскрывая фундаментальные недостатки текущей системы оценки, указывая новое направление для развития области.