While specialized detectors for AI-generated images excel on curated benchmarks, they fail catastrophically in real-world scenarios, as evidenced by their critically high false-negative rates on `in-the-wild' benchmarks. Instead of crafting another specialized `knife' for this problem, we bring a `gun' to the fight: a simple linear classifier on a modern Vision Foundation Model (VFM). Trained on identical data, this baseline decisively `outguns' bespoke detectors, boosting in-the-wild accuracy by a striking margin of over 20\%.
Our analysis pinpoints the source of the VFM's `firepower': First, by probing text-image similarities, we find that recent VLMs (e.g., Perception Encoder, Meta CLIP2) have learned to align synthetic images with forgery-related concepts (e.g., `AI-generated'), unlike previous versions. Second, we speculate that this is due to data exposure, as both this alignment and overall accuracy plummet on a novel dataset scraped after the VFM's pre-training cut-off date, ensuring it was unseen during pre-training. Our findings yield two critical conclusions: 1) For the real-world `gunfight' of AI-generated image detection, the raw `firepower' of an updated VFM is far more effective than the `craftsmanship' of a static detector. 2) True generalization evaluation requires test data to be independent of the model's entire training history, including pre-training.
- ID статьи: 2509.12995
- Название: Brought a Gun to a Knife Fight: Modern VFM Baselines Outgun Specialized Detectors on In-the-Wild AI Image Detection
- Авторы: Yue Zhou, Xinan He, Kaiqing Lin, Bing Fan, Feng Ding, Jinhua Zeng, Bin Li
- Категория: cs.CV (Компьютерное зрение)
- Дата публикации: препринт arXiv, 15 октября 2025 г.
- Ссылка на статью: https://arxiv.org/abs/2509.12995
Специализированные детекторы AI-генерируемых изображений демонстрируют отличные результаты на тщательно подготовленных эталонных наборах, однако катастрофически отказывают в реальных сценариях, показывая чрезвычайно высокие показатели ложноотрицательных результатов на эталонных наборах "в дикой природе". Вместо того чтобы создавать ещё один специализированный "нож" для решения этой проблемы, авторы привносят "пистолет": простой линейный классификатор на основе современных визуальных фундаментальных моделей (VFM). При обучении на одних и тех же данных этот базовый метод решительно "превосходит" специализированные детекторы, достигая значительного улучшения точности на диких данных более чем на 20%. Анализ раскрывает источник "огневой мощи" VFM: посредством зондирования сходства текст-изображение обнаруживается, что новейшие VLM научились выравнивать синтетические изображения с концепциями, связанными с подделкой, что обусловлено воздействием данных.
С взрывным развитием технологии генерирования AI-изображений, особенно создания высокореалистичных синтетических изображений посредством передовых генеративных моделей, значительно ускорилось распространение дезинформации, создавая серьёзные угрозы для общественной безопасности и личной приватности. Следовательно, ключевой вызов при обнаружении AIGI заключается в построении моделей с сильной способностью к обобщению, способных эффективно идентифицировать и верифицировать изображения, генерируемые различными неизвестными методами.
- Хрупкость специализированных детекторов: Существующие судебно-экспертные специализированные детекторы показывают превосходные результаты на тщательно подготовленных эталонных наборах, но отказывают в реальных сценариях, особенно плохо работают на диких наборах данных, таких как Chameleon
- Недостаточная способность к обобщению: Традиционные методы обнаружения, такие как CNNSpot, UnivFD и др., демонстрируют ложную точность, близкую к нулю на диких наборах данных, что указывает на серьёзные проблемы с обобщением
- Ограничения статических эталонных наборов: Существующие протоколы оценки не могут по-настоящему проверить способность моделей справляться с действительно новыми угрозами
Ключевое понимание в этой работе заключается в следующем: вместо продолжения разработки сложных специализированных детекторов следует использовать мощные возможности представления современных визуальных фундаментальных моделей. Авторы обнаруживают, что простой линейный классификатор в сочетании с новейшими VFM может значительно превзойти специально разработанные детекторы.
- Установление превосходства современных VFM базовых моделей: Доказано, что простые современные VFM базовые модели превосходят специализированные детекторы в сценариях дикой природы, предоставляя более эффективную стратегию для практических приложений
- Раскрытие механизма воздействия данных: Посредством построения верифицируемых невидимых наборов данных выявлено, что воздействие данных является основной причиной успеха, раскрывая фундаментальные недостатки статических эталонных наборов
- Предложение динамического протокола оценки: Выступление за переход к динамическим, постоянно обновляемым протоколам оценки, обеспечивающим сохранение тестовых данных в верифицируемо невидимом состоянии
- Глубокий анализ семантического выравнивания VLM: Обнаружение того, что современные VLM научились выравнивать синтетические изображения с концепциями, связанными с подделкой, предоставляя семантическое объяснение эффективности
Задача обнаружения AI-генерируемых изображений определяется как задача бинарной классификации: для данного входного изображения определить, является ли оно реальным изображением или синтетическим AI-генерируемым изображением.
Статья использует чрезвычайно простую архитектуру:
- Экстрактор признаков: Использование предварительно обученной VFM в качестве замороженного экстрактора признаков для извлечения признаков токена
[CLS] изображения - Классификационная головка: Обучение однослойного линейного классификатора на извлечённых признаках
- Без расширения данных: Прямое обучение на наборе данных GenImage без использования каких-либо методов расширения данных
- Современные VFM (выпущены после 2025 г.): Meta CLIP-2, PE (Perception Encoder), SigLIP-2
- Предыдущие модели: CLIP, Meta CLIP, SigLIP
- Самоконтролируемые модели: DINOv3, DINOv2
- Принцип простоты: Отказ от сложного специализированного проектирования, доказывающий эффективность простых методов
- Использование фундаментальных моделей: Полное использование богатого представления, полученного современными VFM при обучении на крупномасштабных данных
- Анализ семантического выравнивания: Раскрытие внутреннего механизма VLM посредством зондирования сходства текст-изображение
Наборы данных для обучения:
- GenImage (подмножество SD v1.4): используется для обучения линейного классификатора
Наборы данных для оценки:
- Источники социальных сетей: WildRF, SocialRF (из Twitter, Facebook, Reddit)
- Источники сообщества AI-художников: Chameleon, CommunityAI (из ArtStation, Civitai)
- Верифицируемые невидимые наборы данных: WebAIG-25 (содержит изображения из Reddit и частные фотографии, полученные после даты отсечки обучения)
- Средняя точность (Avg.): Общая точность классификации
- Точность реальных изображений (R.Acc): Точность классификации реальных изображений
- Точность поддельных изображений (F.Acc): Точность классификации поддельных изображений
Включают несколько SOTA специализированных детекторов:
- CNNSpot, FreqNet, GramNet, UnivFD, NPR, AIDE, PPL, OMAT, NPLB и др.
- Использование максимальных официально выпущенных весов для каждой VFM
- Замораживание параметров VFM, обучение только классификационной головки
- Обучение на наборе данных GenImage без использования расширения данных
Сравнение GenImage vs Chameleon:
- Специализированные детекторы показывают отличные результаты на GenImage (PPL: 97,2%, NPLB: 97,1%), но катастрофически падают на Chameleon
- Современные VFM показывают отличные результаты: PE достигает 96,1%, Meta CLIP-2 достигает 91,8%, DINOv3 достигает 92,4%
- Улучшение производительности превышает значительный показатель в 20%
Верификация на нескольких наборах данных:
- Набор данных WildRF: DINOv3 достигает 96,4%, в то время как большинство специализированных детекторов отказывают
- SocialRF и CommunityAI: PE и DINOv3 достигают соответственно 97,1% и 95,3%
Верификация воздействия данных:
На верифицируемом невидимом наборе данных WebAIG-25:
- Специализированные детекторы показывают сильное смещение в сторону "реальности", высокая точность на частных реальных фотографиях, но отказ на новых поддельных изображениях
- Современные VLM показывают противоположное смещение: превосходны в идентификации новых поддельных изображений, но испытывают трудности с распределённо-внешними реальными фотографиями
- DINOv3 является единственным исключением, показывая отличные результаты как на реальных, так и на поддельных изображениях (94,5%)
Анализ семантического выравнивания:
- Старые модели (CLIP, SigLIP) не могут связать поддельные изображения с концепциями, связанными с подделкой
- Современные VLM (Meta CLIP-2, PE) показывают сильное согласованное выравнивание, с верхними совпадающими концепциями, являющимися терминами, связанными с подделкой, такими как "AI generated"
Визуализация t-SNE показывает:
- На GenImage как Meta CLIP-2, так и CLIP демонстрируют аналогичные запутанные пространства признаков
- На Chameleon пространство признаков CLIP хаотично и неразделимо, в то время как Meta CLIP-2 показывает чёткое разделение кластеризации реальных/поддельных
Исследователи в этой области разработали различные судебно-экспертные специализированные детекторы, включая:
- Методы расширения данных: Введение дополнительных расширенных образцов (полная или частичная реконструкция изображений)
- Улучшенные стратегии обучения: Разработка лучших парадигм обучения
- Инновации архитектуры: Такие как методы на основе Transformer, обучение в частотной области и др.
Хотя VFM не были специально разработаны для судебно-экспертной работы, новое поколение фундаментальных моделей демонстрирует поразительную производительность на задачах обнаружения, включая визуально-языковые модели и архитектуры с самоконтролем.
- Приоритет практичности: Для обнаружения AI-генерируемых изображений в реальном мире использование сырой "огневой мощи" новейших VFM более эффективно, чем "мастерство" статических детекторов
- Инновация протокола оценки: Истинная оценка обобщения требует, чтобы тестовые данные были независимы от всей истории обучения модели, включая этап предварительного обучения
- Зависимость от воздействия данных: Превосходство современных VFM в основном происходит из воздействия данных во время предварительного обучения, а не из улучшенной внутренней способности к обобщению
- Проблема своевременности: С появлением новых технологий генерирования VFM, обученные на старых данных, могут отказать
- Требования к вычислительным ресурсам: Крупные VFM требуют больше вычислительных ресурсов
- Динамическое тестирование: Установление постоянно обновляемых протоколов оценки, обеспечивающих новизну тестовых данных
- Истинное исследование обобщения: Разработка методов обнаружения, не зависящих от воздействия данных
- Механизмы обновления в реальном времени: Исследование способов быстрой адаптации к новым появляющимся технологиям генерирования
- Глубокие понимания: Раскрытие разрыва в производительности между специализированными детекторами и простыми VFM базовыми моделями, оспаривая традиционное понимание в области
- Комплексные эксперименты: Систематическая оценка на нескольких диких наборах данных с убедительными результатами
- Тщательный анализ механизма: Глубокое исследование коренных причин различий в производительности посредством анализа семантического выравнивания и верифицируемых невидимых наборов данных
- Высокая практическая ценность: Предоставление простого и эффективного решения для практических приложений
- Ограниченная инновационность методов: По сути, прямое применение существующих VFM с ограниченной технической инновацией
- Сомнительная долгосрочная устойчивость: Неизвестна эффективность методов, зависящих от воздействия данных, при столкновении с совершенно новыми технологиями генерирования
- Недостаточный теоретический анализ: Отсутствие теоретического объяснения того, почему простого линейного классификатора достаточно
- Смена парадигмы: Может направить область от сложного специализированного проектирования к использованию универсальных фундаментальных моделей
- Инновация стандартов оценки: Продвижение установления более строгих стандартов оценки способности к обобщению
- Практическая ценность приложений: Предоставление промышленности немедленно применяемого эффективного решения
- Системы обнаружения в реальном времени: Подходит для сценариев приложений, требующих быстрого развёртывания и высокой точности
- Крупномасштабная модерация контента: Автоматическая фильтрация контента платформ социальных сетей
- Верификация новостей: Помощь новостным организациям в быстрой идентификации AI-генерируемого контента
Статья цитирует 86 связанных работ, охватывающих важные работы в нескольких направлениях исследований, включая обнаружение AI-генерируемых изображений, визуальные фундаментальные модели, многомодальное обучение и др., предоставляя прочную теоретическую основу для исследования.
Эта статья, используя свою уникальную метафору "пистолета и ножа", ярко демонстрирует подавляющее превосходство современных VFM в задаче обнаружения AI-генерируемых изображений, не только предоставляя практическое решение, но, что более важно, раскрывая фундаментальные недостатки текущей системы оценки, указывая новое направление для развития области.