2025-11-11T13:22:08.595769

BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection

Zain, Farooqui, Rafi
This paper details our submission to the AraGenEval Shared Task on Arabic AI-generated text detection, where our team, BUSTED, secured 5th place. We investigated the effectiveness of three pre-trained transformer models: AraELECTRA, CAMeLBERT, and XLM-RoBERTa. Our approach involved fine-tuning each model on the provided dataset for a binary classification task. Our findings revealed a surprising result: the multilingual XLM-RoBERTa model achieved the highest performance with an F1 score of 0.7701, outperforming the specialized Arabic models. This work underscores the complexities of AI-generated text detection and highlights the strong generalization capabilities of multilingual models.
academic

BUSTED на AraGenEval Shared Task: Сравнительное исследование моделей на основе Transformer для обнаружения AI-генерируемых текстов на арабском языке

Основная информация

  • ID статьи: 2510.20610
  • Название: BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection
  • Авторы: Ali Zain, Sareem Farooqui, Muhammad Rafi (Национальный университет компьютерных и развивающихся наук, FAST, Карачи, Пакистан)
  • Классификация: cs.CL (Вычислительная лингвистика), cs.AI (Искусственный интеллект)
  • Дата публикации: 25 октября 2025 г. (версия arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.20610v2

Аннотация

В данной статье подробно описывается решение команды BUSTED для общей задачи AraGenEval по обнаружению AI-генерируемых текстов на арабском языке, где команда заняла 5-е место. Исследователи сравнили эффективность трёх предварительно обученных моделей Transformer: AraELECTRA, CAMeLBERT и XLM-RoBERTa. Методология включала тонкую настройку каждой модели на предоставленном наборе данных для выполнения задачи бинарной классификации. Исследование выявило неожиданный результат: многоязычная модель XLM-RoBERTa достигла наивысшей производительности с показателем F1 0,7701, превзойдя специализированные арабские модели. Данная работа подчёркивает сложность обнаружения AI-генерируемых текстов и выделяет сильные возможности обобщения многоязычных моделей.

Исследовательский контекст и мотивация

Определение проблемы

С совершенствованием больших языковых моделей (LLMs) граница между текстами, написанными человеком, и текстами, созданными машиной, становится размытой. Эта реальность создаёт значительные социальные риски: от ускорения распространения дезинформации до подрыва академической честности. Следовательно, разработка надёжных детекторов AI-генерируемых текстов стала неотложным приоритетом исследований.

Значимость исследования

  1. Социальное воздействие: Злоупотребление AI-генерируемыми текстами может привести к распространению дезинформации и академическому мошенничеству
  2. Технические вызовы: Современные LLMs генерируют текст с исключительной беглостью, что ограничивает эффективность традиционных методов обнаружения
  3. Языковая специфичность: Арабский язык как язык с ограниченными ресурсами всё ещё развивает инструменты в области обнаружения AI-текстов

Ограничения существующих подходов

  1. Недостаточность традиционных методов: Ранние методы, основанные на статистической стилометрии (частота n-грамм, показатели читаемости, синтаксическая структура), неэффективны при обнаружении беглых текстов современных LLMs
  2. Нехватка языковых ресурсов: Инструменты для обнаружения AI-текстов на арабском языке отстают в развитии по сравнению с другими языками
  3. Неясность выбора модели: Отсутствует систематическое сравнение различных архитектур Transformer для задачи обнаружения AI-текстов на арабском языке

Основной вклад

  1. Сравнительное исследование моделей: Предоставляет прямое сравнение одноязычных и многоязычных моделей для задачи обнаружения текстов на арабском языке
  2. Контринтуитивные находки: Доказывает, что многоязычные модели могут превосходить специализированные языковые модели по производительности
  3. Анализ влияния предварительной обработки: Анализирует, как выбор предварительной обработки, такой как нормализация текста, может неожиданно ухудшить производительность модели
  4. Практическая валидация: Достижение 5-го места в общей задаче AraGenEval подтверждает эффективность метода

Подробное описание методологии

Определение задачи

  • Входные данные: Строка текста на арабском языке
  • Выходные данные: Бинарная метка ('human' или 'machine')
  • Тип задачи: Задача бинарной классификации текстов

Архитектура модели

Исследователи реализовали системы на основе трёх различных предварительно обученных моделей:

Система 1: AraELECTRA

  • Модель: aubmindlab/araelectra-base-discriminator
  • Характеристики: Специализированная модель ELECTRA для арабского языка
  • Предварительная обработка: Применение агрессивной нормализации арабского текста
    • Нормализация различных арабских символов (например, варианты alef в стандартный alef)
    • Преобразование ta marbuta в ha
    • Удаление всех арабских диакритических знаков и символов, не являющихся буквами и цифрами

Система 2: CAMeLBERT

  • Модель: CAMeL-Lab/bert-base-arabic-camelbert-mix
  • Характеристики: Широко используемая модель BERT для арабского языка
  • Предварительная обработка: Отсутствие применения специфичной для языка нормализации текста, полная зависимость от токенизатора предварительного обучения модели

Система 3: XLM-RoBERTa

  • Модель: xlm-roberta-base
  • Характеристики: Крупная многоязычная модель
  • Предварительная обработка: Аналогично CAMeLBERT, без выполнения языкоспецифичной нормализации

Технические инновации

  1. Систематическое сравнение: Первое систематическое сравнение одноязычных и многоязычных моделей для задачи обнаружения AI-текстов на арабском языке
  2. Дифференцированные стратегии предварительной обработки: Исследование влияния различных стратегий предварительной обработки на производительность модели
  3. Анализ, управляемый данными: Анализ характеристик набора данных для руководства выбором и оптимизацией модели

Экспериментальная установка

Набор данных

  • Набор данных: AraGenEval
  • Масштаб: После очистки содержит 4 734 обучающих образца
  • Распределение классов: Практически сбалансировано
    • AI-генерируемые: 2 399 образцов (50,68%)
    • Написанные человеком: 2 335 образцов (49,32%)

Анализ характеристик данных

  1. Значительные различия в длине текста:
    • Средняя длина текста, написанного человеком: 4 059,13 символов
    • Средняя длина AI-генерируемого текста: 1 934,53 символов
  2. Различия в словаре и N-граммах:
    • Тексты человека: часто содержат актуальные слова, такие как "Gaza", "the war", "Israel"
    • AI-тексты: используют более универсальную формальную лексику, такую как "can be", "in a way"

Стратегия разделения данных

  • AraELECTRA и CAMeLBERT: Использование всех 4 734 обучающих образцов для обучения и оценки на этапе разработки
  • XLM-RoBERTa: Разделение обучающих данных в соотношении 80/20
    • Обучающий набор: 3 787 образцов
    • Набор валидации: 947 образцов
    • Использование стратифицированной выборки для сохранения распределения меток

Метрики оценки

  • Основная метрика: Макро-усреднённый показатель F1
  • Дополнительные метрики: Точность, полнота, чувствительность, специфичность, сбалансированная точность

Детали реализации

ГиперпараметрЗначение
Скорость обучения2e-5
Размер пакета4
ОптимизаторAdamW
Затухание веса0,01
Максимальная длина последовательности512
Количество эпох (AraELECTRA)4
Количество эпох (CAMeLBERT)4
Количество эпох (XLM-RoBERTa)5

Результаты экспериментов

Основные результаты

МодельF1-ScoreТочностьПолнотаЧувствительностьСпецифичностьСбалансированная точность
XLM-RoBERTa0,77010,7600,73900,8040,7160,760
CAMeLBERT0,72900,7100,68420,7800,6400,710
AraELECTRA0,61800,5500,53690,7280,3720,550

Ключевые находки

  1. Преимущество многоязычных моделей: XLM-RoBERTa достигла наилучшей производительности по всем метрикам, значительно превзойдя специализированные арабские модели
  2. Влияние стратегии предварительной обработки: Агрессивная стратегия нормализации текста AraELECTRA может иметь противоположный эффект
  3. Ранжирование производительности: XLM-RoBERTa > CAMeLBERT > AraELECTRA

Анализ результатов

Причины успеха XLM-RoBERTa

  • Разнообразный корпус предварительного обучения: Обширное предварительное обучение на 100 языках может обеспечить более сильные возможности обобщения при извлечении признаков
  • Чувствительность к стилю: Лучше захватывает стилистические различия между текстами человека (новостной фокус) и машинными текстами (формальный аналитический стиль)

Причины низкой производительности AraELECTRA

  • Чрезмерная нормализация: Агрессивная нормализация текста и удаление диакритических знаков могут удалить критические тонкие сигналы
  • Потеря информации: Удаление выбора лексического стиля, специфических именованных сущностей и других важных различительных признаков

Анализ ошибок

  • Полнота vs Точность: Полнота всех моделей превышает точность, что указывает на тенденцию неправильной классификации текстов человека как AI-генерируемых
  • Возможные причины: Несоответствие домена или формализованные тексты человека могут быть похожи на паттерны AI-генерирования

Связанные работы

Историческое развитие

  1. Ранние методы: Методы, основанные на статистической стилометрии для определения авторства и обнаружения машинных текстов
    • Характеристики: частота n-грамм, показатели читаемости, синтаксическая структура
    • Ограничения: ограниченная эффективность для современных LLMs
  2. Методы нейронных сетей: Текущий основной поток исследований
    • Тонкая настройка предварительно обученных Transformers (например, BERT)
    • Обнаружение статистических артефактов в процессе генерации LLMs
    • Встраивание "водяных знаков" в процесс генерации текста

Позиционирование данной работы

  • Следует парадигме тонкой настройки
  • Вдохновлено комплексными сравнительными исследованиями (например, Al-Shboul et al., 2024)
  • Сосредоточено на области обнаружения AI-текстов на арабском языке с ограниченными ресурсами

Заключение и обсуждение

Основные выводы

  1. Неожиданное преимущество многоязычных моделей: XLM-RoBERTa превосходит специализированные арабские модели в задаче обнаружения AI-текстов на арабском языке
  2. Двойственный эффект предварительной обработки: Чрезмерная нормализация текста может ухудшить производительность модели
  3. Важность характеристик данных: Длина текста и выбор лексики являются ключевыми признаками для различения текстов человека и машины

Ограничения

  1. Низкая производительность AraELECTRA: Главным образом из-за неправильного выбора стратегии предварительной обработки
  2. Недостаточный анализ ошибок: Отсутствие подробного качественного анализа ошибок
  3. Валидация на одном наборе данных: Проверка только на наборе данных AraGenEval

Направления будущих исследований

  1. Оптимизация предварительной обработки: Исследование менее агрессивных методов нормализации текста
  2. Ансамбли моделей: Экспериментирование с техниками ансамбля моделей
  3. Углубленный анализ ошибок: Лучшее понимание паттернов отказа в задаче
  4. Кроссдоменное обобщение: Валидация метода на нескольких наборах данных на арабском языке

Глубокая оценка

Преимущества

  1. Систематическое сравнение: Предоставляет комплексное сравнение различных типов моделей Transformer
  2. Контринтуитивные находки: Обнаружение того, что многоязычные модели превосходят специализированные языковые модели, имеет важное значение
  3. Практическая ценность: Достижение хороших результатов в реальном соревновании подтверждает эффективность метода
  4. Достаточный анализ данных: Глубокий анализ характеристик набора данных обеспечивает основу для выбора модели
  5. Разумный дизайн экспериментов: Надлежащий выбор гиперпараметров и метрик оценки

Недостатки

  1. Неединообразные стратегии предварительной обработки: Три модели используют различные стратегии предварительной обработки, что влияет на справедливость сравнения
  2. Несогласованное разделение данных: Различные модели используют различные стратегии разделения данных
  3. Отсутствие анализа ошибок: Недостаток глубокого анализа случаев отказа модели
  4. Недостаточные абляционные исследования: Неполная проверка вклада каждого компонента
  5. Ограниченная валидация обобщения: Проверка только на одном наборе данных

Влияние

  1. Академический вклад: Предоставляет важный эталон для области обнаружения AI-текстов на арабском языке
  2. Практическое руководство: Предоставляет справочную информацию для выбора модели в аналогичных задачах
  3. Методологическая ценность: Систематический метод сравнения может быть применён к другим языкам и задачам
  4. Воспроизводимость: Предоставляет подробные экспериментальные установки для облегчения воспроизведения

Применимые сценарии

  1. Модерация контента на арабском языке: Обнаружение AI-текстов на социальных сетях и новостных платформах
  2. Проверка академической честности: Проверка оригинальности работ и диссертаций в образовательных учреждениях
  3. Многоязычная среда: Сценарии, требующие обработки обнаружения AI-текстов на нескольких языках
  4. Среда с ограниченными ресурсами: Предоставляет методологический справочник для обнаружения AI-текстов на других языках с ограниченными ресурсами

Библиография

Данная статья ссылается на множество важных связанных работ, включая:

  • Основополагающие статьи об архитектуре Transformer (Vaswani et al., 2017)
  • Модель BERT (Devlin et al., 2019)
  • Модель ELECTRA (Clark et al., 2020)
  • Модель XLM-RoBERTa (Conneau et al., 2020)
  • Специализированные модели для арабского языка: AraELECTRA (Antoun et al., 2021) и CAMeLBERT (Inoue et al., 2021)
  • Обзор классификации текстов на арабском языке (Al-Shboul et al., 2024)

Общая оценка: Это солидная эмпирическая исследовательская статья, которая посредством систематического сравнения выявляет неожиданное преимущество многоязычных моделей в задаче обнаружения AI-текстов на арабском языке. Несмотря на некоторые методологические недостатки, её выводы имеют значительную ценность для данной области и предоставляют полезные направления для будущих исследований.