This paper details our submission to the AraGenEval Shared Task on Arabic AI-generated text detection, where our team, BUSTED, secured 5th place. We investigated the effectiveness of three pre-trained transformer models: AraELECTRA, CAMeLBERT, and XLM-RoBERTa. Our approach involved fine-tuning each model on the provided dataset for a binary classification task. Our findings revealed a surprising result: the multilingual XLM-RoBERTa model achieved the highest performance with an F1 score of 0.7701, outperforming the specialized Arabic models. This work underscores the complexities of AI-generated text detection and highlights the strong generalization capabilities of multilingual models.
- ID статьи: 2510.20610
- Название: BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection
- Авторы: Ali Zain, Sareem Farooqui, Muhammad Rafi (Национальный университет компьютерных и развивающихся наук, FAST, Карачи, Пакистан)
- Классификация: cs.CL (Вычислительная лингвистика), cs.AI (Искусственный интеллект)
- Дата публикации: 25 октября 2025 г. (версия arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.20610v2
В данной статье подробно описывается решение команды BUSTED для общей задачи AraGenEval по обнаружению AI-генерируемых текстов на арабском языке, где команда заняла 5-е место. Исследователи сравнили эффективность трёх предварительно обученных моделей Transformer: AraELECTRA, CAMeLBERT и XLM-RoBERTa. Методология включала тонкую настройку каждой модели на предоставленном наборе данных для выполнения задачи бинарной классификации. Исследование выявило неожиданный результат: многоязычная модель XLM-RoBERTa достигла наивысшей производительности с показателем F1 0,7701, превзойдя специализированные арабские модели. Данная работа подчёркивает сложность обнаружения AI-генерируемых текстов и выделяет сильные возможности обобщения многоязычных моделей.
С совершенствованием больших языковых моделей (LLMs) граница между текстами, написанными человеком, и текстами, созданными машиной, становится размытой. Эта реальность создаёт значительные социальные риски: от ускорения распространения дезинформации до подрыва академической честности. Следовательно, разработка надёжных детекторов AI-генерируемых текстов стала неотложным приоритетом исследований.
- Социальное воздействие: Злоупотребление AI-генерируемыми текстами может привести к распространению дезинформации и академическому мошенничеству
- Технические вызовы: Современные LLMs генерируют текст с исключительной беглостью, что ограничивает эффективность традиционных методов обнаружения
- Языковая специфичность: Арабский язык как язык с ограниченными ресурсами всё ещё развивает инструменты в области обнаружения AI-текстов
- Недостаточность традиционных методов: Ранние методы, основанные на статистической стилометрии (частота n-грамм, показатели читаемости, синтаксическая структура), неэффективны при обнаружении беглых текстов современных LLMs
- Нехватка языковых ресурсов: Инструменты для обнаружения AI-текстов на арабском языке отстают в развитии по сравнению с другими языками
- Неясность выбора модели: Отсутствует систематическое сравнение различных архитектур Transformer для задачи обнаружения AI-текстов на арабском языке
- Сравнительное исследование моделей: Предоставляет прямое сравнение одноязычных и многоязычных моделей для задачи обнаружения текстов на арабском языке
- Контринтуитивные находки: Доказывает, что многоязычные модели могут превосходить специализированные языковые модели по производительности
- Анализ влияния предварительной обработки: Анализирует, как выбор предварительной обработки, такой как нормализация текста, может неожиданно ухудшить производительность модели
- Практическая валидация: Достижение 5-го места в общей задаче AraGenEval подтверждает эффективность метода
- Входные данные: Строка текста на арабском языке
- Выходные данные: Бинарная метка ('human' или 'machine')
- Тип задачи: Задача бинарной классификации текстов
Исследователи реализовали системы на основе трёх различных предварительно обученных моделей:
- Модель: aubmindlab/araelectra-base-discriminator
- Характеристики: Специализированная модель ELECTRA для арабского языка
- Предварительная обработка: Применение агрессивной нормализации арабского текста
- Нормализация различных арабских символов (например, варианты alef в стандартный alef)
- Преобразование ta marbuta в ha
- Удаление всех арабских диакритических знаков и символов, не являющихся буквами и цифрами
- Модель: CAMeL-Lab/bert-base-arabic-camelbert-mix
- Характеристики: Широко используемая модель BERT для арабского языка
- Предварительная обработка: Отсутствие применения специфичной для языка нормализации текста, полная зависимость от токенизатора предварительного обучения модели
- Модель: xlm-roberta-base
- Характеристики: Крупная многоязычная модель
- Предварительная обработка: Аналогично CAMeLBERT, без выполнения языкоспецифичной нормализации
- Систематическое сравнение: Первое систематическое сравнение одноязычных и многоязычных моделей для задачи обнаружения AI-текстов на арабском языке
- Дифференцированные стратегии предварительной обработки: Исследование влияния различных стратегий предварительной обработки на производительность модели
- Анализ, управляемый данными: Анализ характеристик набора данных для руководства выбором и оптимизацией модели
- Набор данных: AraGenEval
- Масштаб: После очистки содержит 4 734 обучающих образца
- Распределение классов: Практически сбалансировано
- AI-генерируемые: 2 399 образцов (50,68%)
- Написанные человеком: 2 335 образцов (49,32%)
- Значительные различия в длине текста:
- Средняя длина текста, написанного человеком: 4 059,13 символов
- Средняя длина AI-генерируемого текста: 1 934,53 символов
- Различия в словаре и N-граммах:
- Тексты человека: часто содержат актуальные слова, такие как "Gaza", "the war", "Israel"
- AI-тексты: используют более универсальную формальную лексику, такую как "can be", "in a way"
- AraELECTRA и CAMeLBERT: Использование всех 4 734 обучающих образцов для обучения и оценки на этапе разработки
- XLM-RoBERTa: Разделение обучающих данных в соотношении 80/20
- Обучающий набор: 3 787 образцов
- Набор валидации: 947 образцов
- Использование стратифицированной выборки для сохранения распределения меток
- Основная метрика: Макро-усреднённый показатель F1
- Дополнительные метрики: Точность, полнота, чувствительность, специфичность, сбалансированная точность
| Гиперпараметр | Значение |
|---|
| Скорость обучения | 2e-5 |
| Размер пакета | 4 |
| Оптимизатор | AdamW |
| Затухание веса | 0,01 |
| Максимальная длина последовательности | 512 |
| Количество эпох (AraELECTRA) | 4 |
| Количество эпох (CAMeLBERT) | 4 |
| Количество эпох (XLM-RoBERTa) | 5 |
| Модель | F1-Score | Точность | Полнота | Чувствительность | Специфичность | Сбалансированная точность |
|---|
| XLM-RoBERTa | 0,7701 | 0,760 | 0,7390 | 0,804 | 0,716 | 0,760 |
| CAMeLBERT | 0,7290 | 0,710 | 0,6842 | 0,780 | 0,640 | 0,710 |
| AraELECTRA | 0,6180 | 0,550 | 0,5369 | 0,728 | 0,372 | 0,550 |
- Преимущество многоязычных моделей: XLM-RoBERTa достигла наилучшей производительности по всем метрикам, значительно превзойдя специализированные арабские модели
- Влияние стратегии предварительной обработки: Агрессивная стратегия нормализации текста AraELECTRA может иметь противоположный эффект
- Ранжирование производительности: XLM-RoBERTa > CAMeLBERT > AraELECTRA
- Разнообразный корпус предварительного обучения: Обширное предварительное обучение на 100 языках может обеспечить более сильные возможности обобщения при извлечении признаков
- Чувствительность к стилю: Лучше захватывает стилистические различия между текстами человека (новостной фокус) и машинными текстами (формальный аналитический стиль)
- Чрезмерная нормализация: Агрессивная нормализация текста и удаление диакритических знаков могут удалить критические тонкие сигналы
- Потеря информации: Удаление выбора лексического стиля, специфических именованных сущностей и других важных различительных признаков
- Полнота vs Точность: Полнота всех моделей превышает точность, что указывает на тенденцию неправильной классификации текстов человека как AI-генерируемых
- Возможные причины: Несоответствие домена или формализованные тексты человека могут быть похожи на паттерны AI-генерирования
- Ранние методы: Методы, основанные на статистической стилометрии для определения авторства и обнаружения машинных текстов
- Характеристики: частота n-грамм, показатели читаемости, синтаксическая структура
- Ограничения: ограниченная эффективность для современных LLMs
- Методы нейронных сетей: Текущий основной поток исследований
- Тонкая настройка предварительно обученных Transformers (например, BERT)
- Обнаружение статистических артефактов в процессе генерации LLMs
- Встраивание "водяных знаков" в процесс генерации текста
- Следует парадигме тонкой настройки
- Вдохновлено комплексными сравнительными исследованиями (например, Al-Shboul et al., 2024)
- Сосредоточено на области обнаружения AI-текстов на арабском языке с ограниченными ресурсами
- Неожиданное преимущество многоязычных моделей: XLM-RoBERTa превосходит специализированные арабские модели в задаче обнаружения AI-текстов на арабском языке
- Двойственный эффект предварительной обработки: Чрезмерная нормализация текста может ухудшить производительность модели
- Важность характеристик данных: Длина текста и выбор лексики являются ключевыми признаками для различения текстов человека и машины
- Низкая производительность AraELECTRA: Главным образом из-за неправильного выбора стратегии предварительной обработки
- Недостаточный анализ ошибок: Отсутствие подробного качественного анализа ошибок
- Валидация на одном наборе данных: Проверка только на наборе данных AraGenEval
- Оптимизация предварительной обработки: Исследование менее агрессивных методов нормализации текста
- Ансамбли моделей: Экспериментирование с техниками ансамбля моделей
- Углубленный анализ ошибок: Лучшее понимание паттернов отказа в задаче
- Кроссдоменное обобщение: Валидация метода на нескольких наборах данных на арабском языке
- Систематическое сравнение: Предоставляет комплексное сравнение различных типов моделей Transformer
- Контринтуитивные находки: Обнаружение того, что многоязычные модели превосходят специализированные языковые модели, имеет важное значение
- Практическая ценность: Достижение хороших результатов в реальном соревновании подтверждает эффективность метода
- Достаточный анализ данных: Глубокий анализ характеристик набора данных обеспечивает основу для выбора модели
- Разумный дизайн экспериментов: Надлежащий выбор гиперпараметров и метрик оценки
- Неединообразные стратегии предварительной обработки: Три модели используют различные стратегии предварительной обработки, что влияет на справедливость сравнения
- Несогласованное разделение данных: Различные модели используют различные стратегии разделения данных
- Отсутствие анализа ошибок: Недостаток глубокого анализа случаев отказа модели
- Недостаточные абляционные исследования: Неполная проверка вклада каждого компонента
- Ограниченная валидация обобщения: Проверка только на одном наборе данных
- Академический вклад: Предоставляет важный эталон для области обнаружения AI-текстов на арабском языке
- Практическое руководство: Предоставляет справочную информацию для выбора модели в аналогичных задачах
- Методологическая ценность: Систематический метод сравнения может быть применён к другим языкам и задачам
- Воспроизводимость: Предоставляет подробные экспериментальные установки для облегчения воспроизведения
- Модерация контента на арабском языке: Обнаружение AI-текстов на социальных сетях и новостных платформах
- Проверка академической честности: Проверка оригинальности работ и диссертаций в образовательных учреждениях
- Многоязычная среда: Сценарии, требующие обработки обнаружения AI-текстов на нескольких языках
- Среда с ограниченными ресурсами: Предоставляет методологический справочник для обнаружения AI-текстов на других языках с ограниченными ресурсами
Данная статья ссылается на множество важных связанных работ, включая:
- Основополагающие статьи об архитектуре Transformer (Vaswani et al., 2017)
- Модель BERT (Devlin et al., 2019)
- Модель ELECTRA (Clark et al., 2020)
- Модель XLM-RoBERTa (Conneau et al., 2020)
- Специализированные модели для арабского языка: AraELECTRA (Antoun et al., 2021) и CAMeLBERT (Inoue et al., 2021)
- Обзор классификации текстов на арабском языке (Al-Shboul et al., 2024)
Общая оценка: Это солидная эмпирическая исследовательская статья, которая посредством систематического сравнения выявляет неожиданное преимущество многоязычных моделей в задаче обнаружения AI-текстов на арабском языке. Несмотря на некоторые методологические недостатки, её выводы имеют значительную ценность для данной области и предоставляют полезные направления для будущих исследований.