2025-11-11T13:22:08.595769

BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection

Zain, Farooqui, Rafi

This paper details our submission to the AraGenEval Shared Task on Arabic AI-generated text detection, where our team, BUSTED, secured 5th place. We investigated the effectiveness of three pre-trained transformer models: AraELECTRA, CAMeLBERT, and XLM-RoBERTa. Our approach involved fine-tuning each model on the provided dataset for a binary classification task. Our findings revealed a surprising result: the multilingual XLM-RoBERTa model achieved the highest performance with an F1 score of 0.7701, outperforming the specialized Arabic models. This work underscores the complexities of AI-generated text detection and highlights the strong generalization capabilities of multilingual models.

academic

BUSTED на AraGenEval Shared Task: Сравнительное исследование моделей на основе Transformer для обнаружения AI-генерируемых текстов на арабском языке

Основная информация

ID статьи: 2510.20610
Название: BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection
Авторы: Ali Zain, Sareem Farooqui, Muhammad Rafi (Национальный университет компьютерных и развивающихся наук, FAST, Карачи, Пакистан)
Классификация: cs.CL (Вычислительная лингвистика), cs.AI (Искусственный интеллект)
Дата публикации: 25 октября 2025 г. (версия arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.20610v2

Аннотация

В данной статье подробно описывается решение команды BUSTED для общей задачи AraGenEval по обнаружению AI-генерируемых текстов на арабском языке, где команда заняла 5-е место. Исследователи сравнили эффективность трёх предварительно обученных моделей Transformer: AraELECTRA, CAMeLBERT и XLM-RoBERTa. Методология включала тонкую настройку каждой модели на предоставленном наборе данных для выполнения задачи бинарной классификации. Исследование выявило неожиданный результат: многоязычная модель XLM-RoBERTa достигла наивысшей производительности с показателем F1 0,7701, превзойдя специализированные арабские модели. Данная работа подчёркивает сложность обнаружения AI-генерируемых текстов и выделяет сильные возможности обобщения многоязычных моделей.

Исследовательский контекст и мотивация

Определение проблемы

С совершенствованием больших языковых моделей (LLMs) граница между текстами, написанными человеком, и текстами, созданными машиной, становится размытой. Эта реальность создаёт значительные социальные риски: от ускорения распространения дезинформации до подрыва академической честности. Следовательно, разработка надёжных детекторов AI-генерируемых текстов стала неотложным приоритетом исследований.

Значимость исследования

Социальное воздействие: Злоупотребление AI-генерируемыми текстами может привести к распространению дезинформации и академическому мошенничеству
Технические вызовы: Современные LLMs генерируют текст с исключительной беглостью, что ограничивает эффективность традиционных методов обнаружения
Языковая специфичность: Арабский язык как язык с ограниченными ресурсами всё ещё развивает инструменты в области обнаружения AI-текстов

Ограничения существующих подходов

Недостаточность традиционных методов: Ранние методы, основанные на статистической стилометрии (частота n-грамм, показатели читаемости, синтаксическая структура), неэффективны при обнаружении беглых текстов современных LLMs
Нехватка языковых ресурсов: Инструменты для обнаружения AI-текстов на арабском языке отстают в развитии по сравнению с другими языками
Неясность выбора модели: Отсутствует систематическое сравнение различных архитектур Transformer для задачи обнаружения AI-текстов на арабском языке

Основной вклад

Сравнительное исследование моделей: Предоставляет прямое сравнение одноязычных и многоязычных моделей для задачи обнаружения текстов на арабском языке
Контринтуитивные находки: Доказывает, что многоязычные модели могут превосходить специализированные языковые модели по производительности
Анализ влияния предварительной обработки: Анализирует, как выбор предварительной обработки, такой как нормализация текста, может неожиданно ухудшить производительность модели
Практическая валидация: Достижение 5-го места в общей задаче AraGenEval подтверждает эффективность метода

Подробное описание методологии

Определение задачи

Входные данные: Строка текста на арабском языке
Выходные данные: Бинарная метка ('human' или 'machine')
Тип задачи: Задача бинарной классификации текстов

Архитектура модели

Исследователи реализовали системы на основе трёх различных предварительно обученных моделей:

Система 1: AraELECTRA

Модель: aubmindlab/araelectra-base-discriminator
Характеристики: Специализированная модель ELECTRA для арабского языка
Предварительная обработка: Применение агрессивной нормализации арабского текста
- Нормализация различных арабских символов (например, варианты alef в стандартный alef)
- Преобразование ta marbuta в ha
- Удаление всех арабских диакритических знаков и символов, не являющихся буквами и цифрами

Система 2: CAMeLBERT

Модель: CAMeL-Lab/bert-base-arabic-camelbert-mix
Характеристики: Широко используемая модель BERT для арабского языка
Предварительная обработка: Отсутствие применения специфичной для языка нормализации текста, полная зависимость от токенизатора предварительного обучения модели

Система 3: XLM-RoBERTa

Модель: xlm-roberta-base
Характеристики: Крупная многоязычная модель
Предварительная обработка: Аналогично CAMeLBERT, без выполнения языкоспецифичной нормализации

Технические инновации

Систематическое сравнение: Первое систематическое сравнение одноязычных и многоязычных моделей для задачи обнаружения AI-текстов на арабском языке
Дифференцированные стратегии предварительной обработки: Исследование влияния различных стратегий предварительной обработки на производительность модели
Анализ, управляемый данными: Анализ характеристик набора данных для руководства выбором и оптимизацией модели

Экспериментальная установка

Набор данных

Набор данных: AraGenEval
Масштаб: После очистки содержит 4 734 обучающих образца
Распределение классов: Практически сбалансировано
- AI-генерируемые: 2 399 образцов (50,68%)
- Написанные человеком: 2 335 образцов (49,32%)

Анализ характеристик данных

Значительные различия в длине текста:
- Средняя длина текста, написанного человеком: 4 059,13 символов
- Средняя длина AI-генерируемого текста: 1 934,53 символов
Различия в словаре и N-граммах:
- Тексты человека: часто содержат актуальные слова, такие как "Gaza", "the war", "Israel"
- AI-тексты: используют более универсальную формальную лексику, такую как "can be", "in a way"

Стратегия разделения данных

AraELECTRA и CAMeLBERT: Использование всех 4 734 обучающих образцов для обучения и оценки на этапе разработки
XLM-RoBERTa: Разделение обучающих данных в соотношении 80/20
- Обучающий набор: 3 787 образцов
- Набор валидации: 947 образцов
- Использование стратифицированной выборки для сохранения распределения меток

Метрики оценки

Основная метрика: Макро-усреднённый показатель F1
Дополнительные метрики: Точность, полнота, чувствительность, специфичность, сбалансированная точность

Детали реализации

Гиперпараметр	Значение
Скорость обучения	2e-5
Размер пакета	4
Оптимизатор	AdamW
Затухание веса	0,01
Максимальная длина последовательности	512
Количество эпох (AraELECTRA)	4
Количество эпох (CAMeLBERT)	4
Количество эпох (XLM-RoBERTa)	5

Результаты экспериментов

Основные результаты

Модель	F1-Score	Точность	Полнота	Чувствительность	Специфичность	Сбалансированная точность
XLM-RoBERTa	0,7701	0,760	0,7390	0,804	0,716	0,760
CAMeLBERT	0,7290	0,710	0,6842	0,780	0,640	0,710
AraELECTRA	0,6180	0,550	0,5369	0,728	0,372	0,550

Ключевые находки

Преимущество многоязычных моделей: XLM-RoBERTa достигла наилучшей производительности по всем метрикам, значительно превзойдя специализированные арабские модели
Влияние стратегии предварительной обработки: Агрессивная стратегия нормализации текста AraELECTRA может иметь противоположный эффект
Ранжирование производительности: XLM-RoBERTa > CAMeLBERT > AraELECTRA

Анализ результатов

Причины успеха XLM-RoBERTa

Разнообразный корпус предварительного обучения: Обширное предварительное обучение на 100 языках может обеспечить более сильные возможности обобщения при извлечении признаков
Чувствительность к стилю: Лучше захватывает стилистические различия между текстами человека (новостной фокус) и машинными текстами (формальный аналитический стиль)

Причины низкой производительности AraELECTRA

Чрезмерная нормализация: Агрессивная нормализация текста и удаление диакритических знаков могут удалить критические тонкие сигналы
Потеря информации: Удаление выбора лексического стиля, специфических именованных сущностей и других важных различительных признаков

Анализ ошибок

Полнота vs Точность: Полнота всех моделей превышает точность, что указывает на тенденцию неправильной классификации текстов человека как AI-генерируемых
Возможные причины: Несоответствие домена или формализованные тексты человека могут быть похожи на паттерны AI-генерирования

Связанные работы

Историческое развитие

Ранние методы: Методы, основанные на статистической стилометрии для определения авторства и обнаружения машинных текстов
- Характеристики: частота n-грамм, показатели читаемости, синтаксическая структура
- Ограничения: ограниченная эффективность для современных LLMs
Методы нейронных сетей: Текущий основной поток исследований
- Тонкая настройка предварительно обученных Transformers (например, BERT)
- Обнаружение статистических артефактов в процессе генерации LLMs
- Встраивание "водяных знаков" в процесс генерации текста

Позиционирование данной работы

Следует парадигме тонкой настройки
Вдохновлено комплексными сравнительными исследованиями (например, Al-Shboul et al., 2024)
Сосредоточено на области обнаружения AI-текстов на арабском языке с ограниченными ресурсами

Заключение и обсуждение

Основные выводы

Неожиданное преимущество многоязычных моделей: XLM-RoBERTa превосходит специализированные арабские модели в задаче обнаружения AI-текстов на арабском языке
Двойственный эффект предварительной обработки: Чрезмерная нормализация текста может ухудшить производительность модели
Важность характеристик данных: Длина текста и выбор лексики являются ключевыми признаками для различения текстов человека и машины

Ограничения

Низкая производительность AraELECTRA: Главным образом из-за неправильного выбора стратегии предварительной обработки
Недостаточный анализ ошибок: Отсутствие подробного качественного анализа ошибок
Валидация на одном наборе данных: Проверка только на наборе данных AraGenEval

Направления будущих исследований

Оптимизация предварительной обработки: Исследование менее агрессивных методов нормализации текста
Ансамбли моделей: Экспериментирование с техниками ансамбля моделей
Углубленный анализ ошибок: Лучшее понимание паттернов отказа в задаче
Кроссдоменное обобщение: Валидация метода на нескольких наборах данных на арабском языке

Глубокая оценка

Преимущества

Систематическое сравнение: Предоставляет комплексное сравнение различных типов моделей Transformer
Контринтуитивные находки: Обнаружение того, что многоязычные модели превосходят специализированные языковые модели, имеет важное значение
Практическая ценность: Достижение хороших результатов в реальном соревновании подтверждает эффективность метода
Достаточный анализ данных: Глубокий анализ характеристик набора данных обеспечивает основу для выбора модели
Разумный дизайн экспериментов: Надлежащий выбор гиперпараметров и метрик оценки

Недостатки

Неединообразные стратегии предварительной обработки: Три модели используют различные стратегии предварительной обработки, что влияет на справедливость сравнения
Несогласованное разделение данных: Различные модели используют различные стратегии разделения данных
Отсутствие анализа ошибок: Недостаток глубокого анализа случаев отказа модели
Недостаточные абляционные исследования: Неполная проверка вклада каждого компонента
Ограниченная валидация обобщения: Проверка только на одном наборе данных

Влияние

Академический вклад: Предоставляет важный эталон для области обнаружения AI-текстов на арабском языке
Практическое руководство: Предоставляет справочную информацию для выбора модели в аналогичных задачах
Методологическая ценность: Систематический метод сравнения может быть применён к другим языкам и задачам
Воспроизводимость: Предоставляет подробные экспериментальные установки для облегчения воспроизведения

Применимые сценарии

Модерация контента на арабском языке: Обнаружение AI-текстов на социальных сетях и новостных платформах
Проверка академической честности: Проверка оригинальности работ и диссертаций в образовательных учреждениях
Многоязычная среда: Сценарии, требующие обработки обнаружения AI-текстов на нескольких языках
Среда с ограниченными ресурсами: Предоставляет методологический справочник для обнаружения AI-текстов на других языках с ограниченными ресурсами

Библиография

Данная статья ссылается на множество важных связанных работ, включая:

Основополагающие статьи об архитектуре Transformer (Vaswani et al., 2017)
Модель BERT (Devlin et al., 2019)
Модель ELECTRA (Clark et al., 2020)
Модель XLM-RoBERTa (Conneau et al., 2020)
Специализированные модели для арабского языка: AraELECTRA (Antoun et al., 2021) и CAMeLBERT (Inoue et al., 2021)
Обзор классификации текстов на арабском языке (Al-Shboul et al., 2024)

Общая оценка: Это солидная эмпирическая исследовательская статья, которая посредством систематического сравнения выявляет неожиданное преимущество многоязычных моделей в задаче обнаружения AI-текстов на арабском языке. Несмотря на некоторые методологические недостатки, её выводы имеют значительную ценность для данной области и предоставляют полезные направления для будущих исследований.