2025-11-11T13:22:08.595769

BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection

Zain, Farooqui, Rafi

This paper details our submission to the AraGenEval Shared Task on Arabic AI-generated text detection, where our team, BUSTED, secured 5th place. We investigated the effectiveness of three pre-trained transformer models: AraELECTRA, CAMeLBERT, and XLM-RoBERTa. Our approach involved fine-tuning each model on the provided dataset for a binary classification task. Our findings revealed a surprising result: the multilingual XLM-RoBERTa model achieved the highest performance with an F1 score of 0.7701, outperforming the specialized Arabic models. This work underscores the complexities of AI-generated text detection and highlights the strong generalization capabilities of multilingual models.

academic

BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection

基本信息

论文ID: 2510.20610
标题: BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection
作者: Ali Zain, Sareem Farooqui, Muhammad Rafi (National University of Computer and Emerging Sciences, FAST, Karachi, Pakistan)
分类: cs.CL (Computational Linguistics), cs.AI (Artificial Intelligence)
发表时间: 2025年10月25日 (arXiv版本)
论文链接: https://arxiv.org/abs/2510.20610v2

摘要

本论文详细介绍了BUSTED团队在AraGenEval阿拉伯语AI生成文本检测共享任务中的提交方案，该团队获得第5名。研究者比较了三个预训练Transformer模型的有效性：AraELECTRA、CAMeLBERT和XLM-RoBERTa。方法涉及在提供的数据集上对每个模型进行微调以完成二元分类任务。研究发现了一个令人惊讶的结果：多语言XLM-RoBERTa模型取得了最高性能，F1分数达到0.7701，超越了专门的阿拉伯语模型。这项工作强调了AI生成文本检测的复杂性，并突出了多语言模型强大的泛化能力。

研究背景与动机

问题定义

随着大型语言模型(LLMs)的日益成熟，人工撰写文本与机器生成文本之间的界限变得模糊。这一现实带来了重大的社会风险，从加速虚假信息传播到破坏学术诚信。因此，开发可靠的AI生成文本检测器已成为紧迫的研究优先事项。

研究重要性

社会影响：AI生成文本的滥用可能导致虚假信息传播和学术不端
技术挑战：现代LLMs生成的文本流畅度极高，传统检测方法效果有限
语言特异性：阿拉伯语作为资源相对匮乏的语言，在AI文本检测领域工具仍在发展中

现有方法局限性

传统方法不足：早期基于统计文体学的方法（如n-gram频率、可读性评分、句法结构）对现代LLMs的流畅文本检测效果不佳
语言资源缺乏：阿拉伯语AI文本检测工具相比其他语言发展滞后
模型选择不明确：缺乏对不同Transformer架构在阿拉伯语AI文本检测任务上的系统性比较

核心贡献

模型比较研究：提供了单语言与多语言模型在阿拉伯语文本检测任务上的直接比较
反直觉发现：证明了多语言模型可以取得优于专门语言模型的性能
预处理影响分析：分析了文本标准化等预处理选择如何意外地损害模型性能
实用性验证：在AraGenEval共享任务中获得第5名，验证了方法的有效性

方法详解

任务定义

输入：一段阿拉伯语文本字符串
输出：二元标签（'human'或'machine'）
任务类型：二元文本分类问题

模型架构

研究者实现了基于三个不同预训练模型的系统：

System 1: AraELECTRA

模型：aubmindlab/araelectra-base-discriminator
特点：专门的阿拉伯语ELECTRA模型
预处理：应用激进的阿拉伯语文本标准化
- 标准化各种阿拉伯字符（如alef变体到标准alef）
- 将ta marbuta转换为ha
- 去除所有阿拉伯语变音符号和非字母数字字符

System 2: CAMeLBERT

模型：CAMeL-Lab/bert-base-arabic-camelbert-mix
特点：广泛使用的阿拉伯语BERT模型
预处理：不应用特定文本标准化，完全依赖模型预训练的分词器

System 3: XLM-RoBERTa

模型：xlm-roberta-base
特点：大型多语言模型
预处理：类似CAMeLBERT设置，不执行语言特定标准化

技术创新点

系统性比较：首次在阿拉伯语AI文本检测任务上系统比较单语言vs多语言模型
预处理策略差异化：通过不同的预处理策略探索其对模型性能的影响
数据驱动分析：基于数据集特征分析指导模型选择和优化

实验设置

数据集

数据集：AraGenEval数据集
规模：清理后包含4,734个训练样本
类别分布：近乎平衡
- 机器生成：2,399样本（50.68%）
- 人工撰写：2,335样本（49.32%）

数据特征分析

文本长度差异显著：
- 人工撰写文本平均长度：4,059.13字符
- 机器生成文本平均长度：1,934.53字符
词汇和N-gram差异：
- 人工文本：频繁包含"Gaza"、"the war"、"Israel"等时事相关词汇
- 机器文本：使用更通用正式词汇，如"can be"、"in a way"等

数据划分策略

AraELECTRA & CAMeLBERT：使用全部4,734个训练样本进行训练和开发阶段评估
XLM-RoBERTa：将训练数据按80/20分割
- 训练集：3,787样本
- 验证集：947样本
- 采用分层采样保持标签分布

评价指标

主要指标：宏平均F1分数
辅助指标：准确率、精确率、召回率、特异性、平衡准确率

实现细节

超参数	数值
学习率	2e-5
批次大小	4
优化器	AdamW
权重衰减	0.01
最大序列长度	512
训练轮数（AraELECTRA）	4
训练轮数（CAMeLBERT）	4
训练轮数（XLM-RoBERTa）	5

实验结果

主要结果

模型	F1-Score	准确率	精确率	召回率	特异性	平衡准确率
XLM-RoBERTa	0.7701	0.760	0.7390	0.804	0.716	0.760
CAMeLBERT	0.7290	0.710	0.6842	0.780	0.640	0.710
AraELECTRA	0.6180	0.550	0.5369	0.728	0.372	0.550