2025-11-11T13:22:08.595769

BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection

Zain, Farooqui, Rafi
This paper details our submission to the AraGenEval Shared Task on Arabic AI-generated text detection, where our team, BUSTED, secured 5th place. We investigated the effectiveness of three pre-trained transformer models: AraELECTRA, CAMeLBERT, and XLM-RoBERTa. Our approach involved fine-tuning each model on the provided dataset for a binary classification task. Our findings revealed a surprising result: the multilingual XLM-RoBERTa model achieved the highest performance with an F1 score of 0.7701, outperforming the specialized Arabic models. This work underscores the complexities of AI-generated text detection and highlights the strong generalization capabilities of multilingual models.
academic

BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection

基本信息

  • 论文ID: 2510.20610
  • 标题: BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection
  • 作者: Ali Zain, Sareem Farooqui, Muhammad Rafi (National University of Computer and Emerging Sciences, FAST, Karachi, Pakistan)
  • 分类: cs.CL (Computational Linguistics), cs.AI (Artificial Intelligence)
  • 发表时间: 2025年10月25日 (arXiv版本)
  • 论文链接: https://arxiv.org/abs/2510.20610v2

摘要

本论文详细介绍了BUSTED团队在AraGenEval阿拉伯语AI生成文本检测共享任务中的提交方案,该团队获得第5名。研究者比较了三个预训练Transformer模型的有效性:AraELECTRA、CAMeLBERT和XLM-RoBERTa。方法涉及在提供的数据集上对每个模型进行微调以完成二元分类任务。研究发现了一个令人惊讶的结果:多语言XLM-RoBERTa模型取得了最高性能,F1分数达到0.7701,超越了专门的阿拉伯语模型。这项工作强调了AI生成文本检测的复杂性,并突出了多语言模型强大的泛化能力。

研究背景与动机

问题定义

随着大型语言模型(LLMs)的日益成熟,人工撰写文本与机器生成文本之间的界限变得模糊。这一现实带来了重大的社会风险,从加速虚假信息传播到破坏学术诚信。因此,开发可靠的AI生成文本检测器已成为紧迫的研究优先事项。

研究重要性

  1. 社会影响:AI生成文本的滥用可能导致虚假信息传播和学术不端
  2. 技术挑战:现代LLMs生成的文本流畅度极高,传统检测方法效果有限
  3. 语言特异性:阿拉伯语作为资源相对匮乏的语言,在AI文本检测领域工具仍在发展中

现有方法局限性

  1. 传统方法不足:早期基于统计文体学的方法(如n-gram频率、可读性评分、句法结构)对现代LLMs的流畅文本检测效果不佳
  2. 语言资源缺乏:阿拉伯语AI文本检测工具相比其他语言发展滞后
  3. 模型选择不明确:缺乏对不同Transformer架构在阿拉伯语AI文本检测任务上的系统性比较

核心贡献

  1. 模型比较研究:提供了单语言与多语言模型在阿拉伯语文本检测任务上的直接比较
  2. 反直觉发现:证明了多语言模型可以取得优于专门语言模型的性能
  3. 预处理影响分析:分析了文本标准化等预处理选择如何意外地损害模型性能
  4. 实用性验证:在AraGenEval共享任务中获得第5名,验证了方法的有效性

方法详解

任务定义

  • 输入:一段阿拉伯语文本字符串
  • 输出:二元标签('human'或'machine')
  • 任务类型:二元文本分类问题

模型架构

研究者实现了基于三个不同预训练模型的系统:

System 1: AraELECTRA

  • 模型:aubmindlab/araelectra-base-discriminator
  • 特点:专门的阿拉伯语ELECTRA模型
  • 预处理:应用激进的阿拉伯语文本标准化
    • 标准化各种阿拉伯字符(如alef变体到标准alef)
    • 将ta marbuta转换为ha
    • 去除所有阿拉伯语变音符号和非字母数字字符

System 2: CAMeLBERT

  • 模型:CAMeL-Lab/bert-base-arabic-camelbert-mix
  • 特点:广泛使用的阿拉伯语BERT模型
  • 预处理:不应用特定文本标准化,完全依赖模型预训练的分词器

System 3: XLM-RoBERTa

  • 模型:xlm-roberta-base
  • 特点:大型多语言模型
  • 预处理:类似CAMeLBERT设置,不执行语言特定标准化

技术创新点

  1. 系统性比较:首次在阿拉伯语AI文本检测任务上系统比较单语言vs多语言模型
  2. 预处理策略差异化:通过不同的预处理策略探索其对模型性能的影响
  3. 数据驱动分析:基于数据集特征分析指导模型选择和优化

实验设置

数据集

  • 数据集:AraGenEval数据集
  • 规模:清理后包含4,734个训练样本
  • 类别分布:近乎平衡
    • 机器生成:2,399样本(50.68%)
    • 人工撰写:2,335样本(49.32%)

数据特征分析

  1. 文本长度差异显著
    • 人工撰写文本平均长度:4,059.13字符
    • 机器生成文本平均长度:1,934.53字符
  2. 词汇和N-gram差异
    • 人工文本:频繁包含"Gaza"、"the war"、"Israel"等时事相关词汇
    • 机器文本:使用更通用正式词汇,如"can be"、"in a way"等

数据划分策略

  • AraELECTRA & CAMeLBERT:使用全部4,734个训练样本进行训练和开发阶段评估
  • XLM-RoBERTa:将训练数据按80/20分割
    • 训练集:3,787样本
    • 验证集:947样本
    • 采用分层采样保持标签分布

评价指标

  • 主要指标:宏平均F1分数
  • 辅助指标:准确率、精确率、召回率、特异性、平衡准确率

实现细节

超参数数值
学习率2e-5
批次大小4
优化器AdamW
权重衰减0.01
最大序列长度512
训练轮数(AraELECTRA)4
训练轮数(CAMeLBERT)4
训练轮数(XLM-RoBERTa)5

实验结果

主要结果

模型F1-Score准确率精确率召回率特异性平衡准确率
XLM-RoBERTa0.77010.7600.73900.8040.7160.760
CAMeLBERT0.72900.7100.68420.7800.6400.710
AraELECTRA0.61800.5500.53690.7280.3720.550

关键发现

  1. 多语言模型优势:XLM-RoBERTa在所有指标上都取得最佳性能,显著超越专门的阿拉伯语模型
  2. 预处理策略影响:AraELECTRA的激进文本标准化策略可能适得其反
  3. 性能排序:XLM-RoBERTa > CAMeLBERT > AraELECTRA

结果分析

XLM-RoBERTa成功原因

  • 多样化预训练语料:在100种语言上的广泛预训练可能使其具备更强的泛化特征提取能力
  • 风格敏感性:更好地捕捉人工文本(新闻焦点)和机器文本(正式分析性)之间的风格差异

AraELECTRA性能不佳原因

  • 过度标准化:激进的文本标准化和变音符号去除可能删除了关键的细粒度信号
  • 信息丢失:去除了词汇风格选择、特定命名实体等重要区分特征

错误模式分析

  • 精确率vs召回率:所有模型的精确率都低于召回率,表明倾向于将人工文本误分类为机器生成
  • 可能原因:领域不匹配或人工撰写的公式化文本可能类似AI生成模式

相关工作

历史发展

  1. 早期方法:基于统计文体学的作者归属和机器文本检测
    • 特征:n-gram频率、可读性评分、句法结构
    • 局限:对现代LLMs效果有限
  2. 神经网络方法:当前研究主流
    • 微调预训练Transformers(如BERT)
    • 检测LLMs生成过程的统计伪影
    • 文本生成过程中嵌入"水印"

本文定位

  • 遵循微调范式
  • 受综合比较研究启发(如Al-Shboul et al., 2024)
  • 专注于资源匮乏的阿拉伯语AI文本检测领域

结论与讨论

主要结论

  1. 多语言模型的意外优势:XLM-RoBERTa在阿拉伯语AI文本检测任务上超越专门的阿拉伯语模型
  2. 预处理的双刃剑效应:过度的文本标准化可能损害模型性能
  3. 数据特征的重要性:文本长度和词汇选择是区分人工与机器文本的关键特征

局限性

  1. AraELECTRA性能不佳:主要由于预处理策略选择不当
  2. 错误分析不充分:缺乏详细的定性错误分析
  3. 单一数据集验证:仅在AraGenEval数据集上验证

未来方向

  1. 预处理优化:探索不那么激进的文本标准化方法
  2. 模型集成:实验模型集成技术
  3. 深入错误分析:更好理解任务的失败模式
  4. 跨域泛化:在多个阿拉伯语数据集上验证方法

深度评价

优点

  1. 系统性比较:提供了不同类型Transformer模型的全面比较
  2. 反直觉发现:多语言模型优于专门语言模型的发现具有重要意义
  3. 实用价值:在实际竞赛中取得良好成绩,验证方法有效性
  4. 数据分析充分:对数据集特征进行了深入分析,为模型选择提供依据
  5. 实验设计合理:超参数设置和评估指标选择恰当

不足

  1. 预处理策略不统一:三个模型使用不同预处理策略,影响比较公平性
  2. 数据划分不一致:不同模型使用不同的数据划分策略
  3. 错误分析缺失:缺乏对模型失败案例的深入分析
  4. 消融实验不足:未充分验证各组件的贡献
  5. 泛化性验证有限:仅在单一数据集上验证

影响力

  1. 学术贡献:为阿拉伯语AI文本检测领域提供重要基准
  2. 实践指导:为类似任务的模型选择提供参考
  3. 方法论价值:系统比较方法可应用于其他语言和任务
  4. 可复现性:提供了详细的实验设置,便于复现

适用场景

  1. 阿拉伯语内容审核:社交媒体和新闻平台的AI文本检测
  2. 学术诚信检查:教育机构的作业和论文原创性验证
  3. 多语言环境:需要处理多种语言AI文本检测的场景
  4. 资源受限环境:为其他资源匮乏语言的AI文本检测提供方法参考

参考文献

本论文引用了多个重要的相关工作,包括:

  • Transformer架构基础论文(Vaswani et al., 2017)
  • BERT模型(Devlin et al., 2019)
  • ELECTRA模型(Clark et al., 2020)
  • XLM-RoBERTa模型(Conneau et al., 2020)
  • 阿拉伯语专门模型:AraELECTRA(Antoun et al., 2021)和CAMeLBERT(Inoue et al., 2021)
  • 阿拉伯语文本分类综述(Al-Shboul et al., 2024)

总体评价:这是一篇扎实的实证研究论文,通过系统比较揭示了多语言模型在阿拉伯语AI文本检测任务上的意外优势。尽管存在一些方法论上的不足,但其发现对该领域具有重要价值,为未来研究提供了有益的方向指引。