2025-11-11T13:22:08.595769

BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection

Zain, Farooqui, Rafi

This paper details our submission to the AraGenEval Shared Task on Arabic AI-generated text detection, where our team, BUSTED, secured 5th place. We investigated the effectiveness of three pre-trained transformer models: AraELECTRA, CAMeLBERT, and XLM-RoBERTa. Our approach involved fine-tuning each model on the provided dataset for a binary classification task. Our findings revealed a surprising result: the multilingual XLM-RoBERTa model achieved the highest performance with an F1 score of 0.7701, outperforming the specialized Arabic models. This work underscores the complexities of AI-generated text detection and highlights the strong generalization capabilities of multilingual models.

academic

AraGenEval共有タスクにおけるBUSTED：アラビア語AI生成テキスト検出のためのTransformerベースモデルの比較研究

基本情報

論文ID: 2510.20610
タイトル: BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection
著者: Ali Zain、Sareem Farooqui、Muhammad Rafi（パキスタン、カラチ、国立コンピュータ・新興科学大学FAST）
分類: cs.CL（計算言語学）、cs.AI（人工知能）
発表日: 2025年10月25日（arXiv版）
論文リンク: https://arxiv.org/abs/2510.20610v2

要旨

本論文は、AraGenEvalアラビア語AI生成テキスト検出共有タスクにおいて第5位を獲得したBUSTEDチームの提出方案について詳しく説明しています。研究者は3つの事前学習Transformerモデルの有効性を比較しました：AraELECTRA、CAMeLBERT、およびXLM-RoBERTa。手法は提供されたデータセット上で各モデルを微調整し、二値分類タスクを完了することを含みます。研究は驚くべき結果を発見しました：多言語XLM-RoBERTaモデルが最高性能を達成し、F1スコアは0.7701に達し、専門的なアラビア語モデルを上回りました。この研究はAI生成テキスト検出の複雑性を強調し、多言語モデルの強力な汎化能力を浮き彫りにしています。

研究背景と動機

問題定義

大規模言語モデル（LLMs）の急速な進化に伴い、人間が執筆したテキストと機械生成テキストの境界が曖昧になっています。この現実は、虚偽情報の拡散の加速から学術的誠実性の破壊まで、重大な社会的リスクをもたらしています。したがって、信頼性の高いAI生成テキスト検出器の開発は、緊急の研究優先事項となっています。

研究の重要性

社会的影響：AI生成テキストの悪用は虚偽情報の拡散と学術不正につながる可能性がある
技術的課題：現代的なLLMsが生成するテキストは極めて流暢であり、従来の検出方法の効果は限定的である
言語特異性：アラビア語はリソースが比較的限定的な言語であり、AI文本検出分野のツールはまだ発展途上である

既存方法の限界

従来的方法の不十分性：初期の統計文体論に基づく方法（n-gram頻度、可読性スコア、構文構造など）は、現代的なLLMsの流暢なテキスト検出に対して効果が低い
言語リソースの不足：アラビア語AI文本検出ツールは他の言語と比べて発展が遅れている
モデル選択の不明確性：異なるTransformerアーキテクチャのアラビア語AI文本検出タスクに対する体系的な比較が不足している

核心的貢献

モデル比較研究：単言語モデルと多言語モデルのアラビア語テキスト検出タスクにおける直接比較を提供
反直感的発見：多言語モデルが専門言語モデルより優れた性能を達成できることを実証
前処理影響分析：テキスト正規化などの前処理選択がモデル性能に悪影響を与える可能性を分析
実用性検証：AraGenEval共有タスクで第5位を獲得し、方法の有効性を検証

方法の詳細説明

タスク定義

入力：アラビア語テキスト文字列
出力：二値ラベル（「human」または「machine」）
タスク種別：二値テキスト分類問題

モデルアーキテクチャ

研究者は3つの異なる事前学習モデルに基づくシステムを実装しました：

システム1：AraELECTRA

モデル：aubmindlab/araelectra-base-discriminator
特徴：専門的なアラビア語ELECTRAモデル
前処理：積極的なアラビア語テキスト正規化を適用
- 様々なアラビア文字を標準形に正規化（例：alef変種を標準alefに）
- ta marbutaをhaに変換
- すべてのアラビア語ダイアクリティクスと非英数字を削除

システム2：CAMeLBERT

モデル：CAMeL-Lab/bert-base-arabic-camelbert-mix
特徴：広く使用されているアラビア語BERTモデル
前処理：特定のテキスト正規化を適用せず、モデルの事前学習トークナイザーに完全に依存

システム3：XLM-RoBERTa

モデル：xlm-roberta-base
特徴：大規模多言語モデル
前処理：CAMeLBERTと同様の設定で、言語特定の正規化を実行しない

技術的革新点

体系的比較：アラビア語AI文本検出タスクにおいて、単言語モデルと多言語モデルを初めて体系的に比較
前処理戦略の差別化：異なる前処理戦略を通じて、モデル性能への影響を探索
データ駆動分析：データセット特性に基づく分析がモデル選択と最適化を指導

実験設定

データセット

データセット：AraGenEvalデータセット
規模：クリーニング後4,734個の訓練サンプルを含む
クラス分布：ほぼ均衡
- 機械生成：2,399サンプル（50.68%）
- 人間執筆：2,335サンプル（49.32%）

データ特性分析

テキスト長の顕著な差異：
- 人間執筆テキストの平均長：4,059.13文字
- 機械生成テキストの平均長：1,934.53文字
語彙とN-gramの差異：
- 人間テキスト：「Gaza」、「the war」、「Israel」などの時事関連語彙を頻繁に含む
- 機械テキスト：「can be」、「in a way」などのより一般的で正式な語彙を使用

データ分割戦略

AraELECTRA & CAMeLBERT：訓練・開発段階の評価のために全4,734個の訓練サンプルを使用
XLM-RoBERTa：訓練データを80/20に分割
- 訓練セット：3,787サンプル
- 検証セット：947サンプル
- 層化サンプリングでラベル分布を維持

評価指標

主要指標：マクロ平均F1スコア
補助指標：精度、適合率、再現率、特異性、バランス精度

実装詳細

ハイパーパラメータ	値
学習率	2e-5
バッチサイズ	4
オプティマイザ	AdamW
重み減衰	0.01
最大シーケンス長	512
訓練エポック数（AraELECTRA）	4
訓練エポック数（CAMeLBERT）	4
訓練エポック数（XLM-RoBERTa）	5

実験結果

主要結果

モデル	F1スコア	精度	適合率	再現率	特異性	バランス精度
XLM-RoBERTa	0.7701	0.760	0.7390	0.804	0.716	0.760
CAMeLBERT	0.7290	0.710	0.6842	0.780	0.640	0.710
AraELECTRA	0.6180	0.550	0.5369	0.728	0.372	0.550