2025-11-11T13:22:08.595769

BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection

Zain, Farooqui, Rafi

This paper details our submission to the AraGenEval Shared Task on Arabic AI-generated text detection, where our team, BUSTED, secured 5th place. We investigated the effectiveness of three pre-trained transformer models: AraELECTRA, CAMeLBERT, and XLM-RoBERTa. Our approach involved fine-tuning each model on the provided dataset for a binary classification task. Our findings revealed a surprising result: the multilingual XLM-RoBERTa model achieved the highest performance with an F1 score of 0.7701, outperforming the specialized Arabic models. This work underscores the complexities of AI-generated text detection and highlights the strong generalization capabilities of multilingual models.

academic

BUSTED à la Tâche Partagée AraGenEval : Une Étude Comparative des Modèles Basés sur Transformers pour la Détection de Textes Générés par l'IA en Arabe

Informations Fondamentales

ID de l'article : 2510.20610
Titre : BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection
Auteurs : Ali Zain, Sareem Farooqui, Muhammad Rafi (Université Nationale des Sciences Informatiques et Émergentes, FAST, Karachi, Pakistan)
Classification : cs.CL (Linguistique Computationnelle), cs.AI (Intelligence Artificielle)
Date de Publication : 25 octobre 2025 (version arXiv)
Lien de l'article : https://arxiv.org/abs/2510.20610v2

Résumé

Cet article détaille la soumission de l'équipe BUSTED à la tâche partagée de détection de textes générés par l'IA en arabe AraGenEval, où l'équipe a obtenu la 5ème place. Les chercheurs comparent l'efficacité de trois modèles Transformers pré-entraînés : AraELECTRA, CAMeLBERT et XLM-RoBERTa. La méthodologie implique l'ajustement fin de chaque modèle sur l'ensemble de données fourni pour accomplir une tâche de classification binaire. L'étude révèle un résultat surprenant : le modèle multilingue XLM-RoBERTa a obtenu les meilleures performances avec un score F1 de 0,7701, surpassant les modèles spécialisés en arabe. Ce travail souligne la complexité de la détection de textes générés par l'IA et met en évidence la puissante capacité de généralisation des modèles multilingues.

Contexte et Motivation de la Recherche

Définition du Problème

Avec la maturation croissante des modèles de langage de grande taille (LLMs), la frontière entre les textes rédigés par l'homme et les textes générés par machine devient floue. Cette réalité présente des risques sociaux majeurs, allant de l'accélération de la propagation de la désinformation à la compromission de l'intégrité académique. Par conséquent, le développement de détecteurs fiables de textes générés par l'IA est devenu une priorité de recherche urgente.

Importance de la Recherche

Impact Social : L'abus de textes générés par l'IA peut entraîner la propagation de fausses informations et la malhonnêteté académique
Défis Techniques : Les textes générés par les LLMs modernes sont extrêmement fluides, et les méthodes de détection traditionnelles ont une efficacité limitée
Spécificité Linguistique : L'arabe, en tant que langue relativement pauvre en ressources, dispose encore d'outils en développement dans le domaine de la détection de textes générés par l'IA

Limitations des Approches Existantes

Insuffisance des Méthodes Traditionnelles : Les approches anciennes basées sur la stylométrie statistique (telles que la fréquence des n-grammes, les scores de lisibilité, les structures syntaxiques) sont inefficaces pour détecter les textes fluides des LLMs modernes
Manque de Ressources Linguistiques : Les outils de détection de textes générés par l'IA en arabe sont en retard par rapport à d'autres langues
Choix de Modèle Peu Clair : Absence de comparaison systématique de différentes architectures Transformers sur les tâches de détection de textes en arabe

Contributions Principales

Étude Comparative de Modèles : Fournit une comparaison directe entre les modèles monolingues et multilingues sur la tâche de détection de textes en arabe
Découverte Contre-Intuitive : Démontre que les modèles multilingues peuvent surpasser les modèles de langues spécialisées en termes de performance
Analyse de l'Impact du Prétraitement : Analyse comment les choix de prétraitement tels que la normalisation de texte peuvent endommager les performances du modèle
Validation Pratique : Obtient la 5ème place à la tâche partagée AraGenEval, validant l'efficacité de la méthode

Explication Détaillée de la Méthodologie

Définition de la Tâche

Entrée : Une chaîne de texte en arabe
Sortie : Étiquette binaire ('human' ou 'machine')
Type de Tâche : Problème de classification de texte binaire

Architecture des Modèles

Les chercheurs ont implémenté des systèmes basés sur trois modèles pré-entraînés différents :

Système 1 : AraELECTRA

Modèle : aubmindlab/araelectra-base-discriminator
Caractéristiques : Modèle ELECTRA spécialisé en arabe
Prétraitement : Application d'une normalisation agressive de texte en arabe
- Normalisation de diverses variantes de caractères arabes (par exemple, les variantes d'alef vers alef standard)
- Conversion de ta marbuta en ha
- Suppression de tous les diacritiques arabes et caractères non alphanumériques

Système 2 : CAMeLBERT

Modèle : CAMeL-Lab/bert-base-arabic-camelbert-mix
Caractéristiques : Modèle BERT en arabe largement utilisé
Prétraitement : Aucune normalisation de texte spécifique appliquée, dépendance complète du tokeniseur pré-entraîné du modèle

Système 3 : XLM-RoBERTa

Modèle : xlm-roberta-base
Caractéristiques : Grand modèle multilingue
Prétraitement : Configuration similaire à CAMeLBERT, aucune normalisation spécifique à la langue n'est exécutée

Points d'Innovation Technique

Comparaison Systématique : Première comparaison systématique des modèles monolingues vs multilingues sur la tâche de détection de textes générés par l'IA en arabe
Différenciation des Stratégies de Prétraitement : Exploration de l'impact de différentes stratégies de prétraitement sur les performances du modèle
Analyse Guidée par les Données : Analyse basée sur les caractéristiques de l'ensemble de données pour guider la sélection et l'optimisation des modèles

Configuration Expérimentale

Ensemble de Données

Ensemble de Données : Ensemble de données AraGenEval
Taille : Contient 4 734 échantillons d'entraînement après nettoyage
Distribution des Classes : Presque équilibrée
- Généré par machine : 2 399 échantillons (50,68%)
- Rédigé par l'homme : 2 335 échantillons (49,32%)

Analyse des Caractéristiques des Données

Différences Significatives de Longueur de Texte :
- Longueur moyenne du texte rédigé par l'homme : 4 059,13 caractères
- Longueur moyenne du texte généré par machine : 1 934,53 caractères
Différences de Vocabulaire et N-grammes :
- Texte humain : Contient fréquemment des vocabulaires liés à l'actualité tels que « Gaza », « la guerre », « Israël »
- Texte machine : Utilise un vocabulaire plus général et formel, tel que « peut être », « d'une certaine manière »

Stratégie de Division des Données

AraELECTRA & CAMeLBERT : Utilisation de l'ensemble complet des 4 734 échantillons d'entraînement pour l'entraînement et l'évaluation de la phase de développement
XLM-RoBERTa : Division des données d'entraînement selon un ratio 80/20
- Ensemble d'entraînement : 3 787 échantillons
- Ensemble de validation : 947 échantillons
- Utilisation d'un échantillonnage stratifié pour maintenir la distribution des étiquettes

Métriques d'Évaluation

Métrique Principale : Score F1 macro-moyenné
Métriques Auxiliaires : Précision, Exactitude, Rappel, Spécificité, Précision Équilibrée

Détails d'Implémentation

Hyperparamètre	Valeur
Taux d'apprentissage	2e-5
Taille du lot	4
Optimiseur	AdamW
Décroissance des poids	0,01
Longueur maximale de séquence	512
Nombre d'épochs (AraELECTRA)	4
Nombre d'épochs (CAMeLBERT)	4
Nombre d'épochs (XLM-RoBERTa)	5

Résultats Expérimentaux

Résultats Principaux

Modèle	Score F1	Précision	Exactitude	Rappel	Spécificité	Précision Équilibrée
XLM-RoBERTa	0,7701	0,760	0,7390	0,804	0,716	0,760
CAMeLBERT	0,7290	0,710	0,6842	0,780	0,640	0,710
AraELECTRA	0,6180	0,550	0,5369	0,728	0,372	0,550

Découvertes Clés

Avantage des Modèles Multilingues : XLM-RoBERTa a obtenu les meilleures performances sur tous les indicateurs, surpassant significativement les modèles spécialisés en arabe
Impact de la Stratégie de Prétraitement : La stratégie agressive de normalisation de texte d'AraELECTRA peut s'avérer contre-productive
Classement des Performances : XLM-RoBERTa > CAMeLBERT > AraELECTRA

Analyse des Résultats

Raisons du Succès de XLM-RoBERTa

Corpus d'Entraînement Diversifié : L'entraînement préalable approfondi sur 100 langues peut lui confèrer une capacité plus forte d'extraction de caractéristiques de généralisation
Sensibilité au Style : Meilleure capture des différences de style entre les textes humains (axés sur l'actualité) et les textes machine (formels et analytiques)

Raisons des Faibles Performances d'AraELECTRA

Normalisation Excessive : La normalisation agressive de texte et la suppression des diacritiques peuvent supprimer des signaux fins critiques
Perte d'Information : Suppression de caractéristiques distinctives importantes telles que les choix de vocabulaire stylistique et les entités nommées spécifiques

Analyse des Modèles d'Erreur

Exactitude vs Rappel : L'exactitude de tous les modèles est inférieure au rappel, indiquant une tendance à classer à tort les textes humains comme générés par machine
Causes Possibles : L'inadéquation du domaine ou les textes rédigés par l'homme formulaïques peuvent ressembler à des modèles générés par l'IA

Travaux Connexes

Développement Historique

Approches Anciennes : Attribution d'auteur basée sur la stylométrie statistique et détection de textes machine
- Caractéristiques : Fréquence des n-grammes, scores de lisibilité, structures syntaxiques
- Limitations : Efficacité limitée sur les LLMs modernes
Approches par Réseaux de Neurones : Courant dominant de la recherche actuelle
- Ajustement fin des Transformers pré-entraînés (tels que BERT)
- Détection des artéfacts statistiques du processus de génération de texte par les LLMs
- Intégration de « filigranes » dans le processus de génération de texte

Positionnement de cet Article

Suivi du paradigme d'ajustement fin
Inspiré par les études de comparaison synthétiques (telles que Al-Shboul et al., 2024)
Concentration sur le domaine de la détection de textes générés par l'IA en arabe, une langue relativement pauvre en ressources

Conclusions et Discussion

Conclusions Principales

Avantage Inattendu des Modèles Multilingues : XLM-RoBERTa surpasse les modèles spécialisés en arabe sur la tâche de détection de textes générés par l'IA en arabe
Effet à Double Tranchant du Prétraitement : La normalisation excessive de texte peut endommager les performances du modèle
Importance des Caractéristiques des Données : La longueur du texte et les choix de vocabulaire sont des caractéristiques clés pour distinguer les textes humains des textes machine

Limitations

Faibles Performances d'AraELECTRA : Principalement dues à des choix inappropriés de stratégie de prétraitement
Analyse d'Erreur Insuffisante : Manque d'analyse qualitative détaillée des erreurs
Validation sur un Seul Ensemble de Données : Validation uniquement sur l'ensemble de données AraGenEval

Directions Futures

Optimisation du Prétraitement : Exploration de méthodes de normalisation de texte moins agressives
Ensemble de Modèles : Expérimentation de techniques d'ensemble de modèles
Analyse d'Erreur Approfondie : Meilleure compréhension des modèles d'échec de la tâche
Généralisation Interdomaines : Validation de la méthode sur plusieurs ensembles de données en arabe

Évaluation Approfondie

Points Forts

Comparaison Systématique : Fournit une comparaison complète de différents types de modèles Transformers
Découverte Contre-Intuitive : La découverte que les modèles multilingues surpassent les modèles de langues spécialisées est d'une grande importance
Valeur Pratique : Obtient de bons résultats dans une compétition réelle, validant l'efficacité de la méthode
Analyse de Données Suffisante : Analyse approfondie des caractéristiques de l'ensemble de données, fournissant une base pour la sélection des modèles
Conception Expérimentale Raisonnable : Configuration appropriée des hyperparamètres et sélection des métriques d'évaluation

Insuffisances

Stratégies de Prétraitement Incohérentes : Les trois modèles utilisent des stratégies de prétraitement différentes, affectant l'équité de la comparaison
Division des Données Incohérente : Différents modèles utilisent des stratégies de division des données différentes
Analyse d'Erreur Manquante : Manque d'analyse approfondie des cas d'échec des modèles
Expériences d'Ablation Insuffisantes : Vérification insuffisante de la contribution de chaque composant
Vérification de Généralisation Limitée : Validation uniquement sur un seul ensemble de données

Influence

Contribution Académique : Fournit un repère important pour le domaine de la détection de textes générés par l'IA en arabe
Orientation Pratique : Fournit une référence pour la sélection de modèles pour des tâches similaires
Valeur Méthodologique : La méthode de comparaison systématique peut être appliquée à d'autres langues et tâches
Reproductibilité : Fournit des paramètres expérimentaux détaillés, facilitant la reproduction

Scénarios Applicables

Modération de Contenu en Arabe : Détection de textes générés par l'IA sur les réseaux sociaux et les plateformes d'actualités
Vérification de l'Intégrité Académique : Vérification de l'originalité des devoirs et des articles dans les établissements d'enseignement
Environnements Multilingues : Scénarios nécessitant le traitement de la détection de textes générés par l'IA dans plusieurs langues
Environnements Pauvres en Ressources : Fournit une référence méthodologique pour la détection de textes générés par l'IA dans d'autres langues pauvres en ressources

Références

Cet article cite plusieurs travaux connexes importants, notamment :

Articles fondamentaux sur l'architecture Transformer (Vaswani et al., 2017)
Modèle BERT (Devlin et al., 2019)
Modèle ELECTRA (Clark et al., 2020)
Modèle XLM-RoBERTa (Conneau et al., 2020)
Modèles spécialisés en arabe : AraELECTRA (Antoun et al., 2021) et CAMeLBERT (Inoue et al., 2021)
Revue de Classification de Texte en Arabe (Al-Shboul et al., 2024)

Évaluation Globale : Cet article est une recherche empirique solide qui révèle, par comparaison systématique, l'avantage inattendu des modèles multilingues sur la tâche de détection de textes générés par l'IA en arabe. Bien qu'il présente certaines insuffisances méthodologiques, ses découvertes ont une valeur importante pour le domaine et fournissent des orientations utiles pour les recherches futures.