This paper details our submission to the AraGenEval Shared Task on Arabic AI-generated text detection, where our team, BUSTED, secured 5th place. We investigated the effectiveness of three pre-trained transformer models: AraELECTRA, CAMeLBERT, and XLM-RoBERTa. Our approach involved fine-tuning each model on the provided dataset for a binary classification task. Our findings revealed a surprising result: the multilingual XLM-RoBERTa model achieved the highest performance with an F1 score of 0.7701, outperforming the specialized Arabic models. This work underscores the complexities of AI-generated text detection and highlights the strong generalization capabilities of multilingual models.
academic- معرّف الورقة: 2510.20610
- العنوان: BUSTED at AraGenEval Shared Task: A Comparative Study of Transformer-Based Models for Arabic AI-Generated Text Detection
- المؤلفون: علي زين، سريم فاروقي، محمد رافي (الجامعة الوطنية لعلوم الحاسوب والعلوم الناشئة، FAST، كراتشي، باكستان)
- التصنيف: cs.CL (اللسانيات الحاسوبية)، cs.AI (الذكاء الاصطناعي)
- تاريخ النشر: 25 أكتوبر 2025 (إصدار arXiv)
- رابط الورقة: https://arxiv.org/abs/2510.20610v2
تقدم هذه الورقة بالتفصيل حل فريق BUSTED في مهمة كشف النصوص المولدة بالذكاء الاصطناعي باللغة العربية المشتركة (AraGenEval)، حيث احتل الفريق المركز الخامس. قارن الباحثون فعالية ثلاثة نماذج Transformer مدربة مسبقاً: AraELECTRA و CAMeLBERT و XLM-RoBERTa. تتضمن الطريقة ضبط دقيق لكل نموذج على مجموعة البيانات المقدمة لإكمال مهمة التصنيف الثنائي. كشفت الدراسة عن نتيجة مفاجئة: حقق نموذج XLM-RoBERTa متعدد اللغات أفضل أداء بدرجة F1 تبلغ 0.7701، متفوقاً على النماذج المتخصصة باللغة العربية. يؤكد هذا العمل على تعقيد كشف النصوص المولدة بالذكاء الاصطناعي ويبرز القدرات التعميمية القوية للنماذج متعددة اللغات.
مع نضج نماذج اللغة الكبيرة (LLMs)، أصبح الفرق بين النصوص المكتوبة بواسطة الإنسان والنصوص المولدة بواسطة الآلة غير واضح. يحمل هذا الواقع مخاطر اجتماعية كبيرة، من تسريع انتشار المعلومات المضللة إلى تقويض النزاهة الأكاديمية. لذلك، أصبح تطوير كاشفات موثوقة للنصوص المولدة بالذكاء الاصطناعي أولوية بحثية ملحة.
- التأثير الاجتماعي: قد يؤدي إساءة استخدام النصوص المولدة بالذكاء الاصطناعي إلى انتشار المعلومات المضللة والانتحال الأكاديمي
- التحديات التقنية: تنتج نماذج اللغة الحديثة نصوصاً سلسة جداً، وتتمتع الطرق التقليدية بفعالية محدودة
- الخصوصية اللغوية: تعتبر اللغة العربية لغة ذات موارد محدودة نسبياً، وتتطور الأدوات في مجال كشف النصوص المولدة بالذكاء الاصطناعي فيها
- عدم كفاية الطرق التقليدية: الطرق المبكرة القائمة على الأسلوبيات الإحصائية (مثل تكرار n-gram، درجات القراءة، البنية النحوية) تفتقر إلى الفعالية في كشف النصوص السلسة من نماذج اللغة الحديثة
- نقص موارد اللغة: تتخلف أدوات كشف النصوص المولدة بالذكاء الاصطناعي باللغة العربية عن اللغات الأخرى
- عدم وضوح اختيار النموذج: يفتقد الأدب إلى مقارنة منهجية لمعماريات Transformer المختلفة في مهام كشف النصوص باللغة العربية
- دراسة مقارنة للنماذج: توفير مقارنة مباشرة بين النماذج أحادية اللغة ومتعددة اللغات في مهام كشف النصوص باللغة العربية
- اكتشافات مضادة للحدس: إثبات أن النماذج متعددة اللغات يمكن أن تحقق أداءً أفضل من النماذج المتخصصة باللغة
- تحليل تأثير المعالجة المسبقة: تحليل كيفية أن اختيارات المعالجة المسبقة مثل تطبيع النصوص قد تضر بأداء النموذج بشكل غير متوقع
- التحقق من الجدوى العملية: تحقيق المركز الخامس في مهمة AraGenEval المشتركة، مما يتحقق من فعالية الطريقة
- الإدخال: سلسلة نصية باللغة العربية
- الإخراج: تسمية ثنائية ('human' أو 'machine')
- نوع المهمة: مشكلة تصنيف نصوص ثنائية
طبق الباحثون أنظمة قائمة على ثلاثة نماذج مدربة مسبقاً مختلفة:
- النموذج: aubmindlab/araelectra-base-discriminator
- الخصائص: نموذج ELECTRA متخصص باللغة العربية
- المعالجة المسبقة: تطبيق تطبيع نصوص عربي متشدد
- تطبيع أحرف عربية مختلفة (مثل متغيرات alef إلى alef قياسي)
- تحويل ta marbuta إلى ha
- إزالة جميع علامات التشكيل العربية والأحرف غير الأبجدية الرقمية
- النموذج: CAMeL-Lab/bert-base-arabic-camelbert-mix
- الخصائص: نموذج BERT عربي مستخدم على نطاق واسع
- المعالجة المسبقة: عدم تطبيق تطبيع نصوص محدد، الاعتماد الكامل على المقسم المدرب مسبقاً للنموذج
- النموذج: xlm-roberta-base
- الخصائص: نموذج متعدد اللغات كبير
- المعالجة المسبقة: إعداد مشابه لـ CAMeLBERT، بدون تطبيع خاص باللغة
- المقارنة المنهجية: أول مقارنة منهجية بين النماذج أحادية اللغة ومتعددة اللغات في مهام كشف النصوص المولدة بالذكاء الاصطناعي باللغة العربية
- استراتيجيات معالجة مسبقة متباينة: استكشاف تأثير استراتيجيات معالجة مسبقة مختلفة على أداء النموذج
- تحليل مدفوع بالبيانات: تحليل قائم على خصائص مجموعة البيانات لتوجيه اختيار النموذج والتحسين
- مجموعة البيانات: مجموعة بيانات AraGenEval
- الحجم: تحتوي على 4,734 عينة تدريب بعد التنظيف
- توزيع الفئات: متوازن تقريباً
- مولد بواسطة الآلة: 2,399 عينة (50.68%)
- مكتوب بواسطة الإنسان: 2,335 عينة (49.32%)
- اختلاف طول النص كبير:
- متوسط طول النصوص المكتوبة بواسطة الإنسان: 4,059.13 حرف
- متوسط طول النصوص المولدة بواسطة الآلة: 1,934.53 حرف
- اختلافات المفردات و N-gram:
- النصوص البشرية: تحتوي بشكل متكرر على كلمات متعلقة بالأحداث الجارية مثل "غزة"، "الحرب"، "إسرائيل"
- النصوص المولدة بواسطة الآلة: استخدام مفردات أكثر عمومية وشكلية مثل "يمكن أن يكون"، "بطريقة ما"
- AraELECTRA و CAMeLBERT: استخدام جميع 4,734 عينة تدريب للتقييم في مراحل التدريب والتطوير
- XLM-RoBERTa: تقسيم بيانات التدريب بنسبة 80/20
- مجموعة التدريب: 3,787 عينة
- مجموعة التحقق: 947 عينة
- استخدام العينات الطبقية للحفاظ على توزيع التسميات
- المقياس الرئيسي: درجة F1 الكلية
- المقاييس الإضافية: الدقة، الدقة، الاستدعاء، الخصوصية، الدقة المتوازنة
| المعامل الفائق | القيمة |
|---|
| معدل التعلم | 2e-5 |
| حجم الدفعة | 4 |
| المحسّن | AdamW |
| تحلل الوزن | 0.01 |
| أقصى طول تسلسل | 512 |
| عدد الحقب (AraELECTRA) | 4 |
| عدد الحقب (CAMeLBERT) | 4 |
| عدد الحقب (XLM-RoBERTa) | 5 |
| النموذج | درجة F1 | الدقة | الدقة | الاستدعاء | الخصوصية | الدقة المتوازنة |
|---|
| XLM-RoBERTa | 0.7701 | 0.760 | 0.7390 | 0.804 | 0.716 | 0.760 |
| CAMeLBERT | 0.7290 | 0.710 | 0.6842 | 0.780 | 0.640 | 0.710 |
| AraELECTRA | 0.6180 | 0.550 | 0.5369 | 0.728 | 0.372 | 0.550 |
- مزايا النموذج متعدد اللغات: حقق XLM-RoBERTa أفضل أداء في جميع المقاييس، متفوقاً بشكل كبير على النماذج المتخصصة باللغة العربية
- تأثير استراتيجية المعالجة المسبقة: قد تكون استراتيجية تطبيع النصوص الصارمة في AraELECTRA قد أسفرت عن نتائج عكسية
- ترتيب الأداء: XLM-RoBERTa > CAMeLBERT > AraELECTRA
- مدونة تدريب متنوعة: التدريب الواسع على 100 لغة قد يمنحه قدرة استخراج ميزات تعميمية أقوى
- حساسية الأسلوب: قدرة أفضل على التقاط الاختلافات الأسلوبية بين النصوص البشرية (التركيز الإخباري) والنصوص المولدة بواسطة الآلة (الأسلوب الرسمي التحليلي)
- التطبيع المفرط: قد يؤدي تطبيع النصوص الصارم وإزالة علامات التشكيل إلى حذف إشارات دقيقة حاسمة
- فقدان المعلومات: إزالة اختيارات المفردات الأسلوبية والكيانات المسماة المحددة والميزات التمييزية المهمة الأخرى
- الدقة مقابل الاستدعاء: الدقة في جميع النماذج أقل من الاستدعاء، مما يشير إلى ميل لتصنيف النصوص البشرية بشكل خاطئ على أنها مولدة بواسطة الآلة
- الأسباب المحتملة: عدم تطابق المجال أو قد تكون النصوص البشرية الرسمية مشابهة لأنماط مولدة بالذكاء الاصطناعي
- الطرق المبكرة: كشف النصوص المولدة بواسطة الآلة والإسناد الأسلوبي القائم على الأسلوبيات الإحصائية
- الميزات: تكرار n-gram، درجات القراءة، البنية النحوية
- القيود: فعالية محدودة على نماذج اللغة الحديثة
- طرق الشبكات العصبية: التيار الرئيسي للبحث الحالي
- ضبط دقيق للنماذج المدربة مسبقاً (مثل BERT)
- كشف الحفريات الإحصائية في عملية توليد النصوص
- تضمين "العلامات المائية" في عملية توليد النصوص
- اتباع نموذج الضبط الدقيق
- مستوحاة من الدراسات المقارنة الشاملة (مثل Al-Shboul et al., 2024)
- التركيز على مجال كشف النصوص المولدة بالذكاء الاصطناعي باللغة العربية ذات الموارد المحدودة
- المزايا غير المتوقعة للنموذج متعدد اللغات: تفوق XLM-RoBERTa على النماذج المتخصصة باللغة العربية في مهام كشف النصوص المولدة بالذكاء الاصطناعي
- تأثير السيف ذي الحدين للمعالجة المسبقة: قد يؤدي تطبيع النصوص المفرط إلى إضعاف أداء النموذج
- أهمية خصائص البيانات: طول النص واختيار المفردات هما ميزات رئيسية للتمييز بين النصوص البشرية والمولدة بواسطة الآلة
- ضعف أداء AraELECTRA: يرجع أساساً إلى اختيار استراتيجية معالجة مسبقة غير مناسب
- تحليل الأخطاء غير كافٍ: نقص التحليل النوعي التفصيلي للأخطاء
- التحقق على مجموعة بيانات واحدة: التحقق فقط على مجموعة بيانات AraGenEval
- تحسين المعالجة المسبقة: استكشاف طرق تطبيع نصوص أقل صرامة
- دمج النماذج: تجربة تقنيات دمج النماذج
- تحليل أخطاء متعمق: فهم أفضل لأنماط الفشل في المهمة
- التعميم عبر المجالات: التحقق من الطريقة على مجموعات بيانات عربية متعددة
- المقارنة المنهجية: توفير مقارنة شاملة لنماذج Transformer المختلفة
- الاكتشافات المضادة للحدس: أهمية اكتشاف أن النماذج متعددة اللغات تتفوق على النماذج المتخصصة باللغة
- القيمة العملية: تحقيق نتائج جيدة في مسابقة فعلية، مما يتحقق من فعالية الطريقة
- تحليل البيانات الشامل: تحليل متعمق لخصائص مجموعة البيانات يوفر أساساً لاختيار النموذج
- تصميم التجارب المعقول: اختيار معاملات فائقة ومقاييس تقييم مناسبة
- عدم توحيد استراتيجيات المعالجة المسبقة: استخدام النماذج الثلاثة لاستراتيجيات معالجة مسبقة مختلفة يؤثر على عدالة المقارنة
- عدم اتساق تقسيم البيانات: استخدام النماذج المختلفة لاستراتيجيات تقسيم بيانات مختلفة
- غياب تحليل الأخطاء: نقص التحليل المتعمق لحالات فشل النموذج
- عدم كفاية الدراسات الاستئصالية: عدم التحقق الكافي من مساهمة كل مكون
- التحقق المحدود من التعميم: التحقق فقط على مجموعة بيانات واحدة
- المساهمة الأكاديمية: توفير معيار مهم لمجال كشف النصوص المولدة بالذكاء الاصطناعي باللغة العربية
- التوجيه العملي: توفير مرجع لاختيار النموذج في المهام المماثلة
- القيمة المنهجية: يمكن تطبيق طريقة المقارنة المنهجية على لغات ومهام أخرى
- قابلية التكرار: توفير إعدادات تجريبية تفصيلية تسهل التكرار
- مراجعة محتوى اللغة العربية: كشف النصوص المولدة بالذكاء الاصطناعي على منصات وسائل التواصل الاجتماعي والأخبار
- فحص النزاهة الأكاديمية: التحقق من الأصالة في المؤسسات التعليمية
- البيئات متعددة اللغات: السيناريوهات التي تتطلب معالجة كشف النصوص المولدة بالذكاء الاصطناعي لعدة لغات
- البيئات محدودة الموارد: توفير مرجع منهجي لكشف النصوص المولدة بالذكاء الاصطناعي في اللغات الأخرى ذات الموارد المحدودة
تستشهد هذه الورقة بعدة أعمال مهمة ذات صلة، بما في ذلك:
- أوراق معمارية Transformer الأساسية (Vaswani et al., 2017)
- نموذج BERT (Devlin et al., 2019)
- نموذج ELECTRA (Clark et al., 2020)
- نموذج XLM-RoBERTa (Conneau et al., 2020)
- النماذج المتخصصة باللغة العربية: AraELECTRA (Antoun et al., 2021) و CAMeLBERT (Inoue et al., 2021)
- مسح تصنيف النصوص العربية (Al-Shboul et al., 2024)
التقييم الشامل: هذه ورقة بحثية تجريبية قوية تكشف من خلال مقارنة منهجية عن المزايا غير المتوقعة للنماذج متعددة اللغات في مهام كشف النصوص المولدة بالذكاء الاصطناعي باللغة العربية. على الرغم من بعض أوجه القصور المنهجية، فإن نتائجها ذات قيمة كبيرة للمجال وتوفر توجيهات مفيدة للبحث المستقبلي.