This study investigates the several nuanced rationales for countering the rise of political bias. We evaluate the performance of the Llama-3 (70B) language model on the Media Bias Identification Benchmark (MBIB), based on a novel prompting technique that incorporates subtle reasons for identifying political leaning. Our findings underscore the challenges of detecting political bias and highlight the potential of transfer learning methods to enhance future models. Through our framework, we achieve a comparable performance with the supervised and fully fine-tuned ConvBERT model, which is the state-of-the-art model, performing best among other baseline models for the political bias task on MBIB. By demonstrating the effectiveness of our approach, we contribute to the development of more robust tools for mitigating the spread of misinformation and polarization. Our codes and dataset are made publicly available in github.
- معرّف الورقة البحثية: 2501.00782
- العنوان: التنقل في التفاصيل الدقيقة: البحث عن الحقيقة السياسية
- المؤلفون: Soumyadeep Sar (معهد الهند للتعليم والبحث العلمي كولكاتا)، Dwaipayan Roy (معهد الهند للتعليم والبحث العلمي كولكاتا)
- التصنيف: cs.CL cs.IR
- تاريخ النشر/المؤتمر: JCDL '24 (المؤتمر المشترك بين ACM/IEEE للمكتبات الرقمية 2024)، 16-20 ديسمبر 2024، هونج كونج، الصين
- رابط الورقة البحثية: https://arxiv.org/abs/2501.00782
تستكشف هذه الدراسة الأسباب الدقيقة المتعددة لمكافحة ظهور الانحياز السياسي. قيّم المؤلفون أداء نموذج اللغة Llama-3 (70B) على معيار تحديد الانحياز الإعلامي (MBIB)، بناءً على تقنية استدعاء جديدة تدمج تحديد الأسباب الدقيقة للميول السياسية. كشفت الدراسة عن التحديات المتأصلة في كشف الانحياز السياسي، وأبرزت إمكانية استخدام أساليب التعلم بالنقل لتحسين النماذج المستقبلية. من خلال هذا الإطار، حقق المؤلفون أداءً مماثلاً للنموذج ConvBERT المدرب بالإشراف والضبط الدقيق الكامل، وهو أفضل نموذج متقدم يعمل على مهمة الانحياز السياسي في MBIB. من خلال إثبات فعالية الطريقة، تساهم هذه الدراسة في تطوير أدوات أقوى للتخفيف من انتشار المعلومات المضللة والاستقطاب.
أصبح كشف الانحياز السياسي مجالاً بحثياً رئيسياً في مجال معالجة اللغات الطبيعية (NLP)، نظراً لتأثيره المهم على محو الأمية الإعلامية والرأي العام والعمليات الديمقراطية. يتطلب انتشار الانحياز السياسي في الوسائط والمحتوى الإلكتروني تطوير أساليب قوية للتحديد والتحليل.
- التأثير الاجتماعي: يمكن للانحياز السياسي أن يؤثر بشكل دقيق على إدراك القارئ والمعتقدات من خلال أشكال مختلفة مثل اختيار المفردات وتأطير القضايا والحذف الانتقائي للمعلومات
- التحديات التقنية: الطبيعة الذاتية للانحياز السياسي والتطور الديناميكي للخطاب السياسي يزيدان من تعقيد المهمة
- الحاجة العملية: في عصر وسائل التواصل الاجتماعي، هناك حاجة إلى أدوات آلية لتحديد والتخفيف من انتشار الانحياز
- الأساليب التقليدية: تعتمد الأساليب القائمة على القاموس على قوائم محددة مسبقاً من المصطلحات والعبارات المنحازة، وتواجه صعوبة في التعامل مع الطبيعة الدقيقة والمرتبطة بالسياق للانحياز السياسي
- أساليب التعلم العميق: على الرغم من قدرتها على التقاط أشكال أكثر دقة من الانحياز، إلا أنها تواجه تحديات في تحقيق دقة عالية والقدرة على التعميم عبر مجموعات البيانات والبيئات السياسية المختلفة
- كثافة الموارد: يتطلب تدريب النماذج الكبيرة موارد حسابية كبيرة وبيانات معنونة
مع ظهور نماذج اللغات الكبيرة، أصبح تدريب النماذج الضخمة جداً مكثفاً للموارد. لذلك، أصبحت تقنيات التعلم السياقي وسيلة ممتازة لتعليم النموذج تنفيذ المهام من خلال أمثلة سياقية مناسبة والتعليمات.
- اقتراح تقنية استدعاء جديدة قائمة على Chain-of-Thought (CoT)، تدمج خطوات استدلال دقيقة لتحديد الانحياز السياسي
- تحقيق أداء مماثل لنماذج التعلم الخاضع للإشراف، باستخدام تقنية الاستدعاء فقط لتحقيق أداء مماثلة لنموذج ConvBERT المدرب بالضبط الدقيق الكامل
- تقييم منهجي لاستراتيجيات استدعاء مختلفة، بما في ذلك الاستدعاء بدون عينات والاستدعاء بعدة عينات واستدعاء CoT على مهام كشف الانحياز السياسي
- توفير إعدادات تجريبية قابلة للتكرار، مع نشر الأكواد ومجموعات البيانات علناً
- تحليل متعمق لتعقيد كشف الانحياز السياسي، يوفر رؤى لتطوير التقنيات الموحدة في هذا المجال
الإدخال: عبارة نصية
الإخراج: تصنيف ثنائي (0: بدون انحياز، 1: انحياز سياسي)
القيود: استخدام التعلم السياقي فقط، بدون ضبط دقيق للنموذج
استخدمت الدراسة نموذج مفتوح المصدر Llama-3-70B كنموذج أساسي، مع الاستدلال من خلال خدمة API لمنصة Groq، مع التكوين المحدد التالي:
- النموذج الأساسي: Llama-3-70B-Instruct من Meta
- إعداد درجة الحرارة: 0.0 (لمنع الهلوسة والانحراف عن التعليمات)
- منصة الاستدلال: Groq API + تكامل Langchain-groq
- معاملات أخرى: الإعدادات الافتراضية
صمم المؤلفون استدعاء CoT يتضمن خطوات استدلال دقيقة، بما في ذلك:
- تحليل الإبلاغ الموضوعي: تقييم الطبيعة الموضوعية للنص
- فحص حيادية اللغة: تحديد النبرات العاطفية أو الاستفزازية
- كشف الانحياز: البحث عن الانحياز الضمني أو الصريح
- تحليل حذف السياق: التحقق من وجود حذف معلومات مضللة
- تحديد الآثار المرتبطة: اكتشاف الانحياز الناتج عن الارتباط
- اختيار العينات الصعبة: اختيار أمثلة CoT من العينات المصنفة بشكل خاطئ من الاستدعاء بدون عينات
- التمثيل المتوازن: ضمان التمثيل المتساوي للعينات المنحازة وغير المنحازة
- تثبيت البذرة: استخدام قيمة بذرة ثابتة (42) لضمان قابلية تكرار التجربة
- استدعاء بدون عينات: وصف المهمة المباشر، بدون أمثلة
- استدعاء بعدة عينات: 8 أمثلة متوازنة مختارة عشوائياً
- استدعاء CoT: عينتان صعبتان مختارتان بعناية + خطوات استدلال مفصلة
- مصدر البيانات: معيار تحديد الانحياز الإعلامي (MBIB) - المجموعة الفرعية للانحياز السياسي
- حجم البيانات: 17,704 نقطة بيانات
- توزيع الفئات: مجموعة بيانات متوازنة (8,852 بدون انحياز + 8,852 منحازة)
- معالجة البيانات: استخدام البذرة 42 للخلط العشوائي، تقسيم إلى 18 كتلة متساوية الحجم (حوالي 1,000 عبارة لكل كتلة)
- المؤشر الرئيسي: درجة Macro-F1
- طريقة التقييم: تقييم منفصل على 18 كتلة بيانات، حساب الأداء المتوسطة
- استدعاء بدون عينات (Zero-shot prompting)
- استدعاء بعدة عينات (Few-shot prompting)
- استدعاء Chain-of-Thought (CoT prompting)
- نموذج الأساس: ConvBERT (أفضل خط أساس للتعلم الخاضع للإشراف، Macro-F1: 0.7110)
- منصة API: Groq
- أداة التكامل: Langchain-groq
- معامل درجة الحرارة: 0.0
- إعداد البذرة: 42 (لضمان قابلية التكرار)
- حجم الكتلة: ~1,000 عبارة/كتلة
| الطريقة | متوسط Macro-F1 | المقارنة مع ConvBERT |
|---|
| Chain-of-Thought | 0.7061 | مماثل (0.7110) |
| Zero-shot | 0.6883 | أقل بـ 3.2% |
| Few-shot | 0.6749 | أقل بـ 5.1% |
حقق استدعاء CoT أفضل أداء في 16 من أصل 18 كتلة بيانات، مع إظهار تحسن أداء ملحوظ بشكل خاص في الكتل 4 و5 و6 و7 و8 و9 و11.
- ميزة CoT واضحة: يظهر استدعاء CoT أفضل أداء على معظم كتل البيانات، مع أعلى أداء متوسطة
- تفوق بدون عينات على عدة عينات: تفوق استدعاء بدون عينات بشكل غير متوقع على استدعاء بعدة عينات، ربما بسبب انحياز اختيار الأمثلة
- مماثل للنماذج الخاضعة للإشراف: تحقيق أداء مماثلة للنموذج المدرب بالضبط الدقيق الكامل باستخدام تقنية الاستدعاء فقط
- اتساق جيد: الفروقات في الأداء بين طرق الاستدعاء المختلفة عبر الكتل متسقة نسبياً
- قيود الاستدعاء بعدة عينات: تعتمد بشكل كبير على اختيار الأمثلة، قد تضلل النموذج أو تفتقر إلى الاستدلال العميق
- اتباع التعليمات: يظهر استدعاء بعدة عينات أداء أفضل في اتباع تعليمات المستخدم بصرامة
- تنسيق الإخراج: قد توفر طريقة CoT مخرجات توضيحية أحياناً، على الرغم من التعليمات الصريحة بتجنب ذلك
- أساليب ضبط الاستدعاء: إطار عمل Unified Prompt Tuning (UPT) يحسن أداء تصنيف النصوص بعدة عينات من خلال التعلم المشترك للاستدعاء عبر المهام
- كشف الانحياز الإعلامي: الأبحاث الموجودة تقارن ChatGPT مع النماذج المدربة بالضبط الدقيق (BART, ConvBERT, GPT-2) على معيار MBIB
- تحسين التعلم السياقي: خطوات التفكير على مستوى المهمة والأطر التصحيحية التدريجية للتخفيف من الانحياز الناجم عن توزيع العروض التوضيحية
- التركيز على الانحياز السياسي: بحث متعمق في هذا النوع المحدد والمهم من الانحياز
- تصميم استدلال دقيق: اقتراح تقنية استدعاء CoT تتضمن خطوات استدلال دقيقة
- تقييم منهجي: مقارنة شاملة لفعالية استراتيجيات استدعاء متعددة
- قوة عملية: تحقيق أداء التعلم الخاضع للإشراف بدون الحاجة إلى الضبط الدقيق
- فعالية استدعاء CoT: تثبت تقنية الاستدعاء القائمة على Chain-of-Thought قدرتها على تحسين أداء نماذج اللغات الكبيرة بشكل كبير على مهام كشف الانحياز السياسي
- بديل التعلم الخاضع للإشراف: يمكن لتقنية الاستدعاء أن تكون بديلاً فعالاً للتعلم الخاضع للإشراف المكثف للموارد
- أهمية الاستدلال: خطوات الاستدلال الدقيقة ضرورية لفهم واكتشاف الانحياز السياسي
- إمكانية التطبيق العملي: توفر الطريقة مسار قابل للتطبيق لتطوير أدوات للتخفيف من انتشار المعلومات المضللة والاستقطاب
- تحدي الذاتية: الطبيعة الذاتية للانحياز السياسي تظل تحدياً أساسياً
- الاعتماد على السياق: تعتمد فعالية الطريقة بشكل كبير على اختيار الأمثلة وتصميم الاستدعاء
- القدرة على التعميم: تحتاج القدرة على التعميم في بيئات سياسية وخلفيات ثقافية مختلفة إلى مزيد من التحقق
- التحكم في الإخراج: تواجه طريقة CoT نقصاً في الامتثال الصارم لتعليمات تنسيق الإخراج
- تطوير التقنيات الموحدة: الحاجة إلى مزيد من الأبحاث لإنشاء تقنيات كشف موحدة في هذا المجال
- التحليل متعدد العوامل: الأخذ في الاعتبار عوامل متعددة مثل مصدر التقارير الإخبارية واختيار الحقائق وحذف السياق
- التطبيق عبر المجالات: توسيع الطريقة لمهام كشف أنواع انحياز أخرى
- التطبيق في الوقت الفعلي: تطوير أنظمة كشف انحياز في الوقت الفعلي للسيناريوهات التطبيقية الفعلية
- ابتكار الطريقة: دمج استدلال Chain-of-Thought مع كشف الانحياز السياسي، واقتراح تقنية استدعاء جديدة وفعالة
- كفاية التجربة: مقارنة منهجية لاستراتيجيات استدعاء متعددة، مع تقييم شامل على 18 كتلة بيانات
- إقناع النتائج: تحقيق أداء مماثلة للتعلم الخاضع للإشراف باستخدام تقنية الاستدعاء فقط، مما يثبت فعالية الطريقة
- قابلية التكرار: توفير إعدادات تجريبية مفصلة وأكواد ومجموعات بيانات عامة
- القيمة العملية: توفير حل قابل للتطبيق لكشف الانحياز في البيئات محدودة الموارد
- نقص التحليل النظري: غياب شرح نظري عميق لسبب فعالية استدعاء CoT
- ذاتية اختيار الأمثلة: عملية اختيار أمثلة CoT نسبياً ذاتية، قد تؤثر على عمومية النتائج
- قيود التقييم: تقييم على مجموعة بيانات واحدة فقط، مع نقص التحقق عبر مجموعات البيانات
- تحليل الأخطاء غير كافٍ: نقص التحليل المتعمق لحالات فشل النموذج
- تكلفة الحساب: عدم مناقشة تكاليف الحساب والكفاءة عند استخدام نموذج بـ 70 مليار معامل
- المساهمة الأكاديمية: توفير أفكار بحثية وطرق جديدة لمجال كشف الانحياز السياسي
- القيمة العملية: الطريقة بسيطة وفعالة، سهلة النشر في التطبيقات العملية
- القابلية للتوسع: يمكن توسيع إطار عمل تقنية الاستدعاء إلى مهام كشف انحياز أخرى
- الأهمية الاجتماعية: يساهم في تطوير أدوات للتخفيف من انتشار المعلومات الكاذبة
- المراقبة الإعلامية: كشف الانحياز في المؤسسات الإخبارية وأقسام تنظيم الوسائط
- منصات التواصل الاجتماعي: مراجعة المحتوى وتحديد الانحياز على منصات التواصل الاجتماعي
- التطبيقات التعليمية: تدريب تحديد الانحياز في تعليم محو الأمية الإعلامية
- أدوات البحث: أداة تحليل نصوص في أبحاث العلوم السياسية والاتصالات
- البيئات محدودة الموارد: سيناريوهات التطبيق حيث لا يمكن إجراء ضبط دقيق واسع النطاق للنماذج
تستشهد الورقة بعدة أعمال ذات صلة مهمة، بما في ذلك:
- Wei et al. (2022): العمل الأصلي لـ Chain-of-Thought Prompting
- Wessel et al. (2023): مجموعة بيانات معيار MBIB
- Brown et al. (2020): البحث الأساسي للتعلم بعدة عينات
- Entman (2007): الأساس النظري لنظرية الانحياز السياسي
التقييم الإجمالي: هذه ورقة بحثية ذات قيمة عملية في مجال كشف الانحياز السياسي. طبق المؤلفون بمهارة تقنية استدعاء Chain-of-Thought على كشف الانحياز السياسي، وحققوا أداء مماثلة للتعلم الخاضع للإشراف بدون الحاجة إلى ضبط دقيق للنموذج. على الرغم من وجود نقائص في التحليل النظري والشمولية التقييمية، فإن البساطة والفعالية العملية للطريقة وإمكانية تطبيقها تجعلها مساهمة قيمة في هذا المجال.