2025-11-17T07:13:12.902991

HebID: Detecting Social Identities in Hebrew-language Political Text

Mor-Lan, Rivlin-Angert, Kaplan et al.
Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.
academic

HebID: الكشف عن الهويات الاجتماعية في النصوص السياسية العبرية

المعلومات الأساسية

  • معرّف الورقة: 2508.15483
  • العنوان: HebID: Detecting Social Identities in Hebrew-language Political Text
  • المؤلفون: Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
  • التصنيف: cs.CL (اللسانيات الحاسوبية)
  • تاريخ النشر: طبعة arXiv، 12 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2508.15483

الملخص

يرتبط الخطاب السياسي ارتباطاً وثيقاً بالهويات الاجتماعية. بينما تتشكل الهويات الاجتماعية غالباً بسياق ثقافي محدد، فإن مجموعات بيانات معالجة اللغة الطبيعية الحالية تركز بشكل أساسي على اللغة الإنجليزية، وتستخدم تصنيفاً بتسمية واحدة، وتركز على فئات هوية ذات حبيبات خشنة. تقدم هذه الورقة HebID، وهي أول مدونة عبرية متعددة التسميات لكشف الهويات الاجتماعية، تحتوي على 5,536 جملة من منشورات فيسبوك لسياسيين إسرائيليين (ديسمبر 2018 - أبريل 2021)، مع تعليقات يدوية لـ 12 هوية اجتماعية دقيقة الحبيبات (مثل اليمين، الأرثوذكسية المتطرفة، التوجه الاجتماعي) بناءً على بيانات المسح. تقارن الدراسة بين المشفرات متعددة التسميات والمشفرات أحادية التسمية، وكذلك نماذج اللغة الكبيرة التوليدية بمعاملات تتراوح بين 2 مليار و9 مليارات، وتكتشف أن نموذج اللغة الكبير المحسّن للعبرية يحقق أفضل أداء (متوسط F1 الكلي = 0.74).

السياق البحثي والدوافع

وصف المشكلة

  1. عدم التوازن في موارد اللغة: موارد الكشف عن الهويات الاجتماعية الحالية تركز بشكل شبه حصري على اللغة الإنجليزية، مع افتقار واضح للدعم في السياقات السياسية غير الإنجليزية
  2. حبيبات التعليق الخشنة: تركز مجموعات البيانات الموجودة بشكل أساسي على فئات خشنة الحبيبات (مثل الحزب أو العرق)، وغير قادرة على التقاط تعقيدات الخطاب السياسي
  3. قيود التسمية الواحدة: تستخدم معظم مجموعات البيانات تصنيفاً بتسمية واحدة، وغير قادرة على التعامل مع الواقع الفعلي لتعبيرات الهويات المتعددة
  4. غياب السياق الثقافي: نقص في اختيار فئات الهوية بناءً على سياق ثقافي محدد والبحث التجريبي

أهمية البحث

  • الهوية الاجتماعية هي محرك مهم للسلوك السياسي والخطاب العام
  • اللغة العبرية، كلغة ذات موارد محدودة، ممثلة بشكل ناقص في أبحاث معالجة اللغة الطبيعية
  • يوفر التعقيد في البيئة السياسية الإسرائيلية سيناريو مثالياً لدراسة التعبير عن الهويات متعددة الأبعاد

حدود الطرق الموجودة

  • كشف ذكر المجموعات: مقتصر على ذكر المجموعات الصريح، غير قادر على التقاط التعبيرات الضمنية عن الهوية
  • تحليل الأطر والمواقف: يركز بشكل أساسي على الموقف أو الإطار بتسمية واحدة، مع افتقار الدعم لفئات الهوية متعددة التسميات
  • استدلال الأيديولوجيا: يمكن فقط استدلال الاتجاهات الأيديولوجية الواسعة، غير قادر على كشف ذكر الهوية الصريح

المساهمات الأساسية

  1. مجموعة بيانات رائدة: بناء أول مجموعة بيانات عبرية عامة متعددة التسميات لكشف الهويات الاجتماعية
  2. منهجية موجهة بالمسح: إنشاء إطار عمل يوجه تعليق النص بناءً على بيانات المسح الواسعة
  3. معايير شاملة: تقييم أداء نماذج المشفر وفك التشفير على هذه المهمة
  4. تقييم عبر المجالات: التحقق من قدرة النموذج على التعميم على بيانات الخطابات البرلمانية
  5. التحقق الخارجي: التحقق من صحة المصنف من خلال مسح الخبراء CHES-Israel
  6. التحليل اللغوي الاجتماعي: الكشف عن الاختلافات في ديناميكيات الهوية عبر المنصات والمجموعات المختلفة

شرح الطريقة

تعريف المهمة

الإدخال: جملة عبرية الإخراج: نتائج تصنيف ثنائية متعددة التسميات لـ 12 هوية اجتماعية الهدف: تحديد الهويات الاجتماعية التي يتم التعبير عنها بشكل إيجابي أو الإشارة إليها في جملة معينة

طريقة اختيار فئات الهوية

  1. الأساس المسحي: بناءً على 12 موجة من المسح اللوحي الممثل (N=1,769)، يغطي يناير 2019 إلى أبريل 2021
  2. التوجيه الخبير: تم اختيار 28 هوية مرشحة من قبل فريق من خبراء السياسة الإسرائيلية
  3. تصفية الحد الأدنى: اختيار 12 هوية تتجاوز باستمرار حد 5% في الموجات الخمس الأولى من المسح

مخطط التعليق

12 فئة هوية اجتماعية:

  • الأيديولوجيا: اليمين، اليسار، المحافظ، الليبرالي
  • الاقتصاد: الرأسمالي، التوجه الاجتماعي
  • القيم السياسية: الديمقراطي، الصادق
  • الثقافة والدين: الصهيونية، الأرثوذكسية المتطرفة
  • المجموعات: الفلسطينيون والعرب الإسرائيليون، التوجه الأمني

مبادئ التعليق:

  • تعليق الهويات المعبر عنها بشكل إيجابي فقط
  • دعم التصنيف متعدد التسميات
  • بناءً على المحتوى وليس على هوية المتحدث

بناء مجموعة البيانات

  • المصدر: منشورات فيسبوك من أعضاء البرلمان الإسرائيليين والأحزاب والمرشحين
  • النطاق الزمني: ديسمبر 2018 إلى أبريل 2021
  • الحجم: عينة من 5,536 جملة من 64 ألف منشور (375 ألف جملة)
  • اتفاق المعلقين: متوسط Cohen's κ = 0.77

إعداد التجارب

تقسيم مجموعة البيانات

  • مجموعة التدريب: 70% (3,875 جملة)
  • مجموعة التحقق: 15% (830 جملة)
  • مجموعة الاختبار: 15% (831 جملة)

أنواع النماذج

  1. نماذج الأساس: الانحدار اللوجستي و LinearSVC (ميزات TF-IDF)
  2. المشفرات متعددة التسميات: التعلم المشترك لـ 12 تسمية هوية
  3. المشفرات أحادية التسمية: ضبط دقيق منفصل لكل تسمية
  4. نماذج اللغة الكبيرة لفك التشفير: توليد قائمة تسميات مفصولة بفواصل

نماذج التقييم

نماذج المشفر:

  • متعددة اللغات: mBERT
  • متخصصة في العبرية: AlephBERT, HERO, DictaBERT (base/large)

نماذج اللغة الكبيرة لفك التشفير:

  • عامة: Gemma 2 (2B/9B), Qwen3-8B
  • متخصصة في العبرية: DictaLM2.0

مقاييس التقييم

  • متوسط الدقة والاستدعاء و F1 الكلي
  • درجة F1 لكل فئة هوية

نتائج التجارب

النتائج الرئيسية

أفضل أداء: يحقق DictaLM2.0 متوسط F1 كلي = 0.743، متفوقاً بشكل كبير على نماذج المشفر

نوع النموذجأفضل نموذجمتوسط F1 الكلي
نموذج اللغة الكبير لفك التشفيرDictaLM2.00.743
المشفر متعدد التسمياتDictaBERT-Large0.678
المشفر أحادي التسميةDictaBERT-Large0.659
الأساسLinearSVC0.361

النتائج الرئيسية

  1. ميزة النماذج المتخصصة في اللغة: يتفوق DictaLM2.0 المحسّن للعبرية على 8 من 12 فئة هوية
  2. فعالية التعلم متعدد التسميات: تتفوق المشفرات متعددة التسميات على المجموعة أحادية التسمية (0.678 مقابل 0.659)
  3. ميزة فك التشفير: تحقق الطرق التوليدية أداء أفضل في المهام متعددة التسميات

التعميم عبر المجالات

يُظهر الاختبار على 500 جملة من الخطابات البرلمانية متوسط F1 كلي = 0.72، مما يعادل الأداء على بيانات فيسبوك، مما يثبت قدرة النموذج على التعميم عبر المجالات.

التحقق الخارجي

يُظهر تحليل الارتباط مع مسح الخبراء CHES-Israel أن 16 من 21 ارتباطاً ذات دلالة إحصائية عند مستوى p ≤ 0.1، و13 عند مستوى p ≤ 0.05، مع معاملات ارتباط تتراوح من |r| = 0.71 إلى 0.94.

التحليل اللغوي الاجتماعي

مقارنة شيوع الهوية

  • الاتساق عبر المنصات: هويات التوجه الاجتماعي واليمين والديمقراطي شائعة بشكل عام عبر مصادر البيانات
  • الاختلافات بين المنصات: هويات الصدق والصهيونية أكثر شيوعاً بين الجمهور، بينما هوية التوجه الاجتماعي أكثر بروزاً في البرلمان

تحليل الاتجاهات الزمنية

  • تأثير دورة الانتخابات: يصل الخطاب المتعلق بالهوية إلى ذروته في ثلاث من أربع انتخابات
  • التمايز بين النخبة والجمهور:
    • هوية التوجه الاجتماعي: انخفاض الاعتراف العام، زيادة استخدام السياسيين
    • هويات الصدق والديمقراطية: ارتفاع الاعتراف العام، انخفاض الخطاب النخبوي

أنماط تجميع الهوية

يكشف تحليل العوامل عن التمايز الرئيسي بين اليسار واليمين:

  • التجميع اليساري: اليسار، الديمقراطي، الصادق، الليبرالي، الفلسطيني
  • التجميع اليميني: اليمين، المحافظ، الصهيونية، التوجه الأمني، الرأسمالي، الأرثوذكسية المتطرفة

الاختلافات بين الجنسين

  • شدة التعبير عن الهوية: تعبر النساء عن هويات أكثر عبر جميع مصادر البيانات
  • تفضيلات الهوية:
    • ميل الذكور: اليمين، التوجه الأمني، الرأسمالية، الأرثوذكسية المتطرفة
    • ميل الإناث: هوية التوجه الاجتماعي تُظهر تفضيلاً كبيراً للإناث عبر جميع المنصات

الأعمال ذات الصلة

كشف ذكر المجموعات

  • مجموعة بيانات GRIT (الإيطالية): تعليق ذكر المجموعات الاجتماعية في النصوص الإخبارية والبرلمانية
  • النقاش البرلماني البريطاني: تحديد كمي لتكرار إشارة السياسيين إلى مجموعات اجتماعية محددة

تحليل الأطر والمواقف

  • مدونة Us vs. Them: تعليق المجموعات المستهدفة والمواقف والمشاعر في تعليقات Reddit
  • الخطابات البرلمانية الأمريكية: تصنيف المشاعر وتحليل الأطر للخطاب الهجري على مدى 140 سنة

استدلال الأيديولوجيا

  • الطرق التقليدية: تصنيف المواقف اليسار-اليمين بناءً على SVM والشبكات العصبية
  • الطرق الحديثة: تقييم الأيديولوجيا بدون عينات باستخدام نماذج اللغة الكبيرة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. تتفوق نماذج اللغة الكبيرة المتخصصة في العبرية بشكل كبير على نماذج متعددة اللغات العامة في مهمة كشف الهويات الاجتماعية
  2. تتمكن طرق التعلم متعدد التسميات من التقاط التعقيد في التعبير عن الهوية بشكل أفضل
  3. يوفر إطار التعليق المستند إلى بيانات المسح طريقة حساسة ثقافياً لاختيار فئات الهوية
  4. يكشف التحليل عبر المنصات عن اختلافات مهمة بين الخطاب النخبوي والاعتراف العام

القيود

  1. تمثيل البيانات: قد تؤثر حدود عينة المسح على قابلية تعميم فئات الهوية
  2. اتفاق التعليق: تُظهر بعض الفئات قيم κ منخفضة نسبياً (مثل Conservative: 0.705)
  3. نطاق التقييم: يعتمد التقييم عبر المجالات على 500 عينة فقط، وقد يكون غير كافٍ

التأثير

  1. القيمة الأكاديمية: توفير مورد مهم للعلوم الاجتماعية الحاسوبية ومعالجة اللغة الطبيعية متعددة اللغات
  2. القيمة العملية: يمكن استخدامها في تحليل الاتصالات السياسية ومراقبة الرأي العام وغيرها
  3. المساهمة المنهجية: توفير نموذج لأبحاث مماثلة في السياقات السياسية غير الإنجليزية الأخرى

السيناريوهات المعمول بها

  • أبحاث الاتصالات السياسية
  • تحليل الهوية الاجتماعية
  • تحليل المشاعر متعدد اللغات
  • مراقبة الخطاب السياسي
  • البحث المقارن عبر الثقافات

المراجع

تستشهد هذه الورقة بأدب مهم من عدة مجالات بما في ذلك نظرية الهوية الاجتماعية واللسانيات الحاسوبية والاتصالات السياسية، وخاصة نظرية الصراع بين المجموعات المتكاملة لـ Tajfel and Turner (1979) كأساس نظري، وكذلك الأعمال البحثية الحديثة في كشف ذكر المجموعات وتحليل الأطر وغيرها.


التقييم الشامل: هذا بحث عالي الجودة متعدد التخصصات، مع مساهمات مهمة في المنهجية والتنفيذ التقني والرؤى العلمية الاجتماعية. يملأ البحث فجوة في تحليل النصوص السياسية العبرية، ويقدم مساهمة قيمة لتطور معالجة اللغة الطبيعية متعددة اللغات والعلوم الاجتماعية الحاسوبية.