2025-11-17T07:13:12.902991

HebID: Detecting Social Identities in Hebrew-language Political Text

Mor-Lan, Rivlin-Angert, Kaplan et al.

Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.

academic

HebID: हिब्रू-भाषा की राजनीतिक पाठ में सामाजिक पहचान का पता लगाना

मूल जानकारी

पेपर ID: 2508.15483
शीर्षक: HebID: Detecting Social Identities in Hebrew-language Political Text
लेखक: Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
प्रकाशन समय: arXiv प्रीप्रिंट, 12 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2508.15483

सारांश

राजनीतिक भाषा सामाजिक पहचान से घनिष्ठ रूप से संबंधित है। यद्यपि सामाजिक पहचान अक्सर विशिष्ट सांस्कृतिक पृष्ठभूमि द्वारा आकार दी जाती है, मौजूदा NLP डेटासेट मुख्य रूप से अंग्रेजी-केंद्रित हैं, एकल-लेबल वर्गीकरण का उपयोग करते हैं, और मोटे-दानेदार पहचान श्रेणियों पर ध्यान केंद्रित करते हैं। यह पेपर HebID प्रस्तुत करता है, जो सामाजिक पहचान पहचान के लिए पहला बहु-लेबल हिब्रू भाषा कॉर्पस है, जिसमें इजरायली राजनेताओं के Facebook पोस्ट से 5,536 वाक्य (दिसंबर 2018 - अप्रैल 2021) शामिल हैं, जिन्हें सर्वेक्षण डेटा के आधार पर 12 सूक्ष्म-दानेदार सामाजिक पहचान (जैसे दक्षिणपंथी, अति-रूढ़िवादी, सामाजिक-उन्मुख) के साथ मैन्युअल रूप से लेबल किया गया है। अनुसंधान ने बहु-लेबल और एकल-लेबल एनकोडर के साथ-साथ 2B-9B पैरामीटर वाले जनरेटिव बड़े भाषा मॉडल की तुलना की, और पाया कि हिब्रू-ट्यून किए गए LLM सर्वश्रेष्ठ प्रदर्शन करते हैं (मैक्रो-औसत F1 = 0.74)।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या विवरण

भाषा संसाधनों में असंतुलन: सामाजिक पहचान पहचान संसाधन लगभग पूरी तरह से अंग्रेजी-केंद्रित हैं, गैर-अंग्रेजी राजनीतिक संदर्भों के लिए समर्थन की कमी है
एनोटेशन दानेदारपन मोटा: मौजूदा डेटासेट मुख्य रूप से मोटे-दानेदार श्रेणियों (जैसे राजनीतिक दल या जातीयता) पर ध्यान केंद्रित करते हैं, जटिल राजनीतिक प्रवचन को पकड़ नहीं सकते
एकल-लेबल सीमा: अधिकांश डेटासेट एकल-लेबल वर्गीकरण का उपयोग करते हैं, बहु-पहचान अभिव्यक्ति की वास्तविकता को संभाल नहीं सकते
सांस्कृतिक पृष्ठभूमि की कमी: विशिष्ट सांस्कृतिक पृष्ठभूमि और अनुभवजन्य सर्वेक्षण पर आधारित पहचान श्रेणी चयन की कमी है

अनुसंधान का महत्व

सामाजिक पहचान राजनीतिक व्यवहार और सार्वजनिक प्रवचन के महत्वपूर्ण चालक हैं
हिब्रू भाषा एक कम-संसाधन भाषा के रूप में, NLP अनुसंधान में अपर्याप्त प्रतिनिधित्व है
इजरायली राजनीतिक वातावरण की जटिलता बहु-आयामी पहचान अभिव्यक्ति के अनुसंधान के लिए एक आदर्श परिदृश्य प्रदान करती है

मौजूदा विधियों की सीमाएं

समूह उल्लेख पहचान: केवल स्पष्ट समूह उल्लेखों तक सीमित, निहित पहचान अभिव्यक्ति को पकड़ नहीं सकते
फ्रेमिंग और रुख विश्लेषण: मुख्य रूप से एकल-लेबल रुख या फ्रेमिंग पर ध्यान केंद्रित करते हैं, बहु-लेबल पहचान श्रेणी समर्थन की कमी है
विचारधारा अनुमान: केवल व्यापक विचारधारा प्रवृत्ति का अनुमान लगा सकते हैं, स्पष्ट पहचान उल्लेख का पता नहीं लगा सकते

मुख्य योगदान

अग्रणी डेटासेट: पहला सार्वजनिक हिब्रू भाषा बहु-लेबल सामाजिक पहचान पहचान डेटासेट बनाया
सर्वेक्षण-संचालित पद्धति: बड़े पैमाने पर सर्वेक्षण डेटा द्वारा निर्देशित पाठ एनोटेशन की एक रूपरेखा स्थापित की
व्यापक बेंचमार्किंग: इस कार्य पर एनकोडर और डिकोडर मॉडल के प्रदर्शन का मूल्यांकन किया
क्रॉस-डोमेन मूल्यांकन: संसदीय भाषण डेटा पर मॉडल की सामान्यीकरण क्षमता को सत्यापित किया
बाहरी सत्यापन: CHES-Israel विशेषज्ञ सर्वेक्षण के माध्यम से वर्गीकरणकर्ता की वैधता को सत्यापित किया
सामाजिक-भाषाविज्ञान विश्लेषण: विभिन्न प्लेटफॉर्म और जनसंख्या में पहचान गतिविधि को प्रकट किया

विधि विस्तार

कार्य परिभाषा

इनपुट: हिब्रू भाषा का वाक्य आउटपुट: 12 सामाजिक पहचान के बहु-लेबल बाइनरी वर्गीकरण परिणाम लक्ष्य: यह निर्धारित करना कि दिए गए वाक्य में कौन सी सामाजिक पहचान सक्रिय रूप से व्यक्त या संदर्भित की गई हैं

पहचान श्रेणी चयन विधि

सर्वेक्षण आधार: 12-लहर प्रतिनिधि पैनल सर्वेक्षण (N=1,769) पर आधारित, जनवरी 2019 से अप्रैल 2021 तक
विशेषज्ञ मार्गदर्शन: 28 उम्मीदवार पहचान इजरायली राजनीति विशेषज्ञों की एक टीम द्वारा चुनी गई
थ्रेसहोल्ड फ़िल्टरिंग: पहली 5 लहरों में लगातार 5% चयन थ्रेसहोल्ड से अधिक 12 पहचान का चयन

एनोटेशन योजना

12 सामाजिक पहचान श्रेणियां:

विचारधारा: दक्षिणपंथी, वामपंथी, रूढ़िवादी, उदारवादी
आर्थिक: पूंजीवादी, सामाजिक-उन्मुख
राजनीतिक मूल्य: लोकतांत्रिक, ईमानदार
सांस्कृतिक-धार्मिक: सियोनिस्ट, अति-रूढ़िवादी
समूह: फिलिस्तीनी और अरब इजरायली नागरिक, सुरक्षा-उन्मुख

एनोटेशन सिद्धांत:

केवल सक्रिय रूप से व्यक्त की गई पहचान को लेबल करें
बहु-लेबल वर्गीकरण का समर्थन करें
वक्ता पहचान के बजाय सामग्री पर आधारित

डेटासेट निर्माण

स्रोत: इजरायली सांसदों, राजनीतिक दलों और उम्मीदवारों के Facebook पोस्ट
समय सीमा: दिसंबर 2018 से अप्रैल 2021
पैमाना: 64K पोस्ट (375K वाक्य) से 5,536 वाक्य का नमूना
एनोटेटर अंतर-समझौता: औसत Cohen's κ = 0.77

प्रयोगात्मक सेटअप

डेटासेट विभाजन

प्रशिक्षण सेट: 70% (3,875 वाक्य)
सत्यापन सेट: 15% (830 वाक्य)
परीक्षण सेट: 15% (831 वाक्य)

मॉडल प्रकार

बेसलाइन मॉडल: लॉजिस्टिक रिग्रेशन और LinearSVC (TF-IDF विशेषताएं)
बहु-लेबल एनकोडर: 12 पहचान लेबल का संयुक्त सीखना
एकल-लेबल एनकोडर: प्रत्येक लेबल के लिए अलग से सूक्ष्म-ट्यूनिंग
डिकोडर LLM: अल्पविराम-विभाजित लेबल सूची उत्पन्न करें

मूल्यांकन मॉडल

एनकोडर मॉडल:

बहुभाषी: mBERT
हिब्रू-विशिष्ट: AlephBERT, HERO, DictaBERT (base/large)

डिकोडर LLM:

सामान्य: Gemma 2 (2B/9B), Qwen3-8B
हिब्रू-विशिष्ट: DictaLM2.0

मूल्यांकन मेट्रिक्स

मैक्रो-औसत सटीकता, रिकॉल, F1 स्कोर
प्रत्येक पहचान श्रेणी के लिए F1 स्कोर

प्रयोगात्मक परिणाम

मुख्य परिणाम

सर्वश्रेष्ठ प्रदर्शन: DictaLM2.0 मैक्रो-औसत F1 = 0.743 प्राप्त करता है, एनकोडर मॉडल से काफी बेहतर

मॉडल प्रकार	सर्वश्रेष्ठ मॉडल	मैक्रो-औसत F1
डिकोडर LLM	DictaLM2.0	0.743
बहु-लेबल एनकोडर	DictaBERT-Large	0.678
एकल-लेबल एनकोडर	DictaBERT-Large	0.659
बेसलाइन	LinearSVC	0.361

मुख्य निष्कर्ष

भाषा-विशिष्ट मॉडल लाभ: हिब्रू-ट्यून किया गया DictaLM2.0 8/12 पहचान श्रेणियों पर सर्वश्रेष्ठ प्रदर्शन करता है
बहु-लेबल सीखने का प्रभाव: बहु-लेबल एनकोडर एकल-लेबल संयोजन से बेहतर (0.678 vs 0.659)
डिकोडर लाभ: जनरेटिव विधि बहु-लेबल कार्यों पर बेहतर प्रदर्शन करती है

क्रॉस-डोमेन सामान्यीकरण

500 संसदीय भाषण वाक्यों पर परीक्षण मैक्रो-औसत F1 = 0.72 दिखाता है, Facebook डेटा प्रदर्शन के अनुरूप, मॉडल की क्रॉस-डोमेन सामान्यीकरण क्षमता को साबित करता है।

बाहरी सत्यापन

CHES-Israel विशेषज्ञ सर्वेक्षण के साथ सहसंबंध विश्लेषण दिखाता है कि 21 सहसंबंधों में से 16 p ≤ 0.1 स्तर पर महत्वपूर्ण हैं, 13 p ≤ 0.05 स्तर पर महत्वपूर्ण हैं, सहसंबंध गुणांक |r| = 0.71 से 0.94 तक हैं।

सामाजिक-भाषाविज्ञान विश्लेषण

पहचान लोकप्रियता तुलना

क्रॉस-प्लेटफॉर्म सामंजस्य: सामाजिक-उन्मुख, दक्षिणपंथी और लोकतांत्रिक पहचान सभी डेटा स्रोतों में सार्वभौमिक रूप से लोकप्रिय हैं
प्लेटफॉर्म अंतर: ईमानदार और सियोनिस्ट पहचान जनता में अधिक लोकप्रिय हैं, सामाजिक-उन्मुख पहचान संसद में अधिक प्रमुख हैं

समय प्रवृत्ति विश्लेषण

चुनाव चक्र प्रभाव: पहचान-संबंधी प्रवचन चार चुनावों में से तीन में शिखर तक पहुंचता है
अभिजात-जनता विभाजन:
- सामाजिक-उन्मुख पहचान: जनता की स्वीकृति में कमी, राजनेताओं के उपयोग में वृद्धि
- ईमानदार और लोकतांत्रिक पहचान: जनता की स्वीकृति में वृद्धि, अभिजात प्रवचन में कमी

पहचान क्लस्टरिंग पैटर्न

कारक विश्लेषण मुख्य बाएं-दाएं विभाजन को प्रकट करता है:

वामपंथी क्लस्टर: वामपंथी, लोकतांत्रिक, ईमानदार, उदारवादी, फिलिस्तीनी
दक्षिणपंथी क्लस्टर: दक्षिणपंथी, रूढ़िवादी, सियोनिस्ट, सुरक्षा-उन्मुख, पूंजीवादी, अति-रूढ़िवादी

लिंग अंतर

पहचान अभिव्यक्ति की तीव्रता: महिलाएं सभी डेटा स्रोतों में अधिक पहचान व्यक्त करती हैं
पहचान वरीयता:
- पुरुष प्रवृत्ति: दक्षिणपंथी, सुरक्षा-उन्मुख, पूंजीवादी, अति-रूढ़िवादी
- महिला प्रवृत्ति: सामाजिक-उन्मुख पहचान सभी प्लेटफॉर्मों पर महिलाओं की ओर महत्वपूर्ण रूप से पक्षपाती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

हिब्रू-विशिष्ट मॉडल सामाजिक पहचान पहचान कार्य पर सामान्य बहुभाषी मॉडल से काफी बेहतर हैं
बहु-लेबल सीखने की विधि पहचान अभिव्यक्ति की जटिलता को बेहतर ढंग से पकड़ सकती है
सर्वेक्षण डेटा पर आधारित एनोटेशन फ्रेमवर्क सांस्कृतिक रूप से संवेदनशील पहचान श्रेणी चयन का एक तरीका प्रदान करता है
क्रॉस-प्लेटफॉर्म विश्लेषण अभिजात प्रवचन और जनता की स्वीकृति के बीच महत्वपूर्ण अंतर को प्रकट करता है

सीमाएं

समय और प्लेटफॉर्म सीमा: डेटा एक विशिष्ट अवधि तक सीमित है, Twitter जैसे अन्य प्लेटफॉर्मों को कवर नहीं करता
सर्वेक्षण जनसंख्या सीमा: केवल यहूदी नागरिकों को शामिल करता है, अरब नागरिकों का प्रतिनिधित्व नहीं है
एनोटेशन दानेदारपन: 5% थ्रेसहोल्ड के आधार पर महत्वपूर्ण लेकिन कम-आवृत्ति वाली पहचान को छोड़ सकता है
मॉडल पूर्वाग्रह: वर्गीकरणकर्ता प्रशिक्षण डेटा और पूर्व-प्रशिक्षित मॉडल के पूर्वाग्रह को विरासत में दे सकता है

भविष्य की दिशा

अधिक प्लेटफॉर्म और समय अवधि तक विस्तार
अधिक विविध जनसंख्या नमूने को शामिल करें
मॉडल पूर्वाग्रह को कम करने के तरीके विकसित करें
उभरती पहचान श्रेणियों की गतिशील एनोटेशन की खोज करें

गहन मूल्यांकन

शक्तियां

विधि नवीनता: पहली बार बड़े पैमाने पर सर्वेक्षण डेटा को पाठ एनोटेशन के साथ जोड़ा, सांस्कृतिक रूप से संवेदनशील अनुसंधान फ्रेमवर्क प्रदान किया
तकनीकी योगदान: कम-संसाधन भाषा पर मजबूत बेसलाइन स्थापित किए, भाषा-विशिष्ट मॉडल के महत्व को साबित किया
प्रयोग पूर्णता: कई मॉडल प्रकार, क्रॉस-डोमेन मूल्यांकन और बाहरी सत्यापन को शामिल करता है
सामाजिक विज्ञान मूल्य: राजनीतिक प्रवचन और पहचान गतिविधि में गहन अंतर्दृष्टि प्रदान करता है

कमियां

डेटा प्रतिनिधित्व: सर्वेक्षण नमूने की सीमाएं पहचान श्रेणियों की सार्वभौमिकता को प्रभावित कर सकती हैं
एनोटेशन समझौता: कुछ श्रेणियों के κ मान अपेक्षाकृत कम हैं (जैसे Conservative: 0.705)
मूल्यांकन सीमा: क्रॉस-डोमेन मूल्यांकन केवल 500 नमूनों पर आधारित है, पर्याप्त नहीं हो सकता है

प्रभाव

शैक्षणिक मूल्य: कम्प्यूटेशनल सामाजिक विज्ञान और बहुभाषी NLP के लिए महत्वपूर्ण संसाधन प्रदान करता है
व्यावहारिक मूल्य: राजनीतिक संचार विश्लेषण, जनमत निगरानी आदि के लिए उपयोग किया जा सकता है
पद्धति योगदान: अन्य गैर-अंग्रेजी राजनीतिक संदर्भों के लिए समान अनुसंधान के लिए एक टेम्पलेट प्रदान करता है

लागू परिदृश्य

राजनीतिक संचार अनुसंधान
सामाजिक पहचान विश्लेषण
बहुभाषी भावना विश्लेषण
राजनीतिक प्रवचन निगरानी
क्रॉस-सांस्कृतिक तुलनात्मक अनुसंधान

संदर्भ

यह पेपर सामाजिक पहचान सिद्धांत, कम्प्यूटेशनल भाषाविज्ञान, राजनीतिक संचार अध्ययन आदि कई क्षेत्रों के महत्वपूर्ण साहित्य का हवाला देता है, विशेष रूप से Tajfel and Turner (1979) के अंतर-समूह संघर्ष एकीकरण सिद्धांत को सैद्धांतिक आधार के रूप में, साथ ही समूह उल्लेख पहचान, फ्रेमिंग विश्लेषण आदि में हाल के NLP अनुसंधान परिणाम।

समग्र मूल्यांकन: यह पद्धति, तकनीकी कार्यान्वयन और सामाजिक विज्ञान अंतर्दृष्टि के संदर्भ में महत्वपूर्ण योगदान के साथ एक उच्च-गुणवत्ता वाला अंतःविषय अनुसंधान है। अनुसंधान हिब्रू भाषा राजनीतिक पाठ विश्लेषण में अंतराल को भरता है, बहुभाषी NLP और कम्प्यूटेशनल सामाजिक विज्ञान के विकास में मूल्यवान योगदान देता है।