Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.
- ID de l'article : 2508.15483
- Titre : HebID: Detecting Social Identities in Hebrew-language Political Text
- Auteurs : Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
- Classification : cs.CL (Linguistique Computationnelle)
- Date de publication : Prépublication arXiv, 12 octobre 2025
- Lien de l'article : https://arxiv.org/abs/2508.15483
Le langage politique est étroitement lié aux identités sociales. Bien que les identités sociales soient souvent façonnées par des contextes culturels spécifiques, les ensembles de données NLP existants sont principalement centrés sur l'anglais, utilisent une classification à étiquette unique et se concentrent sur des catégories d'identité granulaires grossières. Cet article introduit HebID, le premier corpus hébreu multi-étiquettes pour la détection d'identités sociales, contenant 5 536 phrases provenant de publications Facebook de politiciens israéliens (décembre 2018 - avril 2021), annotées manuellement avec 12 identités sociales granulaires fines (telles que droitiste, ultra-orthodoxe, orientation sociale) basées sur des données d'enquête. L'étude compare les encodeurs multi-étiquettes et mono-étiquettes ainsi que les grands modèles de langage génératifs avec 2B-9B paramètres, révélant que les LLM ajustés pour l'hébreu obtiennent les meilleures performances (F1 macro = 0,74).
- Déséquilibre des ressources linguistiques : Les ressources existantes pour la détection d'identités sociales sont presque entièrement centrées sur l'anglais, manquant de soutien pour les contextes politiques non-anglais
- Granularité d'annotation grossière : Les ensembles de données existants se concentrent principalement sur des catégories granulaires grossières (telles que les partis politiques ou l'ethnie), incapables de capturer les discours politiques complexes
- Limitation mono-étiquette : La plupart des ensembles de données utilisent une classification mono-étiquette, incapable de traiter la réalité des expressions d'identités multiples
- Absence de contexte culturel : Manque de sélection de catégories d'identité basée sur des contextes culturels spécifiques et des enquêtes empiriques
- Les identités sociales sont des facteurs importants du comportement politique et du discours public
- L'hébreu, en tant que langue peu dotée en ressources, est sous-représenté dans la recherche en NLP
- La complexité de l'environnement politique israélien offre un scénario idéal pour étudier l'expression d'identités multidimensionnelles
- Détection de mentions de groupes : Limitée aux mentions de groupes explicites, incapable de capturer les expressions d'identité implicites
- Analyse de cadres et de positions : Se concentre principalement sur les positions ou cadres mono-étiquettes, manquant de soutien pour les catégories d'identité multi-étiquettes
- Inférence idéologique : Peut uniquement déduire les tendances idéologiques générales, incapable de détecter les mentions d'identité explicites
- Ensemble de données novateur : Construction du premier ensemble de données public hébreu multi-étiquettes pour la détection d'identités sociales
- Méthodologie guidée par enquête : Établissement d'un cadre basant l'annotation de texte sur des données d'enquête à grande échelle
- Évaluation comparative complète : Évaluation des performances des modèles encodeurs et décodeurs sur cette tâche
- Évaluation inter-domaines : Vérification de la capacité de généralisation du modèle sur les données de discours parlementaires
- Validation externe : Vérification de la validité du classificateur par enquête d'experts CHES-Israel
- Analyse sociolinguistique : Révélation des différences dans la dynamique des identités entre les différentes plateformes et populations
Entrée : Phrase en hébreu
Sortie : Résultats de classification binaire multi-étiquettes pour 12 identités sociales
Objectif : Déterminer quelles identités sociales sont activement exprimées ou référencées dans une phrase donnée
- Base d'enquête : Basée sur 12 vagues d'enquête de panel représentative (N=1 769), couvrant janvier 2019 à avril 2021
- Orientation d'experts : 28 identités candidates sélectionnées par un panel d'experts en politique israélienne
- Filtrage par seuil : Sélection de 12 identités dépassant systématiquement le seuil de 5% de sélection dans les 5 premières vagues d'enquête
12 catégories d'identités sociales :
- Idéologie : Droitiste, Gauchiste, Conservateur, Libéral
- Économie : Capitaliste, Orientation sociale
- Valeurs politiques : Démocrate, Honnêteté
- Culture-Religion : Sioniste, Ultra-orthodoxe
- Groupe : Palestiniens et Citoyens arabes israéliens, Orientation sécurité
Principes d'annotation :
- Annotation uniquement des identités activement exprimées
- Soutien de la classification multi-étiquettes
- Basée sur le contenu plutôt que sur l'identité du locuteur
- Source : Publications Facebook de parlementaires, partis politiques et candidats israéliens
- Période couverte : Décembre 2018 à avril 2021
- Échelle : 5 536 phrases échantillonnées à partir de 64K publications (375K phrases)
- Accord inter-annotateurs : Kappa de Cohen moyen = 0,77
- Ensemble d'entraînement : 70% (3 875 phrases)
- Ensemble de validation : 15% (830 phrases)
- Ensemble de test : 15% (831 phrases)
- Modèles de base : Régression logistique et LinearSVC (caractéristiques TF-IDF)
- Encodeurs multi-étiquettes : Apprentissage conjoint de 12 étiquettes d'identité
- Encodeurs mono-étiquettes : Ajustement fin séparé pour chaque étiquette
- LLM décodeurs : Génération de listes d'étiquettes séparées par des virgules
Modèles encodeurs :
- Multilingues : mBERT
- Spécifiques à l'hébreu : AlephBERT, HERO, DictaBERT (base/large)
LLM décodeurs :
- Génériques : Gemma 2 (2B/9B), Qwen3-8B
- Spécifiques à l'hébreu : DictaLM2.0
- Précision, rappel et F1 macro-moyens
- Score F1 pour chaque catégorie d'identité
Meilleures performances : DictaLM2.0 atteint F1 macro = 0,743, surpassant significativement les modèles encodeurs
| Type de Modèle | Meilleur Modèle | F1 Macro |
|---|
| LLM décodeur | DictaLM2.0 | 0,743 |
| Encodeur multi-étiquettes | DictaBERT-Large | 0,678 |
| Encodeur mono-étiquettes | DictaBERT-Large | 0,659 |
| Base de référence | LinearSVC | 0,361 |
- Avantage des modèles spécifiques à la langue : DictaLM2.0 ajusté pour l'hébreu obtient les meilleures performances sur 8/12 catégories d'identité
- Efficacité de l'apprentissage multi-étiquettes : Les encodeurs multi-étiquettes surpassent la combinaison mono-étiquettes (0,678 vs 0,659)
- Avantage des décodeurs : Les approches génératives obtiennent de meilleures performances sur les tâches multi-étiquettes
Les tests sur 500 phrases de discours parlementaires montrent F1 macro = 0,72, comparable aux performances sur les données Facebook, démontrant la capacité de généralisation inter-domaines du modèle.
L'analyse de corrélation avec l'enquête d'experts CHES-Israel montre que 16 sur 21 corrélations sont significatives au niveau p ≤ 0,1, et 13 au niveau p ≤ 0,05, avec des coefficients de corrélation variant de |r| = 0,71 à 0,94.
- Cohérence inter-plateformes : Les identités d'orientation sociale, droitiste et démocrate sont universellement populaires dans toutes les sources de données
- Différences de plateformes : Les identités d'honnêteté et de sionisme sont plus populaires auprès du public, tandis que l'orientation sociale est plus importante au parlement
- Effet du cycle électoral : Le discours lié aux identités atteint un pic lors de trois des quatre élections
- Différenciation élite-public :
- Identité d'orientation sociale : Adhésion publique en baisse, utilisation politique en hausse
- Identités d'honnêteté et démocrate : Adhésion publique en hausse, utilisation élite en baisse
L'analyse factorielle révèle la différenciation gauche-droite principale :
- Clustering gauche : Gauchiste, Démocrate, Honnêteté, Libéral, Palestinien
- Clustering droite : Droitiste, Conservateur, Sioniste, Orientation sécurité, Capitaliste, Ultra-orthodoxe
- Intensité d'expression d'identité : Les femmes expriment plus d'identités dans toutes les sources de données
- Préférences d'identité :
- Tendances masculines : Droitiste, orientation sécurité, capitaliste, ultra-orthodoxe
- Tendances féminines : L'orientation sociale est significativement préférée par les femmes sur toutes les plateformes
- Ensemble de données GRIT (italien) : Annotation des mentions de groupes sociaux dans les textes de presse et parlementaires
- Débats parlementaires britanniques : Quantification de la fréquence des mentions de groupes sociaux spécifiques par les politiciens
- Corpus Us vs. Them : Annotation des groupes cibles, positions et sentiments dans les commentaires Reddit
- Discours du Congrès américain : Classification des sentiments et analyse des cadres du discours sur l'immigration sur 140 ans
- Approches traditionnelles : Classification gauche-droite basée sur SVM et réseaux de neurones
- Approches modernes : Notation idéologique zéro-shot utilisant des LLM
- Les modèles spécifiques à l'hébreu surpassent significativement les modèles multilingues génériques dans la tâche de détection d'identités sociales
- Les méthodes d'apprentissage multi-étiquettes capturent mieux la complexité de l'expression d'identité
- Le cadre d'annotation basé sur les données d'enquête fournit une méthode culturellement sensible pour la sélection de catégories d'identité
- L'analyse inter-plateformes révèle des différences importantes entre le discours élite et l'adhésion publique
- Portée temporelle et de plateforme : Les données sont limitées à une période spécifique, ne couvrant pas d'autres plateformes comme Twitter
- Limitation de la population d'enquête : Inclut uniquement les citoyens juifs, manquant de représentation des citoyens arabes
- Granularité d'annotation : Le seuil de 5% peut omettre les identités importantes mais peu fréquentes
- Biais du modèle : Le classificateur peut hériter des biais des données d'entraînement et des modèles pré-entraînés
- Extension à davantage de plateformes et périodes temporelles
- Inclusion d'échantillons de population plus diversifiés
- Développement de méthodes pour réduire les biais du modèle
- Exploration de l'annotation dynamique pour les catégories d'identité émergentes
- Innovativité méthodologique : Première intégration de données d'enquête à grande échelle avec l'annotation de texte, fournissant un cadre de recherche culturellement sensible
- Contribution technique : Établissement de bases solides sur les langues peu dotées en ressources, démontrant l'importance des modèles spécifiques à la langue
- Suffisance expérimentale : Couverture de multiples types de modèles, évaluation inter-domaines et validation externe
- Valeur en sciences sociales : Fournit des perspectives approfondies sur le discours politique et la dynamique des identités
- Représentativité des données : Les limitations de l'échantillon d'enquête peuvent affecter l'universalité des catégories d'identité
- Cohérence d'annotation : Certaines catégories présentent des valeurs κ relativement basses (par exemple, Conservateur : 0,705)
- Portée d'évaluation : L'évaluation inter-domaines est basée sur seulement 500 échantillons, ce qui peut être insuffisant
- Valeur académique : Fournit une ressource importante pour les sciences sociales computationnelles et le NLP multilingue
- Valeur pratique : Applicable à l'analyse de la communication politique, à la surveillance de l'opinion publique et autres applications
- Contribution méthodologique : Fournit un modèle pour des recherches similaires dans d'autres contextes politiques non-anglais
- Recherche en communication politique
- Analyse des identités sociales
- Analyse des sentiments multilingues
- Surveillance du discours politique
- Recherche comparative interculturelle
Cet article cite des travaux importants de plusieurs domaines : théorie des identités sociales, linguistique computationnelle et communication politique. La théorie de l'intégration des conflits intergroupes de Tajfel et Turner (1979) constitue la base théorique, ainsi que les travaux récents en NLP sur la détection de mentions de groupes et l'analyse de cadres.
Évaluation Globale : Ceci est une recherche interdisciplinaire de haute qualité avec des contributions importantes en méthodologie, implémentation technique et perspectives en sciences sociales. La recherche comble un vide dans l'analyse des textes politiques en hébreu et apporte une contribution précieuse au développement du NLP multilingue et des sciences sociales computationnelles.