2025-11-17T07:13:12.902991

HebID: Detecting Social Identities in Hebrew-language Political Text

Mor-Lan, Rivlin-Angert, Kaplan et al.

Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.

academic

HebID : Détection des Identités Sociales dans les Textes Politiques en Hébreu

Informations Fondamentales

ID de l'article : 2508.15483
Titre : HebID: Detecting Social Identities in Hebrew-language Political Text
Auteurs : Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
Classification : cs.CL (Linguistique Computationnelle)
Date de publication : Prépublication arXiv, 12 octobre 2025
Lien de l'article : https://arxiv.org/abs/2508.15483

Résumé

Le langage politique est étroitement lié aux identités sociales. Bien que les identités sociales soient souvent façonnées par des contextes culturels spécifiques, les ensembles de données NLP existants sont principalement centrés sur l'anglais, utilisent une classification à étiquette unique et se concentrent sur des catégories d'identité granulaires grossières. Cet article introduit HebID, le premier corpus hébreu multi-étiquettes pour la détection d'identités sociales, contenant 5 536 phrases provenant de publications Facebook de politiciens israéliens (décembre 2018 - avril 2021), annotées manuellement avec 12 identités sociales granulaires fines (telles que droitiste, ultra-orthodoxe, orientation sociale) basées sur des données d'enquête. L'étude compare les encodeurs multi-étiquettes et mono-étiquettes ainsi que les grands modèles de langage génératifs avec 2B-9B paramètres, révélant que les LLM ajustés pour l'hébreu obtiennent les meilleures performances (F1 macro = 0,74).

Contexte et Motivation de la Recherche

Description du Problème

Déséquilibre des ressources linguistiques : Les ressources existantes pour la détection d'identités sociales sont presque entièrement centrées sur l'anglais, manquant de soutien pour les contextes politiques non-anglais
Granularité d'annotation grossière : Les ensembles de données existants se concentrent principalement sur des catégories granulaires grossières (telles que les partis politiques ou l'ethnie), incapables de capturer les discours politiques complexes
Limitation mono-étiquette : La plupart des ensembles de données utilisent une classification mono-étiquette, incapable de traiter la réalité des expressions d'identités multiples
Absence de contexte culturel : Manque de sélection de catégories d'identité basée sur des contextes culturels spécifiques et des enquêtes empiriques

Importance de la Recherche

Les identités sociales sont des facteurs importants du comportement politique et du discours public
L'hébreu, en tant que langue peu dotée en ressources, est sous-représenté dans la recherche en NLP
La complexité de l'environnement politique israélien offre un scénario idéal pour étudier l'expression d'identités multidimensionnelles

Limitations des Approches Existantes

Détection de mentions de groupes : Limitée aux mentions de groupes explicites, incapable de capturer les expressions d'identité implicites
Analyse de cadres et de positions : Se concentre principalement sur les positions ou cadres mono-étiquettes, manquant de soutien pour les catégories d'identité multi-étiquettes
Inférence idéologique : Peut uniquement déduire les tendances idéologiques générales, incapable de détecter les mentions d'identité explicites

Contributions Principales

Ensemble de données novateur : Construction du premier ensemble de données public hébreu multi-étiquettes pour la détection d'identités sociales
Méthodologie guidée par enquête : Établissement d'un cadre basant l'annotation de texte sur des données d'enquête à grande échelle
Évaluation comparative complète : Évaluation des performances des modèles encodeurs et décodeurs sur cette tâche
Évaluation inter-domaines : Vérification de la capacité de généralisation du modèle sur les données de discours parlementaires
Validation externe : Vérification de la validité du classificateur par enquête d'experts CHES-Israel
Analyse sociolinguistique : Révélation des différences dans la dynamique des identités entre les différentes plateformes et populations

Détails Méthodologiques

Définition de la Tâche

Entrée : Phrase en hébreu Sortie : Résultats de classification binaire multi-étiquettes pour 12 identités sociales Objectif : Déterminer quelles identités sociales sont activement exprimées ou référencées dans une phrase donnée

Méthode de Sélection des Catégories d'Identité

Base d'enquête : Basée sur 12 vagues d'enquête de panel représentative (N=1 769), couvrant janvier 2019 à avril 2021
Orientation d'experts : 28 identités candidates sélectionnées par un panel d'experts en politique israélienne
Filtrage par seuil : Sélection de 12 identités dépassant systématiquement le seuil de 5% de sélection dans les 5 premières vagues d'enquête

Schéma d'Annotation

12 catégories d'identités sociales :

Idéologie : Droitiste, Gauchiste, Conservateur, Libéral
Économie : Capitaliste, Orientation sociale
Valeurs politiques : Démocrate, Honnêteté
Culture-Religion : Sioniste, Ultra-orthodoxe
Groupe : Palestiniens et Citoyens arabes israéliens, Orientation sécurité

Principes d'annotation :

Annotation uniquement des identités activement exprimées
Soutien de la classification multi-étiquettes
Basée sur le contenu plutôt que sur l'identité du locuteur

Construction de l'Ensemble de Données

Source : Publications Facebook de parlementaires, partis politiques et candidats israéliens
Période couverte : Décembre 2018 à avril 2021
Échelle : 5 536 phrases échantillonnées à partir de 64K publications (375K phrases)
Accord inter-annotateurs : Kappa de Cohen moyen = 0,77

Configuration Expérimentale

Division de l'Ensemble de Données

Ensemble d'entraînement : 70% (3 875 phrases)
Ensemble de validation : 15% (830 phrases)
Ensemble de test : 15% (831 phrases)

Types de Modèles

Modèles de base : Régression logistique et LinearSVC (caractéristiques TF-IDF)
Encodeurs multi-étiquettes : Apprentissage conjoint de 12 étiquettes d'identité
Encodeurs mono-étiquettes : Ajustement fin séparé pour chaque étiquette
LLM décodeurs : Génération de listes d'étiquettes séparées par des virgules

Modèles Évalués

Modèles encodeurs :

Multilingues : mBERT
Spécifiques à l'hébreu : AlephBERT, HERO, DictaBERT (base/large)

LLM décodeurs :

Génériques : Gemma 2 (2B/9B), Qwen3-8B
Spécifiques à l'hébreu : DictaLM2.0

Métriques d'Évaluation

Précision, rappel et F1 macro-moyens
Score F1 pour chaque catégorie d'identité

Résultats Expérimentaux

Résultats Principaux

Meilleures performances : DictaLM2.0 atteint F1 macro = 0,743, surpassant significativement les modèles encodeurs

Type de Modèle	Meilleur Modèle	F1 Macro
LLM décodeur	DictaLM2.0	0,743
Encodeur multi-étiquettes	DictaBERT-Large	0,678
Encodeur mono-étiquettes	DictaBERT-Large	0,659
Base de référence	LinearSVC	0,361

Découvertes Clés

Avantage des modèles spécifiques à la langue : DictaLM2.0 ajusté pour l'hébreu obtient les meilleures performances sur 8/12 catégories d'identité
Efficacité de l'apprentissage multi-étiquettes : Les encodeurs multi-étiquettes surpassent la combinaison mono-étiquettes (0,678 vs 0,659)
Avantage des décodeurs : Les approches génératives obtiennent de meilleures performances sur les tâches multi-étiquettes

Généralisation Inter-Domaines

Les tests sur 500 phrases de discours parlementaires montrent F1 macro = 0,72, comparable aux performances sur les données Facebook, démontrant la capacité de généralisation inter-domaines du modèle.

Validation Externe

L'analyse de corrélation avec l'enquête d'experts CHES-Israel montre que 16 sur 21 corrélations sont significatives au niveau p ≤ 0,1, et 13 au niveau p ≤ 0,05, avec des coefficients de corrélation variant de |r| = 0,71 à 0,94.

Analyse Sociolinguistique

Comparaison de la Popularité des Identités

Cohérence inter-plateformes : Les identités d'orientation sociale, droitiste et démocrate sont universellement populaires dans toutes les sources de données
Différences de plateformes : Les identités d'honnêteté et de sionisme sont plus populaires auprès du public, tandis que l'orientation sociale est plus importante au parlement

Analyse des Tendances Temporelles

Effet du cycle électoral : Le discours lié aux identités atteint un pic lors de trois des quatre élections
Différenciation élite-public :
- Identité d'orientation sociale : Adhésion publique en baisse, utilisation politique en hausse
- Identités d'honnêteté et démocrate : Adhésion publique en hausse, utilisation élite en baisse

Modèles de Clustering d'Identités

L'analyse factorielle révèle la différenciation gauche-droite principale :

Clustering gauche : Gauchiste, Démocrate, Honnêteté, Libéral, Palestinien
Clustering droite : Droitiste, Conservateur, Sioniste, Orientation sécurité, Capitaliste, Ultra-orthodoxe

Différences de Genre

Intensité d'expression d'identité : Les femmes expriment plus d'identités dans toutes les sources de données
Préférences d'identité :
- Tendances masculines : Droitiste, orientation sécurité, capitaliste, ultra-orthodoxe
- Tendances féminines : L'orientation sociale est significativement préférée par les femmes sur toutes les plateformes

Travaux Connexes

Détection de Mentions de Groupes

Ensemble de données GRIT (italien) : Annotation des mentions de groupes sociaux dans les textes de presse et parlementaires
Débats parlementaires britanniques : Quantification de la fréquence des mentions de groupes sociaux spécifiques par les politiciens

Analyse de Cadres et de Positions

Corpus Us vs. Them : Annotation des groupes cibles, positions et sentiments dans les commentaires Reddit
Discours du Congrès américain : Classification des sentiments et analyse des cadres du discours sur l'immigration sur 140 ans

Inférence Idéologique

Approches traditionnelles : Classification gauche-droite basée sur SVM et réseaux de neurones
Approches modernes : Notation idéologique zéro-shot utilisant des LLM

Conclusion et Discussion

Conclusions Principales

Les modèles spécifiques à l'hébreu surpassent significativement les modèles multilingues génériques dans la tâche de détection d'identités sociales
Les méthodes d'apprentissage multi-étiquettes capturent mieux la complexité de l'expression d'identité
Le cadre d'annotation basé sur les données d'enquête fournit une méthode culturellement sensible pour la sélection de catégories d'identité
L'analyse inter-plateformes révèle des différences importantes entre le discours élite et l'adhésion publique

Limitations

Portée temporelle et de plateforme : Les données sont limitées à une période spécifique, ne couvrant pas d'autres plateformes comme Twitter
Limitation de la population d'enquête : Inclut uniquement les citoyens juifs, manquant de représentation des citoyens arabes
Granularité d'annotation : Le seuil de 5% peut omettre les identités importantes mais peu fréquentes
Biais du modèle : Le classificateur peut hériter des biais des données d'entraînement et des modèles pré-entraînés

Directions Futures

Extension à davantage de plateformes et périodes temporelles
Inclusion d'échantillons de population plus diversifiés
Développement de méthodes pour réduire les biais du modèle
Exploration de l'annotation dynamique pour les catégories d'identité émergentes

Évaluation Approfondie

Points Forts

Innovativité méthodologique : Première intégration de données d'enquête à grande échelle avec l'annotation de texte, fournissant un cadre de recherche culturellement sensible
Contribution technique : Établissement de bases solides sur les langues peu dotées en ressources, démontrant l'importance des modèles spécifiques à la langue
Suffisance expérimentale : Couverture de multiples types de modèles, évaluation inter-domaines et validation externe
Valeur en sciences sociales : Fournit des perspectives approfondies sur le discours politique et la dynamique des identités

Insuffisances

Représentativité des données : Les limitations de l'échantillon d'enquête peuvent affecter l'universalité des catégories d'identité
Cohérence d'annotation : Certaines catégories présentent des valeurs κ relativement basses (par exemple, Conservateur : 0,705)
Portée d'évaluation : L'évaluation inter-domaines est basée sur seulement 500 échantillons, ce qui peut être insuffisant

Impact

Valeur académique : Fournit une ressource importante pour les sciences sociales computationnelles et le NLP multilingue
Valeur pratique : Applicable à l'analyse de la communication politique, à la surveillance de l'opinion publique et autres applications
Contribution méthodologique : Fournit un modèle pour des recherches similaires dans d'autres contextes politiques non-anglais

Scénarios d'Application

Recherche en communication politique
Analyse des identités sociales
Analyse des sentiments multilingues
Surveillance du discours politique
Recherche comparative interculturelle

Références

Cet article cite des travaux importants de plusieurs domaines : théorie des identités sociales, linguistique computationnelle et communication politique. La théorie de l'intégration des conflits intergroupes de Tajfel et Turner (1979) constitue la base théorique, ainsi que les travaux récents en NLP sur la détection de mentions de groupes et l'analyse de cadres.

Évaluation Globale : Ceci est une recherche interdisciplinaire de haute qualité avec des contributions importantes en méthodologie, implémentation technique et perspectives en sciences sociales. La recherche comble un vide dans l'analyse des textes politiques en hébreu et apporte une contribution précieuse au développement du NLP multilingue et des sciences sociales computationnelles.