2025-11-17T07:13:12.902991

HebID: Detecting Social Identities in Hebrew-language Political Text

Mor-Lan, Rivlin-Angert, Kaplan et al.
Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.
academic

HebID : Détection des Identités Sociales dans les Textes Politiques en Hébreu

Informations Fondamentales

  • ID de l'article : 2508.15483
  • Titre : HebID: Detecting Social Identities in Hebrew-language Political Text
  • Auteurs : Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
  • Classification : cs.CL (Linguistique Computationnelle)
  • Date de publication : Prépublication arXiv, 12 octobre 2025
  • Lien de l'article : https://arxiv.org/abs/2508.15483

Résumé

Le langage politique est étroitement lié aux identités sociales. Bien que les identités sociales soient souvent façonnées par des contextes culturels spécifiques, les ensembles de données NLP existants sont principalement centrés sur l'anglais, utilisent une classification à étiquette unique et se concentrent sur des catégories d'identité granulaires grossières. Cet article introduit HebID, le premier corpus hébreu multi-étiquettes pour la détection d'identités sociales, contenant 5 536 phrases provenant de publications Facebook de politiciens israéliens (décembre 2018 - avril 2021), annotées manuellement avec 12 identités sociales granulaires fines (telles que droitiste, ultra-orthodoxe, orientation sociale) basées sur des données d'enquête. L'étude compare les encodeurs multi-étiquettes et mono-étiquettes ainsi que les grands modèles de langage génératifs avec 2B-9B paramètres, révélant que les LLM ajustés pour l'hébreu obtiennent les meilleures performances (F1 macro = 0,74).

Contexte et Motivation de la Recherche

Description du Problème

  1. Déséquilibre des ressources linguistiques : Les ressources existantes pour la détection d'identités sociales sont presque entièrement centrées sur l'anglais, manquant de soutien pour les contextes politiques non-anglais
  2. Granularité d'annotation grossière : Les ensembles de données existants se concentrent principalement sur des catégories granulaires grossières (telles que les partis politiques ou l'ethnie), incapables de capturer les discours politiques complexes
  3. Limitation mono-étiquette : La plupart des ensembles de données utilisent une classification mono-étiquette, incapable de traiter la réalité des expressions d'identités multiples
  4. Absence de contexte culturel : Manque de sélection de catégories d'identité basée sur des contextes culturels spécifiques et des enquêtes empiriques

Importance de la Recherche

  • Les identités sociales sont des facteurs importants du comportement politique et du discours public
  • L'hébreu, en tant que langue peu dotée en ressources, est sous-représenté dans la recherche en NLP
  • La complexité de l'environnement politique israélien offre un scénario idéal pour étudier l'expression d'identités multidimensionnelles

Limitations des Approches Existantes

  • Détection de mentions de groupes : Limitée aux mentions de groupes explicites, incapable de capturer les expressions d'identité implicites
  • Analyse de cadres et de positions : Se concentre principalement sur les positions ou cadres mono-étiquettes, manquant de soutien pour les catégories d'identité multi-étiquettes
  • Inférence idéologique : Peut uniquement déduire les tendances idéologiques générales, incapable de détecter les mentions d'identité explicites

Contributions Principales

  1. Ensemble de données novateur : Construction du premier ensemble de données public hébreu multi-étiquettes pour la détection d'identités sociales
  2. Méthodologie guidée par enquête : Établissement d'un cadre basant l'annotation de texte sur des données d'enquête à grande échelle
  3. Évaluation comparative complète : Évaluation des performances des modèles encodeurs et décodeurs sur cette tâche
  4. Évaluation inter-domaines : Vérification de la capacité de généralisation du modèle sur les données de discours parlementaires
  5. Validation externe : Vérification de la validité du classificateur par enquête d'experts CHES-Israel
  6. Analyse sociolinguistique : Révélation des différences dans la dynamique des identités entre les différentes plateformes et populations

Détails Méthodologiques

Définition de la Tâche

Entrée : Phrase en hébreu Sortie : Résultats de classification binaire multi-étiquettes pour 12 identités sociales Objectif : Déterminer quelles identités sociales sont activement exprimées ou référencées dans une phrase donnée

Méthode de Sélection des Catégories d'Identité

  1. Base d'enquête : Basée sur 12 vagues d'enquête de panel représentative (N=1 769), couvrant janvier 2019 à avril 2021
  2. Orientation d'experts : 28 identités candidates sélectionnées par un panel d'experts en politique israélienne
  3. Filtrage par seuil : Sélection de 12 identités dépassant systématiquement le seuil de 5% de sélection dans les 5 premières vagues d'enquête

Schéma d'Annotation

12 catégories d'identités sociales :

  • Idéologie : Droitiste, Gauchiste, Conservateur, Libéral
  • Économie : Capitaliste, Orientation sociale
  • Valeurs politiques : Démocrate, Honnêteté
  • Culture-Religion : Sioniste, Ultra-orthodoxe
  • Groupe : Palestiniens et Citoyens arabes israéliens, Orientation sécurité

Principes d'annotation :

  • Annotation uniquement des identités activement exprimées
  • Soutien de la classification multi-étiquettes
  • Basée sur le contenu plutôt que sur l'identité du locuteur

Construction de l'Ensemble de Données

  • Source : Publications Facebook de parlementaires, partis politiques et candidats israéliens
  • Période couverte : Décembre 2018 à avril 2021
  • Échelle : 5 536 phrases échantillonnées à partir de 64K publications (375K phrases)
  • Accord inter-annotateurs : Kappa de Cohen moyen = 0,77

Configuration Expérimentale

Division de l'Ensemble de Données

  • Ensemble d'entraînement : 70% (3 875 phrases)
  • Ensemble de validation : 15% (830 phrases)
  • Ensemble de test : 15% (831 phrases)

Types de Modèles

  1. Modèles de base : Régression logistique et LinearSVC (caractéristiques TF-IDF)
  2. Encodeurs multi-étiquettes : Apprentissage conjoint de 12 étiquettes d'identité
  3. Encodeurs mono-étiquettes : Ajustement fin séparé pour chaque étiquette
  4. LLM décodeurs : Génération de listes d'étiquettes séparées par des virgules

Modèles Évalués

Modèles encodeurs :

  • Multilingues : mBERT
  • Spécifiques à l'hébreu : AlephBERT, HERO, DictaBERT (base/large)

LLM décodeurs :

  • Génériques : Gemma 2 (2B/9B), Qwen3-8B
  • Spécifiques à l'hébreu : DictaLM2.0

Métriques d'Évaluation

  • Précision, rappel et F1 macro-moyens
  • Score F1 pour chaque catégorie d'identité

Résultats Expérimentaux

Résultats Principaux

Meilleures performances : DictaLM2.0 atteint F1 macro = 0,743, surpassant significativement les modèles encodeurs

Type de ModèleMeilleur ModèleF1 Macro
LLM décodeurDictaLM2.00,743
Encodeur multi-étiquettesDictaBERT-Large0,678
Encodeur mono-étiquettesDictaBERT-Large0,659
Base de référenceLinearSVC0,361

Découvertes Clés

  1. Avantage des modèles spécifiques à la langue : DictaLM2.0 ajusté pour l'hébreu obtient les meilleures performances sur 8/12 catégories d'identité
  2. Efficacité de l'apprentissage multi-étiquettes : Les encodeurs multi-étiquettes surpassent la combinaison mono-étiquettes (0,678 vs 0,659)
  3. Avantage des décodeurs : Les approches génératives obtiennent de meilleures performances sur les tâches multi-étiquettes

Généralisation Inter-Domaines

Les tests sur 500 phrases de discours parlementaires montrent F1 macro = 0,72, comparable aux performances sur les données Facebook, démontrant la capacité de généralisation inter-domaines du modèle.

Validation Externe

L'analyse de corrélation avec l'enquête d'experts CHES-Israel montre que 16 sur 21 corrélations sont significatives au niveau p ≤ 0,1, et 13 au niveau p ≤ 0,05, avec des coefficients de corrélation variant de |r| = 0,71 à 0,94.

Analyse Sociolinguistique

Comparaison de la Popularité des Identités

  • Cohérence inter-plateformes : Les identités d'orientation sociale, droitiste et démocrate sont universellement populaires dans toutes les sources de données
  • Différences de plateformes : Les identités d'honnêteté et de sionisme sont plus populaires auprès du public, tandis que l'orientation sociale est plus importante au parlement

Analyse des Tendances Temporelles

  • Effet du cycle électoral : Le discours lié aux identités atteint un pic lors de trois des quatre élections
  • Différenciation élite-public :
    • Identité d'orientation sociale : Adhésion publique en baisse, utilisation politique en hausse
    • Identités d'honnêteté et démocrate : Adhésion publique en hausse, utilisation élite en baisse

Modèles de Clustering d'Identités

L'analyse factorielle révèle la différenciation gauche-droite principale :

  • Clustering gauche : Gauchiste, Démocrate, Honnêteté, Libéral, Palestinien
  • Clustering droite : Droitiste, Conservateur, Sioniste, Orientation sécurité, Capitaliste, Ultra-orthodoxe

Différences de Genre

  • Intensité d'expression d'identité : Les femmes expriment plus d'identités dans toutes les sources de données
  • Préférences d'identité :
    • Tendances masculines : Droitiste, orientation sécurité, capitaliste, ultra-orthodoxe
    • Tendances féminines : L'orientation sociale est significativement préférée par les femmes sur toutes les plateformes

Travaux Connexes

Détection de Mentions de Groupes

  • Ensemble de données GRIT (italien) : Annotation des mentions de groupes sociaux dans les textes de presse et parlementaires
  • Débats parlementaires britanniques : Quantification de la fréquence des mentions de groupes sociaux spécifiques par les politiciens

Analyse de Cadres et de Positions

  • Corpus Us vs. Them : Annotation des groupes cibles, positions et sentiments dans les commentaires Reddit
  • Discours du Congrès américain : Classification des sentiments et analyse des cadres du discours sur l'immigration sur 140 ans

Inférence Idéologique

  • Approches traditionnelles : Classification gauche-droite basée sur SVM et réseaux de neurones
  • Approches modernes : Notation idéologique zéro-shot utilisant des LLM

Conclusion et Discussion

Conclusions Principales

  1. Les modèles spécifiques à l'hébreu surpassent significativement les modèles multilingues génériques dans la tâche de détection d'identités sociales
  2. Les méthodes d'apprentissage multi-étiquettes capturent mieux la complexité de l'expression d'identité
  3. Le cadre d'annotation basé sur les données d'enquête fournit une méthode culturellement sensible pour la sélection de catégories d'identité
  4. L'analyse inter-plateformes révèle des différences importantes entre le discours élite et l'adhésion publique

Limitations

  1. Portée temporelle et de plateforme : Les données sont limitées à une période spécifique, ne couvrant pas d'autres plateformes comme Twitter
  2. Limitation de la population d'enquête : Inclut uniquement les citoyens juifs, manquant de représentation des citoyens arabes
  3. Granularité d'annotation : Le seuil de 5% peut omettre les identités importantes mais peu fréquentes
  4. Biais du modèle : Le classificateur peut hériter des biais des données d'entraînement et des modèles pré-entraînés

Directions Futures

  1. Extension à davantage de plateformes et périodes temporelles
  2. Inclusion d'échantillons de population plus diversifiés
  3. Développement de méthodes pour réduire les biais du modèle
  4. Exploration de l'annotation dynamique pour les catégories d'identité émergentes

Évaluation Approfondie

Points Forts

  1. Innovativité méthodologique : Première intégration de données d'enquête à grande échelle avec l'annotation de texte, fournissant un cadre de recherche culturellement sensible
  2. Contribution technique : Établissement de bases solides sur les langues peu dotées en ressources, démontrant l'importance des modèles spécifiques à la langue
  3. Suffisance expérimentale : Couverture de multiples types de modèles, évaluation inter-domaines et validation externe
  4. Valeur en sciences sociales : Fournit des perspectives approfondies sur le discours politique et la dynamique des identités

Insuffisances

  1. Représentativité des données : Les limitations de l'échantillon d'enquête peuvent affecter l'universalité des catégories d'identité
  2. Cohérence d'annotation : Certaines catégories présentent des valeurs κ relativement basses (par exemple, Conservateur : 0,705)
  3. Portée d'évaluation : L'évaluation inter-domaines est basée sur seulement 500 échantillons, ce qui peut être insuffisant

Impact

  1. Valeur académique : Fournit une ressource importante pour les sciences sociales computationnelles et le NLP multilingue
  2. Valeur pratique : Applicable à l'analyse de la communication politique, à la surveillance de l'opinion publique et autres applications
  3. Contribution méthodologique : Fournit un modèle pour des recherches similaires dans d'autres contextes politiques non-anglais

Scénarios d'Application

  • Recherche en communication politique
  • Analyse des identités sociales
  • Analyse des sentiments multilingues
  • Surveillance du discours politique
  • Recherche comparative interculturelle

Références

Cet article cite des travaux importants de plusieurs domaines : théorie des identités sociales, linguistique computationnelle et communication politique. La théorie de l'intégration des conflits intergroupes de Tajfel et Turner (1979) constitue la base théorique, ainsi que les travaux récents en NLP sur la détection de mentions de groupes et l'analyse de cadres.


Évaluation Globale : Ceci est une recherche interdisciplinaire de haute qualité avec des contributions importantes en méthodologie, implémentation technique et perspectives en sciences sociales. La recherche comble un vide dans l'analyse des textes politiques en hébreu et apporte une contribution précieuse au développement du NLP multilingue et des sciences sociales computationnelles.