2025-11-17T07:13:12.902991

HebID: Detecting Social Identities in Hebrew-language Political Text

Mor-Lan, Rivlin-Angert, Kaplan et al.
Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.
academic

HebID: Rilevamento delle Identità Sociali nel Testo Politico in Lingua Ebraica

Informazioni Fondamentali

  • ID Articolo: 2508.15483
  • Titolo: HebID: Detecting Social Identities in Hebrew-language Political Text
  • Autori: Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Data di Pubblicazione: preprint arXiv, 12 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2508.15483

Riassunto

Il linguaggio politico è strettamente correlato alle identità sociali. Sebbene le identità sociali siano spesso plasmate da specifici contesti culturali, i dataset NLP esistenti sono principalmente incentrati sulla lingua inglese, utilizzano classificazione a etichetta singola e si concentrano su categorie di identità a granularità grossolana. Questo articolo introduce HebID, il primo corpus multilingue ebraico per il rilevamento delle identità sociali, contenente 5.536 frasi provenienti da post Facebook di politici israeliani (dicembre 2018 - aprile 2021), annotate manualmente con 12 identità sociali a granularità fine (come destra, ultraortodossi, orientamento sociale) sulla base di dati di indagine. Lo studio confronta codificatori multilingue e monolingue, nonché modelli linguistici generativi di grandi dimensioni con 2B-9B parametri, scoprendo che gli LLM ottimizzati per l'ebraico hanno le migliori prestazioni (F1 macro = 0,74).

Contesto di Ricerca e Motivazione

Descrizione del Problema

  1. Squilibrio nelle Risorse Linguistiche: Le risorse esistenti per il rilevamento delle identità sociali sono quasi interamente incentrate sull'inglese, con scarso supporto per contesti politici non anglofoni
  2. Granularità di Annotazione Grossolana: I dataset esistenti si concentrano principalmente su categorie a granularità grossolana (come partito o razza), incapaci di catturare il discorso politico complesso
  3. Limitazione a Etichetta Singola: La maggior parte dei dataset utilizza classificazione a etichetta singola, incapace di gestire la realtà di espressioni di identità multiple
  4. Assenza di Contesto Culturale: Mancanza di selezione di categorie di identità basata su contesti culturali specifici e indagini empiriche

Importanza della Ricerca

  • Le identità sociali sono fattori determinanti importanti del comportamento politico e del discorso pubblico
  • L'ebraico, come lingua a bassa risorsa, è sottorappresentato nella ricerca NLP
  • La complessità dell'ambiente politico israeliano fornisce uno scenario ideale per lo studio dell'espressione di identità multidimensionale

Limitazioni degli Approcci Esistenti

  • Rilevamento di Menzioni di Gruppi: Limitato a menzioni di gruppi esplicite, incapace di catturare espressioni di identità implicite
  • Analisi di Cornici e Posizioni: Si concentra principalmente su posizioni o cornici a etichetta singola, con scarso supporto per categorie di identità multilingue
  • Inferenza Ideologica: Può solo inferire tendenze ideologiche generali, incapace di rilevare menzioni di identità esplicite

Contributi Fondamentali

  1. Dataset Innovativo: Costruzione del primo dataset pubblico multilingue ebraico per il rilevamento delle identità sociali
  2. Metodologia Guidata da Indagini: Stabilimento di un framework basato su dati di indagine su larga scala per guidare l'annotazione testuale
  3. Benchmark Completo: Valutazione delle prestazioni di modelli codificatori e decodificatori su questo compito
  4. Valutazione Cross-Dominio: Verifica della capacità di generalizzazione del modello su dati di discorsi parlamentari
  5. Validazione Esterna: Verifica dell'efficacia del classificatore attraverso l'indagine di esperti CHES-Israel
  6. Analisi Sociolinguistica: Rivelazione delle differenze nella dinamica delle identità tra diverse piattaforme e popolazioni

Dettagli Metodologici

Definizione del Compito

Input: Frase in lingua ebraica Output: Risultati di classificazione binaria multilingue per 12 identità sociali Obiettivo: Determinare quali identità sociali sono espresse positivamente o citate nella frase data

Metodo di Selezione delle Categorie di Identità

  1. Base di Indagine: Basato su 12 ondate di indagine panel rappresentativa (N=1.769), che copre gennaio 2019 - aprile 2021
  2. Guida di Esperti: 28 identità candidate selezionate da un panel di esperti di politica israeliana
  3. Filtraggio per Soglia: Selezione di 12 identità che superano costantemente la soglia di selezione del 5% nelle prime 5 ondate di indagine

Schema di Annotazione

12 Categorie di Identità Sociale:

  • Ideologia: Destra, Sinistra, Conservatore, Liberale
  • Economia: Capitalista, Orientamento Sociale
  • Valori Politici: Democratico, Onestà
  • Cultura Religiosa: Sionista, Ultraortodosso
  • Gruppo: Palestinesi e Cittadini Arabi Israeliani, Orientamento Sicurezza

Principi di Annotazione:

  • Annotazione solo di identità espresse positivamente
  • Supporto per classificazione multilingue
  • Basato su contenuto piuttosto che identità del parlante

Costruzione del Dataset

  • Fonte: Post Facebook di deputati israeliani, partiti e candidati
  • Intervallo Temporale: Dicembre 2018 - aprile 2021
  • Scala: 5.536 frasi campionate da 64K post (375K frasi)
  • Accordo Inter-Annotatore: Cohen's κ medio = 0,77

Configurazione Sperimentale

Divisione del Dataset

  • Set di Addestramento: 70% (3.875 frasi)
  • Set di Validazione: 15% (830 frasi)
  • Set di Test: 15% (831 frasi)

Tipi di Modelli

  1. Modelli di Base: Regressione Logistica e LinearSVC (caratteristiche TF-IDF)
  2. Codificatori Multilingue: Apprendimento congiunto di 12 etichette di identità
  3. Codificatori Monolingue: Fine-tuning separato per ogni etichetta
  4. LLM Decodificatori: Generazione di elenchi di etichette separate da virgole

Modelli Valutati

Modelli Codificatori:

  • Multilingue: mBERT
  • Specifico per l'Ebraico: AlephBERT, HERO, DictaBERT (base/large)

LLM Decodificatori:

  • Generico: Gemma 2 (2B/9B), Qwen3-8B
  • Specifico per l'Ebraico: DictaLM2.0

Metriche di Valutazione

  • Precisione macro, Richiamo, Punteggio F1
  • Punteggio F1 per ogni categoria di identità

Risultati Sperimentali

Risultati Principali

Prestazioni Migliori: DictaLM2.0 raggiunge F1 macro = 0,743, significativamente superiore ai modelli codificatori

Tipo di ModelloMiglior ModelloF1 Macro
LLM DecodificatoreDictaLM2.00,743
Codificatore MultilingueDictaBERT-Large0,678
Codificatore MonolingueDictaBERT-Large0,659
BaseLinearSVC0,361

Scoperte Chiave

  1. Vantaggio dei Modelli Specifici per la Lingua: DictaLM2.0 ottimizzato per l'ebraico ha le migliori prestazioni su 8/12 categorie di identità
  2. Efficacia dell'Apprendimento Multilingue: I codificatori multilingue superano la combinazione monolingue (0,678 vs 0,659)
  3. Vantaggio dei Decodificatori: I metodi generativi hanno prestazioni migliori su compiti multilingue

Generalizzazione Cross-Dominio

Il test su 500 frasi di discorsi parlamentari mostra F1 macro = 0,72, comparabile alle prestazioni su dati Facebook, dimostrando la capacità di generalizzazione cross-dominio del modello.

Validazione Esterna

L'analisi di correlazione con l'indagine di esperti CHES-Israel mostra che 16 su 21 correlazioni sono significative al livello p ≤ 0,1, 13 al livello p ≤ 0,05, con coefficienti di correlazione che vanno da |r| = 0,71 a 0,94.

Analisi Sociolinguistica

Confronto della Popolarità delle Identità

  • Coerenza Cross-Piattaforma: Le identità di orientamento sociale, destra e democratica sono universalmente popolari tra le fonti di dati
  • Differenze di Piattaforma: Le identità di onestà e sionismo sono più popolari tra il pubblico, mentre l'orientamento sociale è più prominente nel parlamento

Analisi delle Tendenze Temporali

  • Effetto del Ciclo Elettorale: Il discorso relativo all'identità raggiunge il picco in tre delle quattro elezioni
  • Differenziazione Elite-Pubblico:
    • Identità di Orientamento Sociale: Diminuzione dell'identificazione pubblica, aumento dell'uso politico
    • Identità di Onestà e Democrazia: Aumento dell'identificazione pubblica, diminuzione nel discorso d'élite

Modelli di Clustering di Identità

L'analisi fattoriale rivela la principale differenziazione sinistra-destra:

  • Cluster di Sinistra: Sinistra, Democratico, Onestà, Liberale, Palestinese
  • Cluster di Destra: Destra, Conservatore, Sionista, Orientamento Sicurezza, Capitalista, Ultraortodosso

Differenze di Genere

  • Intensità di Espressione di Identità: Le donne esprimono più identità in tutte le fonti di dati
  • Preferenze di Identità:
    • Tendenza Maschile: Destra, Orientamento Sicurezza, Capitalista, Ultraortodosso
    • Tendenza Femminile: L'identità di orientamento sociale è significativamente preferita dalle donne su tutte le piattaforme

Lavori Correlati

Rilevamento di Menzioni di Gruppi

  • Dataset GRIT (italiano): Annotazione di menzioni di gruppi sociali in testi di notizie e parlamentari
  • Dibattiti Parlamentari Britannici: Quantificazione della frequenza con cui i politici menzionano specifici gruppi sociali

Analisi di Cornici e Posizioni

  • Corpus Us vs. Them: Annotazione di gruppo target, posizione e sentimento in commenti Reddit
  • Discorsi del Congresso Americano: Classificazione del sentimento e analisi del framework del discorso sull'immigrazione di 140 anni

Inferenza Ideologica

  • Metodi Tradizionali: Classificazione sinistra-destra basata su SVM e reti neurali
  • Metodi Moderni: Scoring ideologico zero-shot utilizzando LLM

Conclusioni e Discussione

Conclusioni Principali

  1. I modelli specifici per l'ebraico superano significativamente i modelli multilingue generici nel compito di rilevamento delle identità sociali
  2. Il metodo di apprendimento multilingue può catturare meglio la complessità dell'espressione di identità
  3. Il framework di annotazione basato su dati di indagine fornisce un metodo culturalmente sensibile per la selezione di categorie di identità
  4. L'analisi cross-piattaforma rivela importanti differenze tra il discorso d'élite e l'identificazione pubblica

Limitazioni

  1. Portata Temporale e di Piattaforma: I dati sono limitati a un periodo specifico, non coprono altre piattaforme come Twitter
  2. Limitazioni della Popolazione di Indagine: Include solo cittadini ebrei, mancanza di rappresentazione di cittadini arabi
  3. Granularità di Annotazione: La soglia del 5% potrebbe perdere identità importanti ma a bassa frequenza
  4. Bias del Modello: Il classificatore potrebbe ereditare bias dai dati di addestramento e dai modelli pre-addestrati

Direzioni Future

  1. Estensione a più piattaforme e periodi temporali
  2. Inclusione di campioni di popolazione più diversificati
  3. Sviluppo di metodi per ridurre il bias del modello
  4. Esplorazione dell'annotazione dinamica di categorie di identità emergenti

Valutazione Approfondita

Punti di Forza

  1. Innovazione Metodologica: Prima integrazione di dati di indagine su larga scala con annotazione testuale, fornendo un framework di ricerca culturalmente sensibile
  2. Contributo Tecnico: Stabilimento di forti baseline su lingue a bassa risorsa, dimostrando l'importanza dei modelli specifici per la lingua
  3. Completezza Sperimentale: Copertura di molteplici tipi di modelli, valutazione cross-dominio e validazione esterna
  4. Valore di Scienze Sociali: Fornisce approfondimenti approfonditi sulla dinamica del discorso politico e dell'identità

Insufficienze

  1. Rappresentatività dei Dati: Le limitazioni del campione di indagine potrebbero influenzare l'universalità delle categorie di identità
  2. Coerenza di Annotazione: Alcuni valori κ di categoria sono relativamente bassi (ad es. Conservatore: 0,705)
  3. Portata di Valutazione: La valutazione cross-dominio si basa solo su 500 campioni, potrebbe essere insufficiente

Impatto

  1. Valore Accademico: Fornisce risorse importanti per la scienza computazionale sociale e l'NLP multilingue
  2. Valore Pratico: Applicabile all'analisi della comunicazione politica, monitoraggio dell'opinione pubblica e altre applicazioni
  3. Contributo Metodologico: Fornisce un modello per ricerche simili in altri contesti politici non anglofoni

Scenari Applicabili

  • Ricerca sulla comunicazione politica
  • Analisi delle identità sociali
  • Analisi del sentimento multilingue
  • Monitoraggio del discorso politico
  • Ricerca comparativa cross-culturale

Bibliografia

Questo articolo cita letteratura importante da molteplici discipline, inclusa la teoria dell'identità sociale, la linguistica computazionale e la comunicazione politica, con particolare attenzione alla teoria integrata del conflitto intergruppo di Tajfel e Turner (1979) come base teorica, nonché ai recenti risultati della ricerca NLP nel rilevamento di menzioni di gruppi, analisi di cornici e altri aspetti.


Valutazione Complessiva: Questa è una ricerca di alta qualità interdisciplinare con importanti contributi in metodologia, implementazione tecnica e approfondimenti di scienze sociali. La ricerca colma il vuoto nell'analisi del testo politico in lingua ebraica, fornendo contributi preziosi allo sviluppo dell'NLP multilingue e della scienza computazionale sociale.