Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.
- ID Articolo: 2508.15483
- Titolo: HebID: Detecting Social Identities in Hebrew-language Political Text
- Autori: Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
- Classificazione: cs.CL (Linguistica Computazionale)
- Data di Pubblicazione: preprint arXiv, 12 ottobre 2025
- Link Articolo: https://arxiv.org/abs/2508.15483
Il linguaggio politico è strettamente correlato alle identità sociali. Sebbene le identità sociali siano spesso plasmate da specifici contesti culturali, i dataset NLP esistenti sono principalmente incentrati sulla lingua inglese, utilizzano classificazione a etichetta singola e si concentrano su categorie di identità a granularità grossolana. Questo articolo introduce HebID, il primo corpus multilingue ebraico per il rilevamento delle identità sociali, contenente 5.536 frasi provenienti da post Facebook di politici israeliani (dicembre 2018 - aprile 2021), annotate manualmente con 12 identità sociali a granularità fine (come destra, ultraortodossi, orientamento sociale) sulla base di dati di indagine. Lo studio confronta codificatori multilingue e monolingue, nonché modelli linguistici generativi di grandi dimensioni con 2B-9B parametri, scoprendo che gli LLM ottimizzati per l'ebraico hanno le migliori prestazioni (F1 macro = 0,74).
- Squilibrio nelle Risorse Linguistiche: Le risorse esistenti per il rilevamento delle identità sociali sono quasi interamente incentrate sull'inglese, con scarso supporto per contesti politici non anglofoni
- Granularità di Annotazione Grossolana: I dataset esistenti si concentrano principalmente su categorie a granularità grossolana (come partito o razza), incapaci di catturare il discorso politico complesso
- Limitazione a Etichetta Singola: La maggior parte dei dataset utilizza classificazione a etichetta singola, incapace di gestire la realtà di espressioni di identità multiple
- Assenza di Contesto Culturale: Mancanza di selezione di categorie di identità basata su contesti culturali specifici e indagini empiriche
- Le identità sociali sono fattori determinanti importanti del comportamento politico e del discorso pubblico
- L'ebraico, come lingua a bassa risorsa, è sottorappresentato nella ricerca NLP
- La complessità dell'ambiente politico israeliano fornisce uno scenario ideale per lo studio dell'espressione di identità multidimensionale
- Rilevamento di Menzioni di Gruppi: Limitato a menzioni di gruppi esplicite, incapace di catturare espressioni di identità implicite
- Analisi di Cornici e Posizioni: Si concentra principalmente su posizioni o cornici a etichetta singola, con scarso supporto per categorie di identità multilingue
- Inferenza Ideologica: Può solo inferire tendenze ideologiche generali, incapace di rilevare menzioni di identità esplicite
- Dataset Innovativo: Costruzione del primo dataset pubblico multilingue ebraico per il rilevamento delle identità sociali
- Metodologia Guidata da Indagini: Stabilimento di un framework basato su dati di indagine su larga scala per guidare l'annotazione testuale
- Benchmark Completo: Valutazione delle prestazioni di modelli codificatori e decodificatori su questo compito
- Valutazione Cross-Dominio: Verifica della capacità di generalizzazione del modello su dati di discorsi parlamentari
- Validazione Esterna: Verifica dell'efficacia del classificatore attraverso l'indagine di esperti CHES-Israel
- Analisi Sociolinguistica: Rivelazione delle differenze nella dinamica delle identità tra diverse piattaforme e popolazioni
Input: Frase in lingua ebraica
Output: Risultati di classificazione binaria multilingue per 12 identità sociali
Obiettivo: Determinare quali identità sociali sono espresse positivamente o citate nella frase data
- Base di Indagine: Basato su 12 ondate di indagine panel rappresentativa (N=1.769), che copre gennaio 2019 - aprile 2021
- Guida di Esperti: 28 identità candidate selezionate da un panel di esperti di politica israeliana
- Filtraggio per Soglia: Selezione di 12 identità che superano costantemente la soglia di selezione del 5% nelle prime 5 ondate di indagine
12 Categorie di Identità Sociale:
- Ideologia: Destra, Sinistra, Conservatore, Liberale
- Economia: Capitalista, Orientamento Sociale
- Valori Politici: Democratico, Onestà
- Cultura Religiosa: Sionista, Ultraortodosso
- Gruppo: Palestinesi e Cittadini Arabi Israeliani, Orientamento Sicurezza
Principi di Annotazione:
- Annotazione solo di identità espresse positivamente
- Supporto per classificazione multilingue
- Basato su contenuto piuttosto che identità del parlante
- Fonte: Post Facebook di deputati israeliani, partiti e candidati
- Intervallo Temporale: Dicembre 2018 - aprile 2021
- Scala: 5.536 frasi campionate da 64K post (375K frasi)
- Accordo Inter-Annotatore: Cohen's κ medio = 0,77
- Set di Addestramento: 70% (3.875 frasi)
- Set di Validazione: 15% (830 frasi)
- Set di Test: 15% (831 frasi)
- Modelli di Base: Regressione Logistica e LinearSVC (caratteristiche TF-IDF)
- Codificatori Multilingue: Apprendimento congiunto di 12 etichette di identità
- Codificatori Monolingue: Fine-tuning separato per ogni etichetta
- LLM Decodificatori: Generazione di elenchi di etichette separate da virgole
Modelli Codificatori:
- Multilingue: mBERT
- Specifico per l'Ebraico: AlephBERT, HERO, DictaBERT (base/large)
LLM Decodificatori:
- Generico: Gemma 2 (2B/9B), Qwen3-8B
- Specifico per l'Ebraico: DictaLM2.0
- Precisione macro, Richiamo, Punteggio F1
- Punteggio F1 per ogni categoria di identità
Prestazioni Migliori: DictaLM2.0 raggiunge F1 macro = 0,743, significativamente superiore ai modelli codificatori
| Tipo di Modello | Miglior Modello | F1 Macro |
|---|
| LLM Decodificatore | DictaLM2.0 | 0,743 |
| Codificatore Multilingue | DictaBERT-Large | 0,678 |
| Codificatore Monolingue | DictaBERT-Large | 0,659 |
| Base | LinearSVC | 0,361 |
- Vantaggio dei Modelli Specifici per la Lingua: DictaLM2.0 ottimizzato per l'ebraico ha le migliori prestazioni su 8/12 categorie di identità
- Efficacia dell'Apprendimento Multilingue: I codificatori multilingue superano la combinazione monolingue (0,678 vs 0,659)
- Vantaggio dei Decodificatori: I metodi generativi hanno prestazioni migliori su compiti multilingue
Il test su 500 frasi di discorsi parlamentari mostra F1 macro = 0,72, comparabile alle prestazioni su dati Facebook, dimostrando la capacità di generalizzazione cross-dominio del modello.
L'analisi di correlazione con l'indagine di esperti CHES-Israel mostra che 16 su 21 correlazioni sono significative al livello p ≤ 0,1, 13 al livello p ≤ 0,05, con coefficienti di correlazione che vanno da |r| = 0,71 a 0,94.
- Coerenza Cross-Piattaforma: Le identità di orientamento sociale, destra e democratica sono universalmente popolari tra le fonti di dati
- Differenze di Piattaforma: Le identità di onestà e sionismo sono più popolari tra il pubblico, mentre l'orientamento sociale è più prominente nel parlamento
- Effetto del Ciclo Elettorale: Il discorso relativo all'identità raggiunge il picco in tre delle quattro elezioni
- Differenziazione Elite-Pubblico:
- Identità di Orientamento Sociale: Diminuzione dell'identificazione pubblica, aumento dell'uso politico
- Identità di Onestà e Democrazia: Aumento dell'identificazione pubblica, diminuzione nel discorso d'élite
L'analisi fattoriale rivela la principale differenziazione sinistra-destra:
- Cluster di Sinistra: Sinistra, Democratico, Onestà, Liberale, Palestinese
- Cluster di Destra: Destra, Conservatore, Sionista, Orientamento Sicurezza, Capitalista, Ultraortodosso
- Intensità di Espressione di Identità: Le donne esprimono più identità in tutte le fonti di dati
- Preferenze di Identità:
- Tendenza Maschile: Destra, Orientamento Sicurezza, Capitalista, Ultraortodosso
- Tendenza Femminile: L'identità di orientamento sociale è significativamente preferita dalle donne su tutte le piattaforme
- Dataset GRIT (italiano): Annotazione di menzioni di gruppi sociali in testi di notizie e parlamentari
- Dibattiti Parlamentari Britannici: Quantificazione della frequenza con cui i politici menzionano specifici gruppi sociali
- Corpus Us vs. Them: Annotazione di gruppo target, posizione e sentimento in commenti Reddit
- Discorsi del Congresso Americano: Classificazione del sentimento e analisi del framework del discorso sull'immigrazione di 140 anni
- Metodi Tradizionali: Classificazione sinistra-destra basata su SVM e reti neurali
- Metodi Moderni: Scoring ideologico zero-shot utilizzando LLM
- I modelli specifici per l'ebraico superano significativamente i modelli multilingue generici nel compito di rilevamento delle identità sociali
- Il metodo di apprendimento multilingue può catturare meglio la complessità dell'espressione di identità
- Il framework di annotazione basato su dati di indagine fornisce un metodo culturalmente sensibile per la selezione di categorie di identità
- L'analisi cross-piattaforma rivela importanti differenze tra il discorso d'élite e l'identificazione pubblica
- Portata Temporale e di Piattaforma: I dati sono limitati a un periodo specifico, non coprono altre piattaforme come Twitter
- Limitazioni della Popolazione di Indagine: Include solo cittadini ebrei, mancanza di rappresentazione di cittadini arabi
- Granularità di Annotazione: La soglia del 5% potrebbe perdere identità importanti ma a bassa frequenza
- Bias del Modello: Il classificatore potrebbe ereditare bias dai dati di addestramento e dai modelli pre-addestrati
- Estensione a più piattaforme e periodi temporali
- Inclusione di campioni di popolazione più diversificati
- Sviluppo di metodi per ridurre il bias del modello
- Esplorazione dell'annotazione dinamica di categorie di identità emergenti
- Innovazione Metodologica: Prima integrazione di dati di indagine su larga scala con annotazione testuale, fornendo un framework di ricerca culturalmente sensibile
- Contributo Tecnico: Stabilimento di forti baseline su lingue a bassa risorsa, dimostrando l'importanza dei modelli specifici per la lingua
- Completezza Sperimentale: Copertura di molteplici tipi di modelli, valutazione cross-dominio e validazione esterna
- Valore di Scienze Sociali: Fornisce approfondimenti approfonditi sulla dinamica del discorso politico e dell'identità
- Rappresentatività dei Dati: Le limitazioni del campione di indagine potrebbero influenzare l'universalità delle categorie di identità
- Coerenza di Annotazione: Alcuni valori κ di categoria sono relativamente bassi (ad es. Conservatore: 0,705)
- Portata di Valutazione: La valutazione cross-dominio si basa solo su 500 campioni, potrebbe essere insufficiente
- Valore Accademico: Fornisce risorse importanti per la scienza computazionale sociale e l'NLP multilingue
- Valore Pratico: Applicabile all'analisi della comunicazione politica, monitoraggio dell'opinione pubblica e altre applicazioni
- Contributo Metodologico: Fornisce un modello per ricerche simili in altri contesti politici non anglofoni
- Ricerca sulla comunicazione politica
- Analisi delle identità sociali
- Analisi del sentimento multilingue
- Monitoraggio del discorso politico
- Ricerca comparativa cross-culturale
Questo articolo cita letteratura importante da molteplici discipline, inclusa la teoria dell'identità sociale, la linguistica computazionale e la comunicazione politica, con particolare attenzione alla teoria integrata del conflitto intergruppo di Tajfel e Turner (1979) come base teorica, nonché ai recenti risultati della ricerca NLP nel rilevamento di menzioni di gruppi, analisi di cornici e altri aspetti.
Valutazione Complessiva: Questa è una ricerca di alta qualità interdisciplinare con importanti contributi in metodologia, implementazione tecnica e approfondimenti di scienze sociali. La ricerca colma il vuoto nell'analisi del testo politico in lingua ebraica, fornendo contributi preziosi allo sviluppo dell'NLP multilingue e della scienza computazionale sociale.