2025-11-17T07:13:12.902991

HebID: Detecting Social Identities in Hebrew-language Political Text

Mor-Lan, Rivlin-Angert, Kaplan et al.

Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.

academic

HebID: Rilevamento delle Identità Sociali nel Testo Politico in Lingua Ebraica

Informazioni Fondamentali

ID Articolo: 2508.15483
Titolo: HebID: Detecting Social Identities in Hebrew-language Political Text
Autori: Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
Classificazione: cs.CL (Linguistica Computazionale)
Data di Pubblicazione: preprint arXiv, 12 ottobre 2025
Link Articolo: https://arxiv.org/abs/2508.15483

Riassunto

Il linguaggio politico è strettamente correlato alle identità sociali. Sebbene le identità sociali siano spesso plasmate da specifici contesti culturali, i dataset NLP esistenti sono principalmente incentrati sulla lingua inglese, utilizzano classificazione a etichetta singola e si concentrano su categorie di identità a granularità grossolana. Questo articolo introduce HebID, il primo corpus multilingue ebraico per il rilevamento delle identità sociali, contenente 5.536 frasi provenienti da post Facebook di politici israeliani (dicembre 2018 - aprile 2021), annotate manualmente con 12 identità sociali a granularità fine (come destra, ultraortodossi, orientamento sociale) sulla base di dati di indagine. Lo studio confronta codificatori multilingue e monolingue, nonché modelli linguistici generativi di grandi dimensioni con 2B-9B parametri, scoprendo che gli LLM ottimizzati per l'ebraico hanno le migliori prestazioni (F1 macro = 0,74).

Contesto di Ricerca e Motivazione

Descrizione del Problema

Squilibrio nelle Risorse Linguistiche: Le risorse esistenti per il rilevamento delle identità sociali sono quasi interamente incentrate sull'inglese, con scarso supporto per contesti politici non anglofoni
Granularità di Annotazione Grossolana: I dataset esistenti si concentrano principalmente su categorie a granularità grossolana (come partito o razza), incapaci di catturare il discorso politico complesso
Limitazione a Etichetta Singola: La maggior parte dei dataset utilizza classificazione a etichetta singola, incapace di gestire la realtà di espressioni di identità multiple
Assenza di Contesto Culturale: Mancanza di selezione di categorie di identità basata su contesti culturali specifici e indagini empiriche

Importanza della Ricerca

Le identità sociali sono fattori determinanti importanti del comportamento politico e del discorso pubblico
L'ebraico, come lingua a bassa risorsa, è sottorappresentato nella ricerca NLP
La complessità dell'ambiente politico israeliano fornisce uno scenario ideale per lo studio dell'espressione di identità multidimensionale

Limitazioni degli Approcci Esistenti

Rilevamento di Menzioni di Gruppi: Limitato a menzioni di gruppi esplicite, incapace di catturare espressioni di identità implicite
Analisi di Cornici e Posizioni: Si concentra principalmente su posizioni o cornici a etichetta singola, con scarso supporto per categorie di identità multilingue
Inferenza Ideologica: Può solo inferire tendenze ideologiche generali, incapace di rilevare menzioni di identità esplicite

Contributi Fondamentali

Dataset Innovativo: Costruzione del primo dataset pubblico multilingue ebraico per il rilevamento delle identità sociali
Metodologia Guidata da Indagini: Stabilimento di un framework basato su dati di indagine su larga scala per guidare l'annotazione testuale
Benchmark Completo: Valutazione delle prestazioni di modelli codificatori e decodificatori su questo compito
Valutazione Cross-Dominio: Verifica della capacità di generalizzazione del modello su dati di discorsi parlamentari
Validazione Esterna: Verifica dell'efficacia del classificatore attraverso l'indagine di esperti CHES-Israel
Analisi Sociolinguistica: Rivelazione delle differenze nella dinamica delle identità tra diverse piattaforme e popolazioni

Dettagli Metodologici

Definizione del Compito

Input: Frase in lingua ebraica Output: Risultati di classificazione binaria multilingue per 12 identità sociali Obiettivo: Determinare quali identità sociali sono espresse positivamente o citate nella frase data

Metodo di Selezione delle Categorie di Identità

Base di Indagine: Basato su 12 ondate di indagine panel rappresentativa (N=1.769), che copre gennaio 2019 - aprile 2021
Guida di Esperti: 28 identità candidate selezionate da un panel di esperti di politica israeliana
Filtraggio per Soglia: Selezione di 12 identità che superano costantemente la soglia di selezione del 5% nelle prime 5 ondate di indagine

Schema di Annotazione

12 Categorie di Identità Sociale:

Ideologia: Destra, Sinistra, Conservatore, Liberale
Economia: Capitalista, Orientamento Sociale
Valori Politici: Democratico, Onestà
Cultura Religiosa: Sionista, Ultraortodosso
Gruppo: Palestinesi e Cittadini Arabi Israeliani, Orientamento Sicurezza

Principi di Annotazione:

Annotazione solo di identità espresse positivamente
Supporto per classificazione multilingue
Basato su contenuto piuttosto che identità del parlante

Costruzione del Dataset

Fonte: Post Facebook di deputati israeliani, partiti e candidati
Intervallo Temporale: Dicembre 2018 - aprile 2021
Scala: 5.536 frasi campionate da 64K post (375K frasi)
Accordo Inter-Annotatore: Cohen's κ medio = 0,77

Configurazione Sperimentale

Divisione del Dataset

Set di Addestramento: 70% (3.875 frasi)
Set di Validazione: 15% (830 frasi)
Set di Test: 15% (831 frasi)

Tipi di Modelli

Modelli di Base: Regressione Logistica e LinearSVC (caratteristiche TF-IDF)
Codificatori Multilingue: Apprendimento congiunto di 12 etichette di identità
Codificatori Monolingue: Fine-tuning separato per ogni etichetta
LLM Decodificatori: Generazione di elenchi di etichette separate da virgole

Modelli Valutati

Modelli Codificatori:

Multilingue: mBERT
Specifico per l'Ebraico: AlephBERT, HERO, DictaBERT (base/large)

LLM Decodificatori:

Generico: Gemma 2 (2B/9B), Qwen3-8B
Specifico per l'Ebraico: DictaLM2.0

Metriche di Valutazione

Precisione macro, Richiamo, Punteggio F1
Punteggio F1 per ogni categoria di identità

Risultati Sperimentali

Risultati Principali

Prestazioni Migliori: DictaLM2.0 raggiunge F1 macro = 0,743, significativamente superiore ai modelli codificatori

Tipo di Modello	Miglior Modello	F1 Macro
LLM Decodificatore	DictaLM2.0	0,743
Codificatore Multilingue	DictaBERT-Large	0,678
Codificatore Monolingue	DictaBERT-Large	0,659
Base	LinearSVC	0,361

Scoperte Chiave

Vantaggio dei Modelli Specifici per la Lingua: DictaLM2.0 ottimizzato per l'ebraico ha le migliori prestazioni su 8/12 categorie di identità
Efficacia dell'Apprendimento Multilingue: I codificatori multilingue superano la combinazione monolingue (0,678 vs 0,659)
Vantaggio dei Decodificatori: I metodi generativi hanno prestazioni migliori su compiti multilingue

Generalizzazione Cross-Dominio

Il test su 500 frasi di discorsi parlamentari mostra F1 macro = 0,72, comparabile alle prestazioni su dati Facebook, dimostrando la capacità di generalizzazione cross-dominio del modello.

Validazione Esterna

L'analisi di correlazione con l'indagine di esperti CHES-Israel mostra che 16 su 21 correlazioni sono significative al livello p ≤ 0,1, 13 al livello p ≤ 0,05, con coefficienti di correlazione che vanno da |r| = 0,71 a 0,94.

Analisi Sociolinguistica

Confronto della Popolarità delle Identità

Coerenza Cross-Piattaforma: Le identità di orientamento sociale, destra e democratica sono universalmente popolari tra le fonti di dati
Differenze di Piattaforma: Le identità di onestà e sionismo sono più popolari tra il pubblico, mentre l'orientamento sociale è più prominente nel parlamento

Analisi delle Tendenze Temporali

Effetto del Ciclo Elettorale: Il discorso relativo all'identità raggiunge il picco in tre delle quattro elezioni
Differenziazione Elite-Pubblico:
- Identità di Orientamento Sociale: Diminuzione dell'identificazione pubblica, aumento dell'uso politico
- Identità di Onestà e Democrazia: Aumento dell'identificazione pubblica, diminuzione nel discorso d'élite

Modelli di Clustering di Identità

L'analisi fattoriale rivela la principale differenziazione sinistra-destra:

Cluster di Sinistra: Sinistra, Democratico, Onestà, Liberale, Palestinese
Cluster di Destra: Destra, Conservatore, Sionista, Orientamento Sicurezza, Capitalista, Ultraortodosso

Differenze di Genere

Intensità di Espressione di Identità: Le donne esprimono più identità in tutte le fonti di dati
Preferenze di Identità:
- Tendenza Maschile: Destra, Orientamento Sicurezza, Capitalista, Ultraortodosso
- Tendenza Femminile: L'identità di orientamento sociale è significativamente preferita dalle donne su tutte le piattaforme

Lavori Correlati

Rilevamento di Menzioni di Gruppi

Dataset GRIT (italiano): Annotazione di menzioni di gruppi sociali in testi di notizie e parlamentari
Dibattiti Parlamentari Britannici: Quantificazione della frequenza con cui i politici menzionano specifici gruppi sociali

Analisi di Cornici e Posizioni

Corpus Us vs. Them: Annotazione di gruppo target, posizione e sentimento in commenti Reddit
Discorsi del Congresso Americano: Classificazione del sentimento e analisi del framework del discorso sull'immigrazione di 140 anni

Inferenza Ideologica

Metodi Tradizionali: Classificazione sinistra-destra basata su SVM e reti neurali
Metodi Moderni: Scoring ideologico zero-shot utilizzando LLM

Conclusioni e Discussione

Conclusioni Principali

I modelli specifici per l'ebraico superano significativamente i modelli multilingue generici nel compito di rilevamento delle identità sociali
Il metodo di apprendimento multilingue può catturare meglio la complessità dell'espressione di identità
Il framework di annotazione basato su dati di indagine fornisce un metodo culturalmente sensibile per la selezione di categorie di identità
L'analisi cross-piattaforma rivela importanti differenze tra il discorso d'élite e l'identificazione pubblica

Limitazioni

Portata Temporale e di Piattaforma: I dati sono limitati a un periodo specifico, non coprono altre piattaforme come Twitter
Limitazioni della Popolazione di Indagine: Include solo cittadini ebrei, mancanza di rappresentazione di cittadini arabi
Granularità di Annotazione: La soglia del 5% potrebbe perdere identità importanti ma a bassa frequenza
Bias del Modello: Il classificatore potrebbe ereditare bias dai dati di addestramento e dai modelli pre-addestrati

Direzioni Future

Estensione a più piattaforme e periodi temporali
Inclusione di campioni di popolazione più diversificati
Sviluppo di metodi per ridurre il bias del modello
Esplorazione dell'annotazione dinamica di categorie di identità emergenti

Valutazione Approfondita

Punti di Forza

Innovazione Metodologica: Prima integrazione di dati di indagine su larga scala con annotazione testuale, fornendo un framework di ricerca culturalmente sensibile
Contributo Tecnico: Stabilimento di forti baseline su lingue a bassa risorsa, dimostrando l'importanza dei modelli specifici per la lingua
Completezza Sperimentale: Copertura di molteplici tipi di modelli, valutazione cross-dominio e validazione esterna
Valore di Scienze Sociali: Fornisce approfondimenti approfonditi sulla dinamica del discorso politico e dell'identità

Insufficienze

Rappresentatività dei Dati: Le limitazioni del campione di indagine potrebbero influenzare l'universalità delle categorie di identità
Coerenza di Annotazione: Alcuni valori κ di categoria sono relativamente bassi (ad es. Conservatore: 0,705)
Portata di Valutazione: La valutazione cross-dominio si basa solo su 500 campioni, potrebbe essere insufficiente

Impatto

Valore Accademico: Fornisce risorse importanti per la scienza computazionale sociale e l'NLP multilingue
Valore Pratico: Applicabile all'analisi della comunicazione politica, monitoraggio dell'opinione pubblica e altre applicazioni
Contributo Metodologico: Fornisce un modello per ricerche simili in altri contesti politici non anglofoni

Scenari Applicabili

Ricerca sulla comunicazione politica
Analisi delle identità sociali
Analisi del sentimento multilingue
Monitoraggio del discorso politico
Ricerca comparativa cross-culturale

Bibliografia

Questo articolo cita letteratura importante da molteplici discipline, inclusa la teoria dell'identità sociale, la linguistica computazionale e la comunicazione politica, con particolare attenzione alla teoria integrata del conflitto intergruppo di Tajfel e Turner (1979) come base teorica, nonché ai recenti risultati della ricerca NLP nel rilevamento di menzioni di gruppi, analisi di cornici e altri aspetti.

Valutazione Complessiva: Questa è una ricerca di alta qualità interdisciplinare con importanti contributi in metodologia, implementazione tecnica e approfondimenti di scienze sociali. La ricerca colma il vuoto nell'analisi del testo politico in lingua ebraica, fornendo contributi preziosi allo sviluppo dell'NLP multilingue e della scienza computazionale sociale.