2025-11-17T07:13:12.902991

HebID: Detecting Social Identities in Hebrew-language Political Text

Mor-Lan, Rivlin-Angert, Kaplan et al.

Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.

academic

HebID: Erkennung sozialer Identitäten in hebräischsprachigen politischen Texten

Grundinformationen

Paper-ID: 2508.15483
Titel: HebID: Detecting Social Identities in Hebrew-language Political Text
Autoren: Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: arXiv preprint, 12. Oktober 2025
Paper-Link: https://arxiv.org/abs/2508.15483

Zusammenfassung

Politische Sprache steht in enger Beziehung zu sozialen Identitäten. Obwohl soziale Identitäten häufig durch spezifische kulturelle Kontexte geprägt werden, konzentrieren sich bestehende NLP-Datensätze hauptsächlich auf das Englische, verwenden Einzellabel-Klassifizierung und konzentrieren sich auf grobe Identitätskategorien. Dieser Artikel stellt HebID vor, ein erstes mehrsprachiges hebräisches Korpus zur Erkennung sozialer Identitäten mit 5.536 Sätzen aus Facebook-Beiträgen israelischer Politiker (Dezember 2018 – April 2021), die basierend auf Umfragedaten manuell mit 12 feingranularen sozialen Identitäten annotiert wurden (wie Rechtsflügel, ultraorthodox, sozial orientiert). Die Studie vergleicht mehrsprachige und einzelne Label-Encoder sowie generative große Sprachmodelle mit 2B-9B Parametern und stellt fest, dass hebräisch-optimierte LLMs die beste Leistung zeigen (Makro-Durchschnitt F1 = 0,74).

Forschungshintergrund und Motivation

Problembeschreibung

Unausgewogene Sprachressourcen: Bestehende Ressourcen zur Erkennung sozialer Identitäten sind fast ausschließlich auf das Englische ausgerichtet und unterstützen nicht-englische politische Kontexte unzureichend
Grobe Annotationsgranularität: Bestehende Datensätze konzentrieren sich hauptsächlich auf grobe Kategorien (wie Partei oder Rasse) und können die Komplexität politischen Diskurses nicht erfassen
Beschränkung auf Einzellabel: Die meisten Datensätze verwenden Einzellabel-Klassifizierung und können die Realität mehrfacher Identitätsausdrücke nicht bewältigen
Fehlender kultureller Kontext: Es fehlt an Identitätskategorien, die auf spezifischen kulturellen Hintergründen und empirischen Umfragen basieren

Forschungsbedeutung

Soziale Identität ist ein wichtiger Treiber für politisches Verhalten und öffentlichen Diskurs
Hebräisch als Sprache mit geringen Ressourcen ist in der NLP-Forschung unterrepräsentiert
Die Komplexität der israelischen politischen Umgebung bietet ein ideales Szenario für die Untersuchung mehrdimensionaler Identitätsausdrücke

Einschränkungen bestehender Methoden

Gruppennennungserkennung: Beschränkt auf explizite Gruppennennungen, kann implizite Identitätsausdrücke nicht erfassen
Rahmen- und Standpunktanalyse: Konzentriert sich hauptsächlich auf Einzellabel-Standpunkte oder Rahmen, unterstützt keine mehrsprachigen Identitätskategorien
Ideologie-Inferenz: Kann nur breite ideologische Tendenzen ableiten, nicht explizite Identitätsnennungen erkennen

Kernbeiträge

Bahnbrechender Datensatz: Erstellung des ersten öffentlichen hebräischen mehrsprachigen Datensatzes zur Erkennung sozialer Identitäten
Umfragegesteuerte Methodik: Etablierung eines Rahmens, der umfangreiche Umfragedaten zur Anleitung der Textannotation nutzt
Umfassende Benchmarking: Bewertung der Leistung von Encoder- und Decoder-Modellen bei dieser Aufgabe
Domänenübergreifende Bewertung: Validierung der Modellverallgemeinerung auf Parlamentsrededaten
Externe Validierung: Überprüfung der Klassifizierereffektivität durch die CHES-Israel-Expertenumfrage
Soziolinguistische Analyse: Offenlegung von Identitätsdynamiken in verschiedenen Plattformen und Bevölkerungsgruppen

Methodische Details

Aufgabendefinition

Eingabe: Hebräischer Satz Ausgabe: Mehrsprachige binäre Klassifizierungsergebnisse für 12 soziale Identitäten Ziel: Bestimmung, welche sozialen Identitäten in einem gegebenen Satz aktiv ausgedrückt oder erwähnt werden

Methode zur Auswahl von Identitätskategorien

Umfragebasis: Basierend auf 12 Wellen repräsentativer Panelumfragen (N=1.769), die von Januar 2019 bis April 2021 durchgeführt wurden
Expertenleitung: 28 Kandidatenidentitäten wurden von einem Gremium israelischer Politikexperten ausgewählt
Schwellenwertfilterung: Auswahl von 12 Identitäten, die in den ersten 5 Umfragewellen konsistent über der 5%-Schwelle lagen

Annotationsschema

12 Kategorien sozialer Identitäten:

Ideologie: Rechtsflügel, Linksflügel, Konservativ, Liberal
Wirtschaft: Kapitalistisch, Sozial orientiert
Politische Werte: Demokratisch, Ehrlich
Kulturell-religiös: Zionistisch, Ultraorthodox
Gruppen: Palästinenser und arabische israelische Bürger, Sicherheitsorientiert

Annotationsprinzipien:

Nur aktiv ausgedrückte Identitäten annotieren
Mehrsprachige Klassifizierung unterstützen
Basierend auf Inhalt, nicht auf Sprecheridentität

Datensatzkonstruktion

Quelle: Facebook-Beiträge israelischer Abgeordneter, Parteien und Kandidaten
Zeitraum: Dezember 2018 bis April 2021
Umfang: 5.536 Sätze aus 64K Beiträgen (375K Sätze) entnommen
Übereinstimmung zwischen Annotatoren: Durchschnittliches Cohen's κ = 0,77

Experimentelle Einrichtung

Datensatzteilung

Trainingssatz: 70% (3.875 Sätze)
Validierungssatz: 15% (830 Sätze)
Testsatz: 15% (831 Sätze)

Modelltypen

Baseline-Modelle: Logistische Regression und LinearSVC (TF-IDF-Merkmale)
Mehrsprachige Encoder: Gemeinsames Lernen von 12 Identitätslabeln
Einzellabel-Encoder: Separate Feinabstimmung für jedes Label
Decoder-LLM: Generierung kommagetrennte Labellisten

Bewertete Modelle

Encoder-Modelle:

Mehrsprachig: mBERT
Hebräisch-spezifisch: AlephBERT, HERO, DictaBERT (base/large)

Decoder-LLM:

Allgemein: Gemma 2 (2B/9B), Qwen3-8B
Hebräisch-spezifisch: DictaLM2.0

Bewertungsmetriken

Makro-Durchschnitt Präzision, Recall, F1-Score
F1-Score für jede Identitätskategorie

Experimentelle Ergebnisse

Hauptergebnisse

Beste Leistung: DictaLM2.0 erreicht Makro-Durchschnitt F1 = 0,743, deutlich besser als Encoder-Modelle

Modelltyp	Bestes Modell	Makro-Durchschnitt F1
Decoder-LLM	DictaLM2.0	0,743
Mehrsprachiger Encoder	DictaBERT-Large	0,678
Einzellabel-Encoder	DictaBERT-Large	0,659
Baseline	LinearSVC	0,361

Wichtigste Erkenntnisse

Vorteil sprachspezifischer Modelle: Hebräisch-optimiertes DictaLM2.0 zeigt beste Leistung bei 8/12 Identitätskategorien
Effektivität des mehrsprachigen Lernens: Mehrsprachige Encoder übertreffen Einzellabel-Kombinationen (0,678 vs. 0,659)
Vorteil von Decodern: Generative Methoden zeigen bessere Leistung bei mehrsprachigen Aufgaben

Domänenübergreifende Verallgemeinerung

Tests auf 500 Parlamentsreden-Sätzen zeigen Makro-Durchschnitt F1 = 0,72, vergleichbar mit Facebook-Daten-Leistung, was die domänenübergreifende Verallgemeinerungsfähigkeit des Modells belegt.

Externe Validierung

Korrelationsanalyse mit der CHES-Israel-Expertenumfrage zeigt, dass 16 von 21 Korrelationen auf p ≤ 0,1-Niveau signifikant sind, 13 auf p ≤ 0,05-Niveau signifikant, mit Korrelationskoeffizienten im Bereich |r| = 0,71 bis 0,94.

Soziolinguistische Analyse

Vergleich der Identitätspopularität

Plattformübergreifende Konsistenz: Sozial orientierte, Rechtsflügel- und demokratische Identitäten sind in allen Datenquellen weit verbreitet
Plattformunterschiede: Ehrliche und zionistische Identitäten sind in der Öffentlichkeit beliebter, sozial orientierte Identitäten sind im Parlament prominenter

Zeittrend-Analyse

Wahlzyklus-Effekt: Identitätsbezogene Diskurse erreichen in drei von vier Wahlen ihren Höhepunkt
Elite-Öffentlichkeits-Differenzierung:
- Sozial orientierte Identität: Öffentliche Zustimmung sinkt, Nutzung durch Politiker nimmt zu
- Ehrliche und demokratische Identitäten: Öffentliche Zustimmung steigt, Elite-Diskurs nimmt ab

Identitäts-Clustering-Muster

Faktorenanalyse offenbart die Hauptlinks-Rechts-Differenzierung:

Linkes Cluster: Linksflügel, Demokratisch, Ehrlich, Liberal, Palästinenser
Rechtes Cluster: Rechtsflügel, Konservativ, Zionistisch, Sicherheitsorientiert, Kapitalistisch, Ultraorthodox

Geschlechtsspezifische Unterschiede

Intensität des Identitätsausdrucks: Frauen drücken in allen Datenquellen mehr Identitäten aus
Identitätspräferenzen:
- Männliche Neigung: Rechtsflügel, Sicherheitsorientiert, Kapitalistisch, Ultraorthodox
- Weibliche Neigung: Sozial orientierte Identität ist auf allen Plattformen signifikant weiblich orientiert

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Hebräisch-spezifische Modelle übertreffen deutlich allgemeine mehrsprachige Modelle bei der Aufgabe der Erkennung sozialer Identitäten
Mehrsprachige Lernmethoden können die Komplexität von Identitätsausdrücken besser erfassen
Ein auf Umfragedaten basierendes Annotationsschema bietet eine kulturell sensible Methode zur Auswahl von Identitätskategorien
Plattformübergreifende Analysen offenbaren wichtige Unterschiede zwischen Elite-Diskurs und öffentlicher Zustimmung

Einschränkungen

Zeit- und Plattformbereich: Daten beschränkt auf bestimmte Zeiträume, keine Abdeckung anderer Plattformen wie Twitter
Umfrage-Bevölkerungsbeschränkung: Nur jüdische Bürger eingeschlossen, mangelnde Repräsentation arabischer Bürger
Annotationsgranularität: Basierend auf 5%-Schwelle können wichtige, aber seltene Identitäten übersehen werden
Modellverzerrung: Klassifizierer können Verzerrungen aus Trainingsdaten und vortrainierten Modellen erben

Zukünftige Richtungen

Erweiterung auf mehr Plattformen und Zeiträume
Einbeziehung vielfältigerer Bevölkerungsstichproben
Entwicklung von Methoden zur Verringerung von Modellverzerrungen
Erkundung dynamischer Annotation aufstrebender Identitätskategorien

Tiefgreifende Bewertung

Stärken

Methodische Innovation: Erstmalige Kombination umfangreicher Umfragedaten mit Textannotation, bietet einen kulturell sensiblen Forschungsrahmen
Technische Beiträge: Etablierung starker Baselines in Sprachen mit geringen Ressourcen, Nachweis der Bedeutung sprachspezifischer Modelle
Experimentelle Vollständigkeit: Abdeckung mehrerer Modelltypen, domänenübergreifende Bewertung und externe Validierung
Sozialwissenschaftlicher Wert: Bietet tiefe Einblicke in politischen Diskurs und Identitätsdynamiken

Mängel

Datenrepräsentativität: Einschränkungen der Umfragestichprobe können die Universalität von Identitätskategorien beeinflussen
Annotationskonsistenz: Einige Kategorien weisen relativ niedrige κ-Werte auf (z.B. Konservativ: 0,705)
Bewertungsumfang: Domänenübergreifende Bewertung basiert nur auf 500 Stichproben, möglicherweise unzureichend

Auswirkungen

Akademischer Wert: Bietet wichtige Ressourcen für Computersozialwissenschaften und mehrsprachige NLP
Praktischer Wert: Anwendbar auf Politische-Kommunikations-Analyse, Meinungsüberwachung usw.
Methodologischer Beitrag: Bietet Vorlage für ähnliche Forschung in anderen nicht-englischen politischen Kontexten

Anwendungsszenarien

Politische Kommunikationsforschung
Analyse sozialer Identitäten
Mehrsprachige Sentiment-Analyse
Politische Diskurs-Überwachung
Interkulturelle Vergleichsforschung

Literaturverzeichnis

Dieser Artikel zitiert wichtige Literatur aus mehreren Bereichen wie Soziale-Identitäts-Theorie, Computerlinguistik und Politische Kommunikationswissenschaft, insbesondere Tajfel and Turner (1979) Integrierte Theorie intergruppaler Konflikte als theoretische Grundlage sowie aktuelle NLP-Forschungsergebnisse in Gruppennennungserkennung und Rahmenanalyse.

Gesamtbewertung: Dies ist hochwertige interdisziplinäre Forschung mit wichtigen Beiträgen in Methodik, technischer Implementierung und sozialwissenschaftlichen Erkenntnissen. Die Forschung schließt eine Lücke in der hebräischsprachigen Politiktextanalyse und leistet wertvolle Beiträge zur Entwicklung mehrsprachiger NLP und Computersozialwissenschaften.