Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.
- Paper-ID: 2508.15483
- Titel: HebID: Detecting Social Identities in Hebrew-language Political Text
- Autoren: Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
- Klassifizierung: cs.CL (Computerlinguistik)
- Veröffentlichungsdatum: arXiv preprint, 12. Oktober 2025
- Paper-Link: https://arxiv.org/abs/2508.15483
Politische Sprache steht in enger Beziehung zu sozialen Identitäten. Obwohl soziale Identitäten häufig durch spezifische kulturelle Kontexte geprägt werden, konzentrieren sich bestehende NLP-Datensätze hauptsächlich auf das Englische, verwenden Einzellabel-Klassifizierung und konzentrieren sich auf grobe Identitätskategorien. Dieser Artikel stellt HebID vor, ein erstes mehrsprachiges hebräisches Korpus zur Erkennung sozialer Identitäten mit 5.536 Sätzen aus Facebook-Beiträgen israelischer Politiker (Dezember 2018 – April 2021), die basierend auf Umfragedaten manuell mit 12 feingranularen sozialen Identitäten annotiert wurden (wie Rechtsflügel, ultraorthodox, sozial orientiert). Die Studie vergleicht mehrsprachige und einzelne Label-Encoder sowie generative große Sprachmodelle mit 2B-9B Parametern und stellt fest, dass hebräisch-optimierte LLMs die beste Leistung zeigen (Makro-Durchschnitt F1 = 0,74).
- Unausgewogene Sprachressourcen: Bestehende Ressourcen zur Erkennung sozialer Identitäten sind fast ausschließlich auf das Englische ausgerichtet und unterstützen nicht-englische politische Kontexte unzureichend
- Grobe Annotationsgranularität: Bestehende Datensätze konzentrieren sich hauptsächlich auf grobe Kategorien (wie Partei oder Rasse) und können die Komplexität politischen Diskurses nicht erfassen
- Beschränkung auf Einzellabel: Die meisten Datensätze verwenden Einzellabel-Klassifizierung und können die Realität mehrfacher Identitätsausdrücke nicht bewältigen
- Fehlender kultureller Kontext: Es fehlt an Identitätskategorien, die auf spezifischen kulturellen Hintergründen und empirischen Umfragen basieren
- Soziale Identität ist ein wichtiger Treiber für politisches Verhalten und öffentlichen Diskurs
- Hebräisch als Sprache mit geringen Ressourcen ist in der NLP-Forschung unterrepräsentiert
- Die Komplexität der israelischen politischen Umgebung bietet ein ideales Szenario für die Untersuchung mehrdimensionaler Identitätsausdrücke
- Gruppennennungserkennung: Beschränkt auf explizite Gruppennennungen, kann implizite Identitätsausdrücke nicht erfassen
- Rahmen- und Standpunktanalyse: Konzentriert sich hauptsächlich auf Einzellabel-Standpunkte oder Rahmen, unterstützt keine mehrsprachigen Identitätskategorien
- Ideologie-Inferenz: Kann nur breite ideologische Tendenzen ableiten, nicht explizite Identitätsnennungen erkennen
- Bahnbrechender Datensatz: Erstellung des ersten öffentlichen hebräischen mehrsprachigen Datensatzes zur Erkennung sozialer Identitäten
- Umfragegesteuerte Methodik: Etablierung eines Rahmens, der umfangreiche Umfragedaten zur Anleitung der Textannotation nutzt
- Umfassende Benchmarking: Bewertung der Leistung von Encoder- und Decoder-Modellen bei dieser Aufgabe
- Domänenübergreifende Bewertung: Validierung der Modellverallgemeinerung auf Parlamentsrededaten
- Externe Validierung: Überprüfung der Klassifizierereffektivität durch die CHES-Israel-Expertenumfrage
- Soziolinguistische Analyse: Offenlegung von Identitätsdynamiken in verschiedenen Plattformen und Bevölkerungsgruppen
Eingabe: Hebräischer Satz
Ausgabe: Mehrsprachige binäre Klassifizierungsergebnisse für 12 soziale Identitäten
Ziel: Bestimmung, welche sozialen Identitäten in einem gegebenen Satz aktiv ausgedrückt oder erwähnt werden
- Umfragebasis: Basierend auf 12 Wellen repräsentativer Panelumfragen (N=1.769), die von Januar 2019 bis April 2021 durchgeführt wurden
- Expertenleitung: 28 Kandidatenidentitäten wurden von einem Gremium israelischer Politikexperten ausgewählt
- Schwellenwertfilterung: Auswahl von 12 Identitäten, die in den ersten 5 Umfragewellen konsistent über der 5%-Schwelle lagen
12 Kategorien sozialer Identitäten:
- Ideologie: Rechtsflügel, Linksflügel, Konservativ, Liberal
- Wirtschaft: Kapitalistisch, Sozial orientiert
- Politische Werte: Demokratisch, Ehrlich
- Kulturell-religiös: Zionistisch, Ultraorthodox
- Gruppen: Palästinenser und arabische israelische Bürger, Sicherheitsorientiert
Annotationsprinzipien:
- Nur aktiv ausgedrückte Identitäten annotieren
- Mehrsprachige Klassifizierung unterstützen
- Basierend auf Inhalt, nicht auf Sprecheridentität
- Quelle: Facebook-Beiträge israelischer Abgeordneter, Parteien und Kandidaten
- Zeitraum: Dezember 2018 bis April 2021
- Umfang: 5.536 Sätze aus 64K Beiträgen (375K Sätze) entnommen
- Übereinstimmung zwischen Annotatoren: Durchschnittliches Cohen's κ = 0,77
- Trainingssatz: 70% (3.875 Sätze)
- Validierungssatz: 15% (830 Sätze)
- Testsatz: 15% (831 Sätze)
- Baseline-Modelle: Logistische Regression und LinearSVC (TF-IDF-Merkmale)
- Mehrsprachige Encoder: Gemeinsames Lernen von 12 Identitätslabeln
- Einzellabel-Encoder: Separate Feinabstimmung für jedes Label
- Decoder-LLM: Generierung kommagetrennte Labellisten
Encoder-Modelle:
- Mehrsprachig: mBERT
- Hebräisch-spezifisch: AlephBERT, HERO, DictaBERT (base/large)
Decoder-LLM:
- Allgemein: Gemma 2 (2B/9B), Qwen3-8B
- Hebräisch-spezifisch: DictaLM2.0
- Makro-Durchschnitt Präzision, Recall, F1-Score
- F1-Score für jede Identitätskategorie
Beste Leistung: DictaLM2.0 erreicht Makro-Durchschnitt F1 = 0,743, deutlich besser als Encoder-Modelle
| Modelltyp | Bestes Modell | Makro-Durchschnitt F1 |
|---|
| Decoder-LLM | DictaLM2.0 | 0,743 |
| Mehrsprachiger Encoder | DictaBERT-Large | 0,678 |
| Einzellabel-Encoder | DictaBERT-Large | 0,659 |
| Baseline | LinearSVC | 0,361 |
- Vorteil sprachspezifischer Modelle: Hebräisch-optimiertes DictaLM2.0 zeigt beste Leistung bei 8/12 Identitätskategorien
- Effektivität des mehrsprachigen Lernens: Mehrsprachige Encoder übertreffen Einzellabel-Kombinationen (0,678 vs. 0,659)
- Vorteil von Decodern: Generative Methoden zeigen bessere Leistung bei mehrsprachigen Aufgaben
Tests auf 500 Parlamentsreden-Sätzen zeigen Makro-Durchschnitt F1 = 0,72, vergleichbar mit Facebook-Daten-Leistung, was die domänenübergreifende Verallgemeinerungsfähigkeit des Modells belegt.
Korrelationsanalyse mit der CHES-Israel-Expertenumfrage zeigt, dass 16 von 21 Korrelationen auf p ≤ 0,1-Niveau signifikant sind, 13 auf p ≤ 0,05-Niveau signifikant, mit Korrelationskoeffizienten im Bereich |r| = 0,71 bis 0,94.
- Plattformübergreifende Konsistenz: Sozial orientierte, Rechtsflügel- und demokratische Identitäten sind in allen Datenquellen weit verbreitet
- Plattformunterschiede: Ehrliche und zionistische Identitäten sind in der Öffentlichkeit beliebter, sozial orientierte Identitäten sind im Parlament prominenter
- Wahlzyklus-Effekt: Identitätsbezogene Diskurse erreichen in drei von vier Wahlen ihren Höhepunkt
- Elite-Öffentlichkeits-Differenzierung:
- Sozial orientierte Identität: Öffentliche Zustimmung sinkt, Nutzung durch Politiker nimmt zu
- Ehrliche und demokratische Identitäten: Öffentliche Zustimmung steigt, Elite-Diskurs nimmt ab
Faktorenanalyse offenbart die Hauptlinks-Rechts-Differenzierung:
- Linkes Cluster: Linksflügel, Demokratisch, Ehrlich, Liberal, Palästinenser
- Rechtes Cluster: Rechtsflügel, Konservativ, Zionistisch, Sicherheitsorientiert, Kapitalistisch, Ultraorthodox
- Intensität des Identitätsausdrucks: Frauen drücken in allen Datenquellen mehr Identitäten aus
- Identitätspräferenzen:
- Männliche Neigung: Rechtsflügel, Sicherheitsorientiert, Kapitalistisch, Ultraorthodox
- Weibliche Neigung: Sozial orientierte Identität ist auf allen Plattformen signifikant weiblich orientiert
- GRIT-Datensatz (Italienisch): Annotation sozialer Gruppennennungen in Nachrichten- und Parlamentstexten
- Britische Parlamentsdebatten: Quantifizierung der Häufigkeit, mit der Politiker bestimmte soziale Gruppen erwähnen
- Us vs. Them-Korpus: Zielgruppe, Standpunkt und Sentiment-Annotation von Reddit-Kommentaren
- US-Kongressreden: Sentiment-Klassifizierung und Rahmenanalyse von 140 Jahren Einwanderungsdiskurs
- Traditionelle Methoden: Links-Rechts-Standpunkt-Klassifizierung basierend auf SVM und neuronalen Netzen
- Moderne Methoden: Ideologie-Scoring mit LLM ohne Beispiele
- Hebräisch-spezifische Modelle übertreffen deutlich allgemeine mehrsprachige Modelle bei der Aufgabe der Erkennung sozialer Identitäten
- Mehrsprachige Lernmethoden können die Komplexität von Identitätsausdrücken besser erfassen
- Ein auf Umfragedaten basierendes Annotationsschema bietet eine kulturell sensible Methode zur Auswahl von Identitätskategorien
- Plattformübergreifende Analysen offenbaren wichtige Unterschiede zwischen Elite-Diskurs und öffentlicher Zustimmung
- Zeit- und Plattformbereich: Daten beschränkt auf bestimmte Zeiträume, keine Abdeckung anderer Plattformen wie Twitter
- Umfrage-Bevölkerungsbeschränkung: Nur jüdische Bürger eingeschlossen, mangelnde Repräsentation arabischer Bürger
- Annotationsgranularität: Basierend auf 5%-Schwelle können wichtige, aber seltene Identitäten übersehen werden
- Modellverzerrung: Klassifizierer können Verzerrungen aus Trainingsdaten und vortrainierten Modellen erben
- Erweiterung auf mehr Plattformen und Zeiträume
- Einbeziehung vielfältigerer Bevölkerungsstichproben
- Entwicklung von Methoden zur Verringerung von Modellverzerrungen
- Erkundung dynamischer Annotation aufstrebender Identitätskategorien
- Methodische Innovation: Erstmalige Kombination umfangreicher Umfragedaten mit Textannotation, bietet einen kulturell sensiblen Forschungsrahmen
- Technische Beiträge: Etablierung starker Baselines in Sprachen mit geringen Ressourcen, Nachweis der Bedeutung sprachspezifischer Modelle
- Experimentelle Vollständigkeit: Abdeckung mehrerer Modelltypen, domänenübergreifende Bewertung und externe Validierung
- Sozialwissenschaftlicher Wert: Bietet tiefe Einblicke in politischen Diskurs und Identitätsdynamiken
- Datenrepräsentativität: Einschränkungen der Umfragestichprobe können die Universalität von Identitätskategorien beeinflussen
- Annotationskonsistenz: Einige Kategorien weisen relativ niedrige κ-Werte auf (z.B. Konservativ: 0,705)
- Bewertungsumfang: Domänenübergreifende Bewertung basiert nur auf 500 Stichproben, möglicherweise unzureichend
- Akademischer Wert: Bietet wichtige Ressourcen für Computersozialwissenschaften und mehrsprachige NLP
- Praktischer Wert: Anwendbar auf Politische-Kommunikations-Analyse, Meinungsüberwachung usw.
- Methodologischer Beitrag: Bietet Vorlage für ähnliche Forschung in anderen nicht-englischen politischen Kontexten
- Politische Kommunikationsforschung
- Analyse sozialer Identitäten
- Mehrsprachige Sentiment-Analyse
- Politische Diskurs-Überwachung
- Interkulturelle Vergleichsforschung
Dieser Artikel zitiert wichtige Literatur aus mehreren Bereichen wie Soziale-Identitäts-Theorie, Computerlinguistik und Politische Kommunikationswissenschaft, insbesondere Tajfel and Turner (1979) Integrierte Theorie intergruppaler Konflikte als theoretische Grundlage sowie aktuelle NLP-Forschungsergebnisse in Gruppennennungserkennung und Rahmenanalyse.
Gesamtbewertung: Dies ist hochwertige interdisziplinäre Forschung mit wichtigen Beiträgen in Methodik, technischer Implementierung und sozialwissenschaftlichen Erkenntnissen. Die Forschung schließt eine Lücke in der hebräischsprachigen Politiktextanalyse und leistet wertvolle Beiträge zur Entwicklung mehrsprachiger NLP und Computersozialwissenschaften.