2025-11-17T07:13:12.902991

HebID: Detecting Social Identities in Hebrew-language Political Text

Mor-Lan, Rivlin-Angert, Kaplan et al.
Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.
academic

HebID: Erkennung sozialer Identitäten in hebräischsprachigen politischen Texten

Grundinformationen

  • Paper-ID: 2508.15483
  • Titel: HebID: Detecting Social Identities in Hebrew-language Political Text
  • Autoren: Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: arXiv preprint, 12. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2508.15483

Zusammenfassung

Politische Sprache steht in enger Beziehung zu sozialen Identitäten. Obwohl soziale Identitäten häufig durch spezifische kulturelle Kontexte geprägt werden, konzentrieren sich bestehende NLP-Datensätze hauptsächlich auf das Englische, verwenden Einzellabel-Klassifizierung und konzentrieren sich auf grobe Identitätskategorien. Dieser Artikel stellt HebID vor, ein erstes mehrsprachiges hebräisches Korpus zur Erkennung sozialer Identitäten mit 5.536 Sätzen aus Facebook-Beiträgen israelischer Politiker (Dezember 2018 – April 2021), die basierend auf Umfragedaten manuell mit 12 feingranularen sozialen Identitäten annotiert wurden (wie Rechtsflügel, ultraorthodox, sozial orientiert). Die Studie vergleicht mehrsprachige und einzelne Label-Encoder sowie generative große Sprachmodelle mit 2B-9B Parametern und stellt fest, dass hebräisch-optimierte LLMs die beste Leistung zeigen (Makro-Durchschnitt F1 = 0,74).

Forschungshintergrund und Motivation

Problembeschreibung

  1. Unausgewogene Sprachressourcen: Bestehende Ressourcen zur Erkennung sozialer Identitäten sind fast ausschließlich auf das Englische ausgerichtet und unterstützen nicht-englische politische Kontexte unzureichend
  2. Grobe Annotationsgranularität: Bestehende Datensätze konzentrieren sich hauptsächlich auf grobe Kategorien (wie Partei oder Rasse) und können die Komplexität politischen Diskurses nicht erfassen
  3. Beschränkung auf Einzellabel: Die meisten Datensätze verwenden Einzellabel-Klassifizierung und können die Realität mehrfacher Identitätsausdrücke nicht bewältigen
  4. Fehlender kultureller Kontext: Es fehlt an Identitätskategorien, die auf spezifischen kulturellen Hintergründen und empirischen Umfragen basieren

Forschungsbedeutung

  • Soziale Identität ist ein wichtiger Treiber für politisches Verhalten und öffentlichen Diskurs
  • Hebräisch als Sprache mit geringen Ressourcen ist in der NLP-Forschung unterrepräsentiert
  • Die Komplexität der israelischen politischen Umgebung bietet ein ideales Szenario für die Untersuchung mehrdimensionaler Identitätsausdrücke

Einschränkungen bestehender Methoden

  • Gruppennennungserkennung: Beschränkt auf explizite Gruppennennungen, kann implizite Identitätsausdrücke nicht erfassen
  • Rahmen- und Standpunktanalyse: Konzentriert sich hauptsächlich auf Einzellabel-Standpunkte oder Rahmen, unterstützt keine mehrsprachigen Identitätskategorien
  • Ideologie-Inferenz: Kann nur breite ideologische Tendenzen ableiten, nicht explizite Identitätsnennungen erkennen

Kernbeiträge

  1. Bahnbrechender Datensatz: Erstellung des ersten öffentlichen hebräischen mehrsprachigen Datensatzes zur Erkennung sozialer Identitäten
  2. Umfragegesteuerte Methodik: Etablierung eines Rahmens, der umfangreiche Umfragedaten zur Anleitung der Textannotation nutzt
  3. Umfassende Benchmarking: Bewertung der Leistung von Encoder- und Decoder-Modellen bei dieser Aufgabe
  4. Domänenübergreifende Bewertung: Validierung der Modellverallgemeinerung auf Parlamentsrededaten
  5. Externe Validierung: Überprüfung der Klassifizierereffektivität durch die CHES-Israel-Expertenumfrage
  6. Soziolinguistische Analyse: Offenlegung von Identitätsdynamiken in verschiedenen Plattformen und Bevölkerungsgruppen

Methodische Details

Aufgabendefinition

Eingabe: Hebräischer Satz Ausgabe: Mehrsprachige binäre Klassifizierungsergebnisse für 12 soziale Identitäten Ziel: Bestimmung, welche sozialen Identitäten in einem gegebenen Satz aktiv ausgedrückt oder erwähnt werden

Methode zur Auswahl von Identitätskategorien

  1. Umfragebasis: Basierend auf 12 Wellen repräsentativer Panelumfragen (N=1.769), die von Januar 2019 bis April 2021 durchgeführt wurden
  2. Expertenleitung: 28 Kandidatenidentitäten wurden von einem Gremium israelischer Politikexperten ausgewählt
  3. Schwellenwertfilterung: Auswahl von 12 Identitäten, die in den ersten 5 Umfragewellen konsistent über der 5%-Schwelle lagen

Annotationsschema

12 Kategorien sozialer Identitäten:

  • Ideologie: Rechtsflügel, Linksflügel, Konservativ, Liberal
  • Wirtschaft: Kapitalistisch, Sozial orientiert
  • Politische Werte: Demokratisch, Ehrlich
  • Kulturell-religiös: Zionistisch, Ultraorthodox
  • Gruppen: Palästinenser und arabische israelische Bürger, Sicherheitsorientiert

Annotationsprinzipien:

  • Nur aktiv ausgedrückte Identitäten annotieren
  • Mehrsprachige Klassifizierung unterstützen
  • Basierend auf Inhalt, nicht auf Sprecheridentität

Datensatzkonstruktion

  • Quelle: Facebook-Beiträge israelischer Abgeordneter, Parteien und Kandidaten
  • Zeitraum: Dezember 2018 bis April 2021
  • Umfang: 5.536 Sätze aus 64K Beiträgen (375K Sätze) entnommen
  • Übereinstimmung zwischen Annotatoren: Durchschnittliches Cohen's κ = 0,77

Experimentelle Einrichtung

Datensatzteilung

  • Trainingssatz: 70% (3.875 Sätze)
  • Validierungssatz: 15% (830 Sätze)
  • Testsatz: 15% (831 Sätze)

Modelltypen

  1. Baseline-Modelle: Logistische Regression und LinearSVC (TF-IDF-Merkmale)
  2. Mehrsprachige Encoder: Gemeinsames Lernen von 12 Identitätslabeln
  3. Einzellabel-Encoder: Separate Feinabstimmung für jedes Label
  4. Decoder-LLM: Generierung kommagetrennte Labellisten

Bewertete Modelle

Encoder-Modelle:

  • Mehrsprachig: mBERT
  • Hebräisch-spezifisch: AlephBERT, HERO, DictaBERT (base/large)

Decoder-LLM:

  • Allgemein: Gemma 2 (2B/9B), Qwen3-8B
  • Hebräisch-spezifisch: DictaLM2.0

Bewertungsmetriken

  • Makro-Durchschnitt Präzision, Recall, F1-Score
  • F1-Score für jede Identitätskategorie

Experimentelle Ergebnisse

Hauptergebnisse

Beste Leistung: DictaLM2.0 erreicht Makro-Durchschnitt F1 = 0,743, deutlich besser als Encoder-Modelle

ModelltypBestes ModellMakro-Durchschnitt F1
Decoder-LLMDictaLM2.00,743
Mehrsprachiger EncoderDictaBERT-Large0,678
Einzellabel-EncoderDictaBERT-Large0,659
BaselineLinearSVC0,361

Wichtigste Erkenntnisse

  1. Vorteil sprachspezifischer Modelle: Hebräisch-optimiertes DictaLM2.0 zeigt beste Leistung bei 8/12 Identitätskategorien
  2. Effektivität des mehrsprachigen Lernens: Mehrsprachige Encoder übertreffen Einzellabel-Kombinationen (0,678 vs. 0,659)
  3. Vorteil von Decodern: Generative Methoden zeigen bessere Leistung bei mehrsprachigen Aufgaben

Domänenübergreifende Verallgemeinerung

Tests auf 500 Parlamentsreden-Sätzen zeigen Makro-Durchschnitt F1 = 0,72, vergleichbar mit Facebook-Daten-Leistung, was die domänenübergreifende Verallgemeinerungsfähigkeit des Modells belegt.

Externe Validierung

Korrelationsanalyse mit der CHES-Israel-Expertenumfrage zeigt, dass 16 von 21 Korrelationen auf p ≤ 0,1-Niveau signifikant sind, 13 auf p ≤ 0,05-Niveau signifikant, mit Korrelationskoeffizienten im Bereich |r| = 0,71 bis 0,94.

Soziolinguistische Analyse

Vergleich der Identitätspopularität

  • Plattformübergreifende Konsistenz: Sozial orientierte, Rechtsflügel- und demokratische Identitäten sind in allen Datenquellen weit verbreitet
  • Plattformunterschiede: Ehrliche und zionistische Identitäten sind in der Öffentlichkeit beliebter, sozial orientierte Identitäten sind im Parlament prominenter

Zeittrend-Analyse

  • Wahlzyklus-Effekt: Identitätsbezogene Diskurse erreichen in drei von vier Wahlen ihren Höhepunkt
  • Elite-Öffentlichkeits-Differenzierung:
    • Sozial orientierte Identität: Öffentliche Zustimmung sinkt, Nutzung durch Politiker nimmt zu
    • Ehrliche und demokratische Identitäten: Öffentliche Zustimmung steigt, Elite-Diskurs nimmt ab

Identitäts-Clustering-Muster

Faktorenanalyse offenbart die Hauptlinks-Rechts-Differenzierung:

  • Linkes Cluster: Linksflügel, Demokratisch, Ehrlich, Liberal, Palästinenser
  • Rechtes Cluster: Rechtsflügel, Konservativ, Zionistisch, Sicherheitsorientiert, Kapitalistisch, Ultraorthodox

Geschlechtsspezifische Unterschiede

  • Intensität des Identitätsausdrucks: Frauen drücken in allen Datenquellen mehr Identitäten aus
  • Identitätspräferenzen:
    • Männliche Neigung: Rechtsflügel, Sicherheitsorientiert, Kapitalistisch, Ultraorthodox
    • Weibliche Neigung: Sozial orientierte Identität ist auf allen Plattformen signifikant weiblich orientiert

Verwandte Arbeiten

Gruppennennungserkennung

  • GRIT-Datensatz (Italienisch): Annotation sozialer Gruppennennungen in Nachrichten- und Parlamentstexten
  • Britische Parlamentsdebatten: Quantifizierung der Häufigkeit, mit der Politiker bestimmte soziale Gruppen erwähnen

Rahmen- und Standpunktanalyse

  • Us vs. Them-Korpus: Zielgruppe, Standpunkt und Sentiment-Annotation von Reddit-Kommentaren
  • US-Kongressreden: Sentiment-Klassifizierung und Rahmenanalyse von 140 Jahren Einwanderungsdiskurs

Ideologie-Inferenz

  • Traditionelle Methoden: Links-Rechts-Standpunkt-Klassifizierung basierend auf SVM und neuronalen Netzen
  • Moderne Methoden: Ideologie-Scoring mit LLM ohne Beispiele

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Hebräisch-spezifische Modelle übertreffen deutlich allgemeine mehrsprachige Modelle bei der Aufgabe der Erkennung sozialer Identitäten
  2. Mehrsprachige Lernmethoden können die Komplexität von Identitätsausdrücken besser erfassen
  3. Ein auf Umfragedaten basierendes Annotationsschema bietet eine kulturell sensible Methode zur Auswahl von Identitätskategorien
  4. Plattformübergreifende Analysen offenbaren wichtige Unterschiede zwischen Elite-Diskurs und öffentlicher Zustimmung

Einschränkungen

  1. Zeit- und Plattformbereich: Daten beschränkt auf bestimmte Zeiträume, keine Abdeckung anderer Plattformen wie Twitter
  2. Umfrage-Bevölkerungsbeschränkung: Nur jüdische Bürger eingeschlossen, mangelnde Repräsentation arabischer Bürger
  3. Annotationsgranularität: Basierend auf 5%-Schwelle können wichtige, aber seltene Identitäten übersehen werden
  4. Modellverzerrung: Klassifizierer können Verzerrungen aus Trainingsdaten und vortrainierten Modellen erben

Zukünftige Richtungen

  1. Erweiterung auf mehr Plattformen und Zeiträume
  2. Einbeziehung vielfältigerer Bevölkerungsstichproben
  3. Entwicklung von Methoden zur Verringerung von Modellverzerrungen
  4. Erkundung dynamischer Annotation aufstrebender Identitätskategorien

Tiefgreifende Bewertung

Stärken

  1. Methodische Innovation: Erstmalige Kombination umfangreicher Umfragedaten mit Textannotation, bietet einen kulturell sensiblen Forschungsrahmen
  2. Technische Beiträge: Etablierung starker Baselines in Sprachen mit geringen Ressourcen, Nachweis der Bedeutung sprachspezifischer Modelle
  3. Experimentelle Vollständigkeit: Abdeckung mehrerer Modelltypen, domänenübergreifende Bewertung und externe Validierung
  4. Sozialwissenschaftlicher Wert: Bietet tiefe Einblicke in politischen Diskurs und Identitätsdynamiken

Mängel

  1. Datenrepräsentativität: Einschränkungen der Umfragestichprobe können die Universalität von Identitätskategorien beeinflussen
  2. Annotationskonsistenz: Einige Kategorien weisen relativ niedrige κ-Werte auf (z.B. Konservativ: 0,705)
  3. Bewertungsumfang: Domänenübergreifende Bewertung basiert nur auf 500 Stichproben, möglicherweise unzureichend

Auswirkungen

  1. Akademischer Wert: Bietet wichtige Ressourcen für Computersozialwissenschaften und mehrsprachige NLP
  2. Praktischer Wert: Anwendbar auf Politische-Kommunikations-Analyse, Meinungsüberwachung usw.
  3. Methodologischer Beitrag: Bietet Vorlage für ähnliche Forschung in anderen nicht-englischen politischen Kontexten

Anwendungsszenarien

  • Politische Kommunikationsforschung
  • Analyse sozialer Identitäten
  • Mehrsprachige Sentiment-Analyse
  • Politische Diskurs-Überwachung
  • Interkulturelle Vergleichsforschung

Literaturverzeichnis

Dieser Artikel zitiert wichtige Literatur aus mehreren Bereichen wie Soziale-Identitäts-Theorie, Computerlinguistik und Politische Kommunikationswissenschaft, insbesondere Tajfel and Turner (1979) Integrierte Theorie intergruppaler Konflikte als theoretische Grundlage sowie aktuelle NLP-Forschungsergebnisse in Gruppennennungserkennung und Rahmenanalyse.


Gesamtbewertung: Dies ist hochwertige interdisziplinäre Forschung mit wichtigen Beiträgen in Methodik, technischer Implementierung und sozialwissenschaftlichen Erkenntnissen. Die Forschung schließt eine Lücke in der hebräischsprachigen Politiktextanalyse und leistet wertvolle Beiträge zur Entwicklung mehrsprachiger NLP und Computersozialwissenschaften.