Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.
academic- 論文ID: 2508.15483
- タイトル: HebID: Detecting Social Identities in Hebrew-language Political Text
- 著者: Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
- 分類: cs.CL(計算言語学)
- 発表日時: arXiv preprint、2025年10月12日
- 論文リンク: https://arxiv.org/abs/2508.15483
政治言語は社会的アイデンティティと密接に関連している。社会的アイデンティティはしばしば特定の文化的背景によって形成されるが、既存のNLPデータセットは主に英語中心であり、単一ラベル分類を採用し、粗粒度のアイデンティティカテゴリに焦点を当てている。本論文はHebIDを導入する。これはヘブライ語による社会的アイデンティティ検出のための初の多ラベルコーパスであり、イスラエルの政治家のFacebookポストから5,536文(2018年12月~2021年4月)を含み、調査データに基づいて12の細粒度社会的アイデンティティ(右翼、超正統派、社会志向など)で手動アノテーションされている。本研究は多ラベルおよび単一ラベルエンコーダと2B~9Bパラメータの生成型大規模言語モデルを比較し、ヘブライ語調整LLMが最高の性能を示した(マクロ平均F1 = 0.74)。
- 言語資源の不均衡:既存の社会的アイデンティティ検出リソースはほぼ完全に英語中心であり、非英語政治文脈への対応が不足している
- アノテーション粒度の粗さ:既存のデータセットは主に粗粒度カテゴリ(政党や人種など)に焦点を当てており、複雑な政治言説を捉えることができない
- 単一ラベルの制限:ほとんどのデータセットは単一ラベル分類を採用しており、複数のアイデンティティ表現の現実を処理できない
- 文化的背景の欠如:特定の文化的背景と実証的調査に基づくアイデンティティカテゴリの選択が不足している
- 社会的アイデンティティは政治行動と公共言説の重要な駆動要因である
- ヘブライ語は低資源言語として、NLP研究における代表性が不足している
- イスラエルの政治環境の複雑性は、多次元的アイデンティティ表現を研究するための理想的なシナリオを提供する
- グループ言及検出:明示的なグループ言及に限定され、暗黙的なアイデンティティ表現を捉えられない
- フレーミングと立場分析:主に単一ラベルの立場またはフレームに焦点を当てており、多ラベルアイデンティティカテゴリのサポートが不足している
- イデオロギー推論:広範なイデオロギー傾向のみを推論でき、明確なアイデンティティ言及を検出できない
- 初創的データセット:初の公開ヘブライ語多ラベル社会的アイデンティティ検出データセットを構築
- 調査駆動型方法論:大規模調査データがテキストアノテーションを指導するフレームワークを確立
- 包括的なベンチマーク:エンコーダおよびデコーダモデルのこのタスクにおける性能を評価
- クロスドメイン評価:議会演説データ上でのモデルの汎化能力を検証
- 外部検証:CHES-Israelの専門家調査を通じて分類器の有効性を検証
- 社会言語学分析:異なるプラットフォームと人口集団間でのアイデンティティダイナミクスの違いを明らかにする
入力:ヘブライ語の文
出力:12の社会的アイデンティティの多ラベル二値分類結果
目標:与えられた文で積極的に表現または参照されているアイデンティティを特定する
- 調査ベース:12波の代表的パネル調査(N=1,769)に基づき、2019年1月から2021年4月をカバー
- 専門家指導:28の候補アイデンティティはイスラエルの政治専門家パネルによって選定
- 閾値フィルタリング:最初の5波の調査で一貫して5%選択閾値を超える12のアイデンティティを選択
12の社会的アイデンティティカテゴリ:
- イデオロギー:右翼、左翼、保守派、自由派
- 経済:資本主義、社会志向
- 政治的価値:民主主義、誠実性
- 文化宗教:シオニズム、超正統派
- グループ:パレスチナ人とアラブ系イスラエル市民、安全志向
アノテーション原則:
- 積極的に表現されたアイデンティティのみをアノテーション
- 多ラベル分類をサポート
- 発言者のアイデンティティではなくコンテンツに基づく
- ソース:イスラエルの議員、政党、候補者のFacebookポスト
- 時間範囲:2018年12月~2021年4月
- 規模:64Kのポスト(375K文)から5,536文をサンプリング
- アノテータ間一致性:平均Cohen's κ = 0.77
- 訓練セット:70%(3,875文)
- 検証セット:15%(830文)
- テストセット:15%(831文)
- ベースラインモデル:ロジスティック回帰とLinearSVC(TF-IDF特徴)
- 多ラベルエンコーダ:12のアイデンティティラベルの共同学習
- 単一ラベルエンコーダ:各ラベルに対する個別のファインチューニング
- デコーダLLM:カンマ区切りのラベルリストの生成
エンコーダモデル:
- 多言語:mBERT
- ヘブライ語専用:AlephBERT、HERO、DictaBERT(base/large)
デコーダLLM:
- 汎用:Gemma 2(2B/9B)、Qwen3-8B
- ヘブライ語専用:DictaLM2.0
- マクロ平均精度、再現率、F1スコア
- 各アイデンティティカテゴリのF1スコア
最高性能:DictaLM2.0はマクロ平均F1 = 0.743を達成し、エンコーダモデルを大きく上回る
| モデルタイプ | 最高モデル | マクロ平均F1 |
|---|
| デコーダLLM | DictaLM2.0 | 0.743 |
| 多ラベルエンコーダ | DictaBERT-Large | 0.678 |
| 単一ラベルエンコーダ | DictaBERT-Large | 0.659 |
| ベースライン | LinearSVC | 0.361 |
- 言語専用モデルの利点:ヘブライ語調整DictaLM2.0は8/12のアイデンティティカテゴリで最高性能を示す
- 多ラベル学習の効果:多ラベルエンコーダは単一ラベル組み合わせを上回る(0.678 vs 0.659)
- デコーダの利点:生成型方法は多ラベルタスクでより良い性能を示す
500の議会演説文でのテストはマクロ平均F1 = 0.72を示し、Facebookデータの性能と同等であり、モデルのクロスドメイン汎化能力を証明している。
CHES-Israelの専門家調査との相関分析は、21の関連性のうち16がp ≤ 0.1レベルで有意であり、13がp ≤ 0.05レベルで有意であることを示し、相関係数は|r| = 0.71~0.94の範囲である。
- クロスプラットフォーム一貫性:社会志向、右翼、民主主義アイデンティティはすべてのデータソースで普遍的に流行している
- プラットフォーム差異:誠実性とシオニズムアイデンティティは公衆でより人気があり、社会志向アイデンティティは議会でより顕著である
- 選挙サイクル効果:アイデンティティ関連言説は4回の選挙のうち3回でピークに達する
- エリート・公衆分化:
- 社会志向アイデンティティ:公衆認同度低下、政治家使用増加
- 誠実性と民主主義アイデンティティ:公衆認同度上昇、エリート言説で減少
因子分析は主要な左右翼分化を明らかにする:
- 左翼クラスタ:左翼、民主主義、誠実性、自由派、パレスチナ人
- 右翼クラスタ:右翼、保守派、シオニズム、安全志向、資本主義、超正統派
- アイデンティティ表現の強度:女性はすべてのデータソースでより多くのアイデンティティを表現する
- アイデンティティ選好:
- 男性傾向:右翼、安全志向、資本主義、超正統派
- 女性傾向:社会志向アイデンティティはすべてのプラットフォームで女性に有意に傾斜
- GRITデータセット(イタリア語):ニュースと議会テキストの社会グループ言及のアノテーション
- 英国議会討論:政治家が特定の社会グループを言及する頻度の定量化
- Us vs. Themコーパス:Reddit評論の目標グループ、立場、感情のアノテーション
- 米国議会演説:140年間の移民言説の感情分類とフレーミング分析
- 従来型方法:SVMとニューラルネットワークに基づく左右翼立場分類
- 現代型方法:LLMを使用したゼロショットイデオロギースコアリング
- ヘブライ語専用モデルは社会的アイデンティティ検出タスクで汎用多言語モデルを大きく上回る
- 多ラベル学習方法はアイデンティティ表現の複雑性をより良く捉えることができる
- 調査データに基づくアノテーションフレームワークは文化的に敏感なアイデンティティカテゴリ選択方法を提供する
- クロスプラットフォーム分析はエリート言説と公衆認同の間の重要な違いを明らかにする
- 時間とプラットフォーム範囲:データは特定の期間に限定され、Twitterなどの他のプラットフォームをカバーしていない
- 調査人口の制限:ユダヤ系市民のみを含み、アラブ系市民の代表性が不足している
- アノテーション粒度:5%閾値に基づくため、重要だが頻度の低いアイデンティティを見落とす可能性がある
- モデルバイアス:分類器は訓練データと事前学習モデルのバイアスを継承する可能性がある
- より多くのプラットフォームと時間期間への拡張
- より多様な人口サンプルの包含
- モデルバイアスを軽減する方法の開発
- 新興アイデンティティカテゴリの動的アノテーションの探索
- 方法の革新性:大規模調査データとテキストアノテーションを初めて組み合わせ、文化的に敏感な研究フレームワークを提供
- 技術的貢献:低資源言語で強いベースラインを確立し、言語専用モデルの重要性を証明
- 実験の充実性:複数のモデルタイプ、クロスドメイン評価、外部検証を網羅
- 社会科学的価値:政治言説とアイデンティティダイナミクスについての深い洞察を提供
- データ代表性:調査サンプルの限界がアイデンティティカテゴリの普遍性に影響する可能性がある
- アノテーション一貫性:いくつかのカテゴリのκ値が比較的低い(例:Conservative: 0.705)
- 評価範囲:クロスドメイン評価は500サンプルのみに基づいており、不十分な可能性がある
- 学術的価値:計算社会科学と多言語NLPに重要なリソースを提供
- 実用的価値:政治伝播分析、舆論監視などのアプリケーションに使用可能
- 方法論的貢献:他の非英語政治文脈での同様の研究のテンプレートを提供
- 政治伝播研究
- 社会的アイデンティティ分析
- 多言語感情分析
- 政治言説監視
- クロス文化比較研究
本論文は社会的アイデンティティ理論、計算言語学、政治伝播学など複数の分野の重要な文献を引用しており、特にTajfel and Turner (1979)の集団間紛争統合理論を理論的基礎とし、グループ言及検出やフレーミング分析などの最近のNLP研究成果を活用している。
総合評価:これは方法論、技術実装、社会科学的洞察のすべての面で重要な貢献をしている高品質な学際的研究である。本研究はヘブライ語政治テキスト分析の空白を埋め、多言語NLPと計算社会科学の発展に価値ある貢献をしている。