2025-11-17T07:13:12.902991

HebID: Detecting Social Identities in Hebrew-language Political Text

Mor-Lan, Rivlin-Angert, Kaplan et al.
Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.
academic

HebID: Detecting Social Identities in Hebrew-language Political Text

基本信息

  • 论文ID: 2508.15483
  • 标题: HebID: Detecting Social Identities in Hebrew-language Political Text
  • 作者: Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
  • 分类: cs.CL (Computational Linguistics)
  • 发表时间: arXiv preprint, 2025年10月12日
  • 论文链接: https://arxiv.org/abs/2508.15483

摘要

政治语言与社会身份密切相关。虽然社会身份往往由特定的文化背景塑造,但现有的NLP数据集主要以英语为中心,采用单标签分类,且关注粗粒度的身份类别。本文引入HebID,这是首个用于社会身份检测的多标签希伯来语语料库,包含5,536个来自以色列政治家Facebook帖子的句子(2018年12月-2021年4月),基于调查数据手动标注了12个细粒度社会身份(如右翼、极端正统派、社会导向)。研究对比了多标签和单标签编码器以及2B-9B参数的生成式大语言模型,发现希伯来语调优的LLM表现最佳(宏平均F1 = 0.74)。

研究背景与动机

问题描述

  1. 语言资源不平衡:现有社会身份检测资源几乎完全以英语为中心,缺乏对非英语政治语境的支持
  2. 标注粒度粗糙:现有数据集主要关注粗粒度类别(如政党或种族),无法捕捉复杂的政治话语
  3. 单标签限制:大多数数据集采用单标签分类,无法处理多重身份表达的现实情况
  4. 文化背景缺失:缺乏基于特定文化背景和实证调查的身份类别选择

研究重要性

  • 社会身份是政治行为和公共话语的重要驱动因素
  • 希伯来语作为低资源语言,在NLP研究中代表性不足
  • 以色列政治环境的复杂性为研究多维度身份表达提供了理想场景

现有方法局限性

  • 群体提及检测:仅限于显式群体提及,无法捕捉隐含的身份表达
  • 框架和立场分析:主要关注单标签立场或框架,缺乏多标签身份类别支持
  • 意识形态推断:只能推断宽泛的意识形态倾向,无法检测明确的身份提及

核心贡献

  1. 首创性数据集:构建了首个公开的希伯来语多标签社会身份检测数据集
  2. 调查驱动的方法论:建立了基于大规模调查数据指导文本标注的框架
  3. 全面的基准测试:评估了编码器和解码器模型在该任务上的表现
  4. 跨领域评估:验证了模型在议会演讲数据上的泛化能力
  5. 外部验证:通过CHES-Israel专家调查验证了分类器的有效性
  6. 社会语言学分析:揭示了身份动态在不同平台和人群中的差异

方法详解

任务定义

输入:希伯来语句子 输出:12个社会身份的多标签二元分类结果 目标:确定给定句子中积极表达或引用了哪些社会身份

身份类别选择方法

  1. 调查基础:基于12波代表性面板调查(N=1,769),涵盖2019年1月至2021年4月
  2. 专家指导:28个候选身份由以色列政治专家小组选定
  3. 阈值筛选:选择在前5波调查中一致超过5%选择阈值的12个身份

标注方案

12个社会身份类别

  • 意识形态:右翼、左翼、保守派、自由派
  • 经济:资本主义、社会导向
  • 政治价值:民主派、诚实
  • 文化宗教:犹太复国主义、极端正统派
  • 群体:巴勒斯坦人和阿拉伯以色列公民、安全导向

标注原则

  • 仅标注积极表达的身份
  • 支持多标签分类
  • 基于内容而非发言人身份

数据集构建

  • 来源:以色列议员、政党和候选人的Facebook帖子
  • 时间范围:2018年12月至2021年4月
  • 规模:从64K帖子(375K句子)中采样5,536个句子
  • 标注者间一致性:平均Cohen's κ = 0.77

实验设置

数据集划分

  • 训练集:70%(3,875句子)
  • 验证集:15%(830句子)
  • 测试集:15%(831句子)

模型类型

  1. 基线模型:逻辑回归和LinearSVC(TF-IDF特征)
  2. 多标签编码器:联合学习12个身份标签
  3. 单标签编码器:为每个标签单独微调
  4. 解码器LLM:生成逗号分隔的标签列表

评估模型

编码器模型

  • 多语言:mBERT
  • 希伯来语专用:AlephBERT、HERO、DictaBERT(base/large)

解码器LLM

  • 通用:Gemma 2(2B/9B)、Qwen3-8B
  • 希伯来语专用:DictaLM2.0

评价指标

  • 宏平均精确率、召回率、F1分数
  • 每个身份类别的F1分数

实验结果

主要结果

最佳表现:DictaLM2.0达到宏平均F1 = 0.743,显著优于编码器模型

模型类型最佳模型宏平均F1
解码器LLMDictaLM2.00.743
多标签编码器DictaBERT-Large0.678
单标签编码器DictaBERT-Large0.659
基线LinearSVC0.361

关键发现

  1. 语言专用模型优势:希伯来语调优的DictaLM2.0在8/12个身份类别上表现最佳
  2. 多标签学习效果:多标签编码器优于单标签组合(0.678 vs 0.659)
  3. 解码器优势:生成式方法在多标签任务上表现更佳

跨领域泛化

在500个议会演讲句子上的测试显示宏平均F1 = 0.72,与Facebook数据表现相当,证明了模型的跨领域泛化能力。

外部验证

与CHES-Israel专家调查的相关性分析显示,21个相关性中有16个在p ≤ 0.1水平上显著,13个在p ≤ 0.05水平上显著,相关系数范围为|r| = 0.71到0.94。

社会语言学分析

身份流行度对比

  • 跨平台一致性:社会导向、右翼和民主派身份在各数据源中普遍流行
  • 平台差异:诚实和犹太复国主义身份在公众中更受欢迎,社会导向身份在议会中更突出

时间趋势分析

  • 选举周期效应:身份相关话语在四次选举中的三次达到峰值
  • 精英-公众分化
    • 社会导向身份:公众认同度下降,政治家使用增加
    • 诚实和民主身份:公众认同度上升,精英话语中减少

身份聚类模式

因子分析揭示了主要的左右翼分化:

  • 左翼聚类:左翼、民主派、诚实、自由派、巴勒斯坦人
  • 右翼聚类:右翼、保守派、犹太复国主义、安全导向、资本主义、极端正统派

性别差异

  • 身份表达强度:女性在所有数据源中表达更多身份
  • 身份偏好
    • 男性倾向:右翼、安全导向、资本主义、极端正统派
    • 女性倾向:社会导向身份在各平台均显著偏向女性

相关工作

群体提及检测

  • GRIT数据集(意大利语):标注新闻和议会文本中的社会群体提及
  • 英国议会辩论:量化政治家提及特定社会群体的频率

框架和立场分析

  • Us vs. Them语料库:Reddit评论的目标群体、立场和情感标注
  • 美国国会演讲:140年移民话语的情感分类和框架分析

意识形态推断

  • 传统方法:基于SVM和神经网络的左右翼立场分类
  • 现代方法:使用LLM的零样本意识形态评分

结论与讨论

主要结论

  1. 希伯来语专用模型在社会身份检测任务上显著优于通用多语言模型
  2. 多标签学习方法能够更好地捕捉身份表达的复杂性
  3. 基于调查数据的标注框架提供了文化敏感的身份类别选择方法
  4. 跨平台分析揭示了精英话语与公众认同之间的重要差异

局限性

  1. 时间和平台范围:数据限于特定时期,未涵盖Twitter等其他平台
  2. 调查人群限制:仅包括犹太公民,缺乏阿拉伯公民的代表性
  3. 标注粒度:基于5%阈值可能遗漏重要但频率较低的身份
  4. 模型偏见:分类器可能继承训练数据和预训练模型的偏见

未来方向

  1. 扩展到更多平台和时间段
  2. 包含更多样化的人群样本
  3. 开发减少模型偏见的方法
  4. 探索新兴身份类别的动态标注

深度评价

优点

  1. 方法创新性:首次将大规模调查数据与文本标注相结合,提供了文化敏感的研究框架
  2. 技术贡献:在低资源语言上建立了强基线,证明了语言专用模型的重要性
  3. 实验充分性:涵盖多种模型类型、跨领域评估和外部验证
  4. 社会科学价值:提供了对政治话语和身份动态的深入洞察

不足

  1. 数据代表性:调查样本的局限性可能影响身份类别的普适性
  2. 标注一致性:某些类别的κ值相对较低(如Conservative: 0.705)
  3. 评估范围:跨领域评估仅基于500个样本,可能不够充分

影响力

  1. 学术价值:为计算社会科学和多语言NLP提供了重要资源
  2. 实用价值:可用于政治传播分析、舆论监测等应用
  3. 方法论贡献:为其他非英语政治语境的类似研究提供了模板

适用场景

  • 政治传播研究
  • 社会身份分析
  • 多语言情感分析
  • 政治话语监测
  • 跨文化比较研究

参考文献

本文引用了社会身份理论、计算语言学、政治传播学等多个领域的重要文献,特别是Tajfel and Turner (1979)的群体间冲突整合理论为理论基础,以及近期在群体提及检测、框架分析等方面的NLP研究成果。


总体评价:这是一项高质量的跨学科研究,在方法论、技术实现和社会科学洞察方面都有重要贡献。研究填补了希伯来语政治文本分析的空白,为多语言NLP和计算社会科学的发展做出了有价值的贡献。