2025-11-17T07:13:12.902991

HebID: Detecting Social Identities in Hebrew-language Political Text

Mor-Lan, Rivlin-Angert, Kaplan et al.
Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.
academic

HebID: Detección de Identidades Sociales en Texto Político en Hebreo

Información Básica

  • ID del Artículo: 2508.15483
  • Título: HebID: Detecting Social Identities in Hebrew-language Political Text
  • Autores: Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: Preimpresión arXiv, 12 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2508.15483

Resumen

El lenguaje político está estrechamente relacionado con las identidades sociales. Aunque las identidades sociales suelen estar moldeadas por contextos culturales específicos, los conjuntos de datos de PNL existentes se centran principalmente en inglés, utilizan clasificación de etiqueta única y se enfocen en categorías de identidad de granularidad gruesa. Este artículo introduce HebID, el primer corpus multiétiqueta en hebreo para detección de identidades sociales, que contiene 5,536 oraciones de publicaciones de Facebook de políticos israelíes (diciembre de 2018 - abril de 2021), anotadas manualmente con 12 identidades sociales de granularidad fina (como derechista, ultraortodoxo, orientado socialmente) basadas en datos de encuestas. El estudio compara codificadores multiétiqueta y monoétiqueta, así como modelos de lenguaje grandes generativos con parámetros de 2B-9B, encontrando que los LLM ajustados para hebreo tienen el mejor desempeño (F1 macro = 0.74).

Antecedentes y Motivación de la Investigación

Descripción del Problema

  1. Desequilibrio de Recursos Lingüísticos: Los recursos existentes para detección de identidades sociales están casi completamente centrados en inglés, careciendo de apoyo para contextos políticos no anglófonos
  2. Granularidad de Anotación Gruesa: Los conjuntos de datos existentes se enfocen principalmente en categorías de granularidad gruesa (como partidos políticos o raza), sin poder capturar el discurso político complejo
  3. Limitación de Etiqueta Única: La mayoría de los conjuntos de datos utilizan clasificación monoétiqueta, sin poder manejar la realidad de expresiones de identidades múltiples
  4. Ausencia de Contexto Cultural: Falta de selección de categorías de identidad basada en contextos culturales específicos e investigación empírica

Importancia de la Investigación

  • Las identidades sociales son factores impulsores importantes del comportamiento político y el discurso público
  • El hebreo como idioma de recursos limitados está insuficientemente representado en la investigación de PNL
  • La complejidad del entorno político israelí proporciona un escenario ideal para estudiar la expresión de identidades multidimensionales

Limitaciones de Métodos Existentes

  • Detección de menciones de grupos: limitada a menciones de grupos explícitas, sin poder capturar expresiones de identidad implícitas
  • Análisis de marcos y posiciones: se enfocen principalmente en posiciones o marcos monoétiqueta, careciendo de apoyo para categorías de identidad multiétiqueta
  • Inferencia ideológica: solo puede inferir tendencias ideológicas amplias, sin poder detectar menciones de identidad explícitas

Contribuciones Principales

  1. Conjunto de Datos Pionero: Construcción del primer conjunto de datos público multiétiqueta en hebreo para detección de identidades sociales
  2. Metodología Impulsada por Encuestas: Establecimiento de un marco basado en datos de encuestas a gran escala para guiar la anotación de textos
  3. Evaluación Comparativa Integral: Evaluación del desempeño de modelos codificadores y decodificadores en esta tarea
  4. Evaluación Transdominio: Verificación de la capacidad de generalización del modelo en datos de discursos parlamentarios
  5. Validación Externa: Verificación de la validez del clasificador mediante la encuesta de expertos CHES-Israel
  6. Análisis Sociolingüístico: Revelación de diferencias en dinámicas de identidad entre diferentes plataformas y poblaciones

Explicación Detallada de la Metodología

Definición de la Tarea

Entrada: Oración en hebreo Salida: Resultados de clasificación binaria multiétiqueta para 12 identidades sociales Objetivo: Determinar qué identidades sociales se expresan o se mencionan activamente en una oración dada

Método de Selección de Categorías de Identidad

  1. Base de Encuestas: Basado en 12 olas de encuestas de panel representativas (N=1,769), abarcando enero de 2019 a abril de 2021
  2. Orientación de Expertos: 28 identidades candidatas seleccionadas por un panel de expertos en política israelí
  3. Filtrado por Umbral: Selección de 12 identidades que consistentemente superaron el umbral de selección del 5% en las primeras 5 olas de encuestas

Esquema de Anotación

12 Categorías de Identidades Sociales:

  • Ideología: Derechista, Izquierdista, Conservador, Liberal
  • Economía: Capitalista, Orientado Socialmente
  • Valores Políticos: Democrático, Honesto
  • Cultura-Religión: Sionista, Ultraortodoxo
  • Grupo: Palestinos y Ciudadanos Árabes de Israel, Orientado a la Seguridad

Principios de Anotación:

  • Anotar solo identidades expresadas activamente
  • Apoyo para clasificación multiétiqueta
  • Basado en contenido en lugar de identidad del hablante

Construcción del Conjunto de Datos

  • Fuente: Publicaciones de Facebook de legisladores, partidos políticos y candidatos israelíes
  • Rango Temporal: Diciembre de 2018 a abril de 2021
  • Escala: 5,536 oraciones muestreadas de 64K publicaciones (375K oraciones)
  • Concordancia Interanotadores: κ de Cohen promedio = 0.77

Configuración Experimental

División del Conjunto de Datos

  • Conjunto de Entrenamiento: 70% (3,875 oraciones)
  • Conjunto de Validación: 15% (830 oraciones)
  • Conjunto de Prueba: 15% (831 oraciones)

Tipos de Modelos

  1. Modelos Base: Regresión Logística y LinearSVC (características TF-IDF)
  2. Codificadores Multiétiqueta: Aprendizaje conjunto de 12 etiquetas de identidad
  3. Codificadores Monoétiqueta: Ajuste fino separado para cada etiqueta
  4. LLM Decodificadores: Generación de listas de etiquetas separadas por comas

Modelos Evaluados

Modelos Codificadores:

  • Multilingües: mBERT
  • Específicos del Hebreo: AlephBERT, HERO, DictaBERT (base/large)

LLM Decodificadores:

  • Generales: Gemma 2 (2B/9B), Qwen3-8B
  • Específicos del Hebreo: DictaLM2.0

Métricas de Evaluación

  • Precisión macro, Recall macro, Puntuación F1 macro
  • Puntuación F1 para cada categoría de identidad

Resultados Experimentales

Resultados Principales

Mejor Desempeño: DictaLM2.0 alcanza F1 macro = 0.743, significativamente superior a los modelos codificadores

Tipo de ModeloMejor ModeloF1 Macro
LLM DecodificadorDictaLM2.00.743
Codificador MultiétiquetaDictaBERT-Large0.678
Codificador MonoétiquetaDictaBERT-Large0.659
BaseLinearSVC0.361

Hallazgos Clave

  1. Ventaja de Modelos Específicos del Idioma: DictaLM2.0 ajustado para hebreo tiene el mejor desempeño en 8 de 12 categorías de identidad
  2. Efectividad del Aprendizaje Multiétiqueta: Los codificadores multiétiqueta superan la combinación monoétiqueta (0.678 vs 0.659)
  3. Ventaja de Decodificadores: Los métodos generativos tienen mejor desempeño en tareas multiétiqueta

Generalización Transdominio

Las pruebas en 500 oraciones de discursos parlamentarios muestran F1 macro = 0.72, comparable al desempeño en datos de Facebook, demostrando la capacidad de generalización transdominio del modelo.

Validación Externa

El análisis de correlación con la encuesta de expertos CHES-Israel muestra que 16 de 21 correlaciones son significativas en el nivel p ≤ 0.1, y 13 en el nivel p ≤ 0.05, con coeficientes de correlación que van de |r| = 0.71 a 0.94.

Análisis Sociolingüístico

Comparación de Popularidad de Identidades

  • Consistencia Transplataforma: Las identidades orientadas socialmente, derechista y democrática son generalmente populares en todas las fuentes de datos
  • Diferencias de Plataforma: Las identidades honesta y sionista son más populares entre el público, mientras que la identidad orientada socialmente es más destacada en el parlamento

Análisis de Tendencias Temporales

  • Efecto del Ciclo Electoral: El discurso relacionado con identidades alcanza su punto máximo en tres de cuatro elecciones
  • Diferenciación Élite-Público:
    • Identidad Orientada Socialmente: Disminución en la identificación pública, aumento en el uso por políticos
    • Identidades Honesta y Democrática: Aumento en la identificación pública, disminución en el discurso de élite

Patrones de Agrupamiento de Identidades

El análisis factorial revela la principal diferenciación izquierda-derecha:

  • Agrupamiento Izquierdista: Izquierdista, Democrático, Honesto, Liberal, Palestino
  • Agrupamiento Derechista: Derechista, Conservador, Sionista, Orientado a la Seguridad, Capitalista, Ultraortodoxo

Diferencias de Género

  • Intensidad de Expresión de Identidad: Las mujeres expresan más identidades en todas las fuentes de datos
  • Preferencias de Identidad:
    • Tendencia Masculina: Derechista, Orientado a la Seguridad, Capitalista, Ultraortodoxo
    • Tendencia Femenina: La identidad orientada socialmente es significativamente preferida por mujeres en todas las plataformas

Trabajo Relacionado

Detección de Menciones de Grupos

  • Conjunto de Datos GRIT (italiano): Anotación de menciones de grupos sociales en textos de noticias y parlamentarios
  • Debates Parlamentarios Británicos: Cuantificación de la frecuencia con que los políticos mencionan grupos sociales específicos

Análisis de Marcos y Posiciones

  • Corpus Nosotros vs. Ellos: Anotación de grupos objetivo, posiciones y sentimientos en comentarios de Reddit
  • Discursos del Congreso Estadounidense: Clasificación de sentimientos y análisis de marcos del discurso sobre inmigración durante 140 años

Inferencia Ideológica

  • Métodos Tradicionales: Clasificación de posiciones izquierda-derecha basada en SVM y redes neuronales
  • Métodos Modernos: Puntuación de ideología de cero ejemplos utilizando LLM

Conclusiones y Discusión

Conclusiones Principales

  1. Los modelos específicos del hebreo superan significativamente a los modelos multilingües generales en la tarea de detección de identidades sociales
  2. El método de aprendizaje multiétiqueta puede capturar mejor la complejidad de la expresión de identidades
  3. El marco de anotación basado en datos de encuestas proporciona un método culturalmente sensible para la selección de categorías de identidad
  4. El análisis transplataforma revela diferencias importantes entre el discurso de élite y la identificación pública

Limitaciones

  1. Rango Temporal y de Plataforma: Los datos se limitan a un período específico, sin cubrir otras plataformas como Twitter
  2. Limitaciones de la Población de Encuesta: Solo incluye ciudadanos judíos, careciendo de representación de ciudadanos árabes
  3. Granularidad de Anotación: El umbral del 5% puede omitir identidades importantes pero de baja frecuencia
  4. Sesgos del Modelo: El clasificador puede heredar sesgos de los datos de entrenamiento y modelos preentrenados

Direcciones Futuras

  1. Expansión a más plataformas y períodos de tiempo
  2. Inclusión de muestras de población más diversas
  3. Desarrollo de métodos para reducir sesgos del modelo
  4. Exploración de anotación dinámica para categorías de identidad emergentes

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica: Primera combinación de datos de encuestas a gran escala con anotación de textos, proporcionando un marco de investigación culturalmente sensible
  2. Contribución Técnica: Establecimiento de líneas base sólidas en idiomas de recursos limitados, demostrando la importancia de modelos específicos del idioma
  3. Suficiencia Experimental: Cobertura de múltiples tipos de modelos, evaluación transdominio y validación externa
  4. Valor de Ciencias Sociales: Proporciona información profunda sobre el discurso político y dinámicas de identidad

Insuficiencias

  1. Representatividad de Datos: Las limitaciones de la muestra de encuesta pueden afectar la universalidad de las categorías de identidad
  2. Consistencia de Anotación: Algunos valores de κ de categorías son relativamente bajos (por ejemplo, Conservador: 0.705)
  3. Alcance de Evaluación: La evaluación transdominio se basa en solo 500 muestras, lo que puede ser insuficiente

Impacto

  1. Valor Académico: Proporciona un recurso importante para ciencias sociales computacionales y PNL multilingüe
  2. Valor Práctico: Aplicable a análisis de comunicación política, monitoreo de opinión pública, etc.
  3. Contribución Metodológica: Proporciona un modelo para investigaciones similares en otros contextos políticos no anglófonos

Escenarios Aplicables

  • Investigación en comunicación política
  • Análisis de identidades sociales
  • Análisis de sentimientos multilingüe
  • Monitoreo de discurso político
  • Investigación comparativa transcultural

Referencias

Este artículo cita literatura importante de múltiples disciplinas incluyendo teoría de identidad social, lingüística computacional y comunicación política, siendo la teoría de conflicto intergrupal integrada de Tajfel y Turner (1979) la base teórica, así como logros recientes de investigación en PNL en detección de menciones de grupos, análisis de marcos y campos relacionados.


Evaluación General: Esta es una investigación interdisciplinaria de alta calidad con contribuciones importantes en metodología, implementación técnica e insights de ciencias sociales. La investigación llena un vacío en el análisis de texto político en hebreo, haciendo una contribución valiosa al desarrollo de PNL multilingüe y ciencias sociales computacionales.