2025-11-17T07:13:12.902991

HebID: Detecting Social Identities in Hebrew-language Political Text

Mor-Lan, Rivlin-Angert, Kaplan et al.

Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.

academic

HebID: Detección de Identidades Sociales en Texto Político en Hebreo

Información Básica

ID del Artículo: 2508.15483
Título: HebID: Detecting Social Identities in Hebrew-language Political Text
Autores: Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: Preimpresión arXiv, 12 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2508.15483

Resumen

El lenguaje político está estrechamente relacionado con las identidades sociales. Aunque las identidades sociales suelen estar moldeadas por contextos culturales específicos, los conjuntos de datos de PNL existentes se centran principalmente en inglés, utilizan clasificación de etiqueta única y se enfocen en categorías de identidad de granularidad gruesa. Este artículo introduce HebID, el primer corpus multiétiqueta en hebreo para detección de identidades sociales, que contiene 5,536 oraciones de publicaciones de Facebook de políticos israelíes (diciembre de 2018 - abril de 2021), anotadas manualmente con 12 identidades sociales de granularidad fina (como derechista, ultraortodoxo, orientado socialmente) basadas en datos de encuestas. El estudio compara codificadores multiétiqueta y monoétiqueta, así como modelos de lenguaje grandes generativos con parámetros de 2B-9B, encontrando que los LLM ajustados para hebreo tienen el mejor desempeño (F1 macro = 0.74).

Antecedentes y Motivación de la Investigación

Descripción del Problema

Desequilibrio de Recursos Lingüísticos: Los recursos existentes para detección de identidades sociales están casi completamente centrados en inglés, careciendo de apoyo para contextos políticos no anglófonos
Granularidad de Anotación Gruesa: Los conjuntos de datos existentes se enfocen principalmente en categorías de granularidad gruesa (como partidos políticos o raza), sin poder capturar el discurso político complejo
Limitación de Etiqueta Única: La mayoría de los conjuntos de datos utilizan clasificación monoétiqueta, sin poder manejar la realidad de expresiones de identidades múltiples
Ausencia de Contexto Cultural: Falta de selección de categorías de identidad basada en contextos culturales específicos e investigación empírica

Importancia de la Investigación

Las identidades sociales son factores impulsores importantes del comportamiento político y el discurso público
El hebreo como idioma de recursos limitados está insuficientemente representado en la investigación de PNL
La complejidad del entorno político israelí proporciona un escenario ideal para estudiar la expresión de identidades multidimensionales

Limitaciones de Métodos Existentes

Detección de menciones de grupos: limitada a menciones de grupos explícitas, sin poder capturar expresiones de identidad implícitas
Análisis de marcos y posiciones: se enfocen principalmente en posiciones o marcos monoétiqueta, careciendo de apoyo para categorías de identidad multiétiqueta
Inferencia ideológica: solo puede inferir tendencias ideológicas amplias, sin poder detectar menciones de identidad explícitas

Contribuciones Principales

Conjunto de Datos Pionero: Construcción del primer conjunto de datos público multiétiqueta en hebreo para detección de identidades sociales
Metodología Impulsada por Encuestas: Establecimiento de un marco basado en datos de encuestas a gran escala para guiar la anotación de textos
Evaluación Comparativa Integral: Evaluación del desempeño de modelos codificadores y decodificadores en esta tarea
Evaluación Transdominio: Verificación de la capacidad de generalización del modelo en datos de discursos parlamentarios
Validación Externa: Verificación de la validez del clasificador mediante la encuesta de expertos CHES-Israel
Análisis Sociolingüístico: Revelación de diferencias en dinámicas de identidad entre diferentes plataformas y poblaciones

Explicación Detallada de la Metodología

Definición de la Tarea

Entrada: Oración en hebreo Salida: Resultados de clasificación binaria multiétiqueta para 12 identidades sociales Objetivo: Determinar qué identidades sociales se expresan o se mencionan activamente en una oración dada

Método de Selección de Categorías de Identidad

Base de Encuestas: Basado en 12 olas de encuestas de panel representativas (N=1,769), abarcando enero de 2019 a abril de 2021
Orientación de Expertos: 28 identidades candidatas seleccionadas por un panel de expertos en política israelí
Filtrado por Umbral: Selección de 12 identidades que consistentemente superaron el umbral de selección del 5% en las primeras 5 olas de encuestas

Esquema de Anotación

12 Categorías de Identidades Sociales:

Ideología: Derechista, Izquierdista, Conservador, Liberal
Economía: Capitalista, Orientado Socialmente
Valores Políticos: Democrático, Honesto
Cultura-Religión: Sionista, Ultraortodoxo
Grupo: Palestinos y Ciudadanos Árabes de Israel, Orientado a la Seguridad

Principios de Anotación:

Anotar solo identidades expresadas activamente
Apoyo para clasificación multiétiqueta
Basado en contenido en lugar de identidad del hablante

Construcción del Conjunto de Datos

Fuente: Publicaciones de Facebook de legisladores, partidos políticos y candidatos israelíes
Rango Temporal: Diciembre de 2018 a abril de 2021
Escala: 5,536 oraciones muestreadas de 64K publicaciones (375K oraciones)
Concordancia Interanotadores: κ de Cohen promedio = 0.77

Configuración Experimental

División del Conjunto de Datos

Conjunto de Entrenamiento: 70% (3,875 oraciones)
Conjunto de Validación: 15% (830 oraciones)
Conjunto de Prueba: 15% (831 oraciones)

Tipos de Modelos

Modelos Base: Regresión Logística y LinearSVC (características TF-IDF)
Codificadores Multiétiqueta: Aprendizaje conjunto de 12 etiquetas de identidad
Codificadores Monoétiqueta: Ajuste fino separado para cada etiqueta
LLM Decodificadores: Generación de listas de etiquetas separadas por comas

Modelos Evaluados

Modelos Codificadores:

Multilingües: mBERT
Específicos del Hebreo: AlephBERT, HERO, DictaBERT (base/large)

LLM Decodificadores:

Generales: Gemma 2 (2B/9B), Qwen3-8B
Específicos del Hebreo: DictaLM2.0

Métricas de Evaluación

Precisión macro, Recall macro, Puntuación F1 macro
Puntuación F1 para cada categoría de identidad

Resultados Experimentales

Resultados Principales

Mejor Desempeño: DictaLM2.0 alcanza F1 macro = 0.743, significativamente superior a los modelos codificadores

Tipo de Modelo	Mejor Modelo	F1 Macro
LLM Decodificador	DictaLM2.0	0.743
Codificador Multiétiqueta	DictaBERT-Large	0.678
Codificador Monoétiqueta	DictaBERT-Large	0.659
Base	LinearSVC	0.361

Hallazgos Clave

Ventaja de Modelos Específicos del Idioma: DictaLM2.0 ajustado para hebreo tiene el mejor desempeño en 8 de 12 categorías de identidad
Efectividad del Aprendizaje Multiétiqueta: Los codificadores multiétiqueta superan la combinación monoétiqueta (0.678 vs 0.659)
Ventaja de Decodificadores: Los métodos generativos tienen mejor desempeño en tareas multiétiqueta

Generalización Transdominio

Las pruebas en 500 oraciones de discursos parlamentarios muestran F1 macro = 0.72, comparable al desempeño en datos de Facebook, demostrando la capacidad de generalización transdominio del modelo.

Validación Externa

El análisis de correlación con la encuesta de expertos CHES-Israel muestra que 16 de 21 correlaciones son significativas en el nivel p ≤ 0.1, y 13 en el nivel p ≤ 0.05, con coeficientes de correlación que van de |r| = 0.71 a 0.94.

Análisis Sociolingüístico

Comparación de Popularidad de Identidades

Consistencia Transplataforma: Las identidades orientadas socialmente, derechista y democrática son generalmente populares en todas las fuentes de datos
Diferencias de Plataforma: Las identidades honesta y sionista son más populares entre el público, mientras que la identidad orientada socialmente es más destacada en el parlamento

Análisis de Tendencias Temporales

Efecto del Ciclo Electoral: El discurso relacionado con identidades alcanza su punto máximo en tres de cuatro elecciones
Diferenciación Élite-Público:
- Identidad Orientada Socialmente: Disminución en la identificación pública, aumento en el uso por políticos
- Identidades Honesta y Democrática: Aumento en la identificación pública, disminución en el discurso de élite

Patrones de Agrupamiento de Identidades

El análisis factorial revela la principal diferenciación izquierda-derecha:

Agrupamiento Izquierdista: Izquierdista, Democrático, Honesto, Liberal, Palestino
Agrupamiento Derechista: Derechista, Conservador, Sionista, Orientado a la Seguridad, Capitalista, Ultraortodoxo

Diferencias de Género

Intensidad de Expresión de Identidad: Las mujeres expresan más identidades en todas las fuentes de datos
Preferencias de Identidad:
- Tendencia Masculina: Derechista, Orientado a la Seguridad, Capitalista, Ultraortodoxo
- Tendencia Femenina: La identidad orientada socialmente es significativamente preferida por mujeres en todas las plataformas

Trabajo Relacionado

Detección de Menciones de Grupos

Conjunto de Datos GRIT (italiano): Anotación de menciones de grupos sociales en textos de noticias y parlamentarios
Debates Parlamentarios Británicos: Cuantificación de la frecuencia con que los políticos mencionan grupos sociales específicos

Análisis de Marcos y Posiciones

Corpus Nosotros vs. Ellos: Anotación de grupos objetivo, posiciones y sentimientos en comentarios de Reddit
Discursos del Congreso Estadounidense: Clasificación de sentimientos y análisis de marcos del discurso sobre inmigración durante 140 años

Inferencia Ideológica

Métodos Tradicionales: Clasificación de posiciones izquierda-derecha basada en SVM y redes neuronales
Métodos Modernos: Puntuación de ideología de cero ejemplos utilizando LLM

Conclusiones y Discusión

Conclusiones Principales

Los modelos específicos del hebreo superan significativamente a los modelos multilingües generales en la tarea de detección de identidades sociales
El método de aprendizaje multiétiqueta puede capturar mejor la complejidad de la expresión de identidades
El marco de anotación basado en datos de encuestas proporciona un método culturalmente sensible para la selección de categorías de identidad
El análisis transplataforma revela diferencias importantes entre el discurso de élite y la identificación pública

Limitaciones

Rango Temporal y de Plataforma: Los datos se limitan a un período específico, sin cubrir otras plataformas como Twitter
Limitaciones de la Población de Encuesta: Solo incluye ciudadanos judíos, careciendo de representación de ciudadanos árabes
Granularidad de Anotación: El umbral del 5% puede omitir identidades importantes pero de baja frecuencia
Sesgos del Modelo: El clasificador puede heredar sesgos de los datos de entrenamiento y modelos preentrenados

Direcciones Futuras

Expansión a más plataformas y períodos de tiempo
Inclusión de muestras de población más diversas
Desarrollo de métodos para reducir sesgos del modelo
Exploración de anotación dinámica para categorías de identidad emergentes

Evaluación Profunda

Fortalezas

Innovación Metodológica: Primera combinación de datos de encuestas a gran escala con anotación de textos, proporcionando un marco de investigación culturalmente sensible
Contribución Técnica: Establecimiento de líneas base sólidas en idiomas de recursos limitados, demostrando la importancia de modelos específicos del idioma
Suficiencia Experimental: Cobertura de múltiples tipos de modelos, evaluación transdominio y validación externa
Valor de Ciencias Sociales: Proporciona información profunda sobre el discurso político y dinámicas de identidad

Insuficiencias

Representatividad de Datos: Las limitaciones de la muestra de encuesta pueden afectar la universalidad de las categorías de identidad
Consistencia de Anotación: Algunos valores de κ de categorías son relativamente bajos (por ejemplo, Conservador: 0.705)
Alcance de Evaluación: La evaluación transdominio se basa en solo 500 muestras, lo que puede ser insuficiente

Impacto

Valor Académico: Proporciona un recurso importante para ciencias sociales computacionales y PNL multilingüe
Valor Práctico: Aplicable a análisis de comunicación política, monitoreo de opinión pública, etc.
Contribución Metodológica: Proporciona un modelo para investigaciones similares en otros contextos políticos no anglófonos

Escenarios Aplicables

Investigación en comunicación política
Análisis de identidades sociales
Análisis de sentimientos multilingüe
Monitoreo de discurso político
Investigación comparativa transcultural

Referencias

Este artículo cita literatura importante de múltiples disciplinas incluyendo teoría de identidad social, lingüística computacional y comunicación política, siendo la teoría de conflicto intergrupal integrada de Tajfel y Turner (1979) la base teórica, así como logros recientes de investigación en PNL en detección de menciones de grupos, análisis de marcos y campos relacionados.

Evaluación General: Esta es una investigación interdisciplinaria de alta calidad con contribuciones importantes en metodología, implementación técnica e insights de ciencias sociales. La investigación llena un vacío en el análisis de texto político en hebreo, haciendo una contribución valiosa al desarrollo de PNL multilingüe y ciencias sociales computacionales.