2025-11-17T07:13:12.902991

HebID: Detecting Social Identities in Hebrew-language Political Text

Mor-Lan, Rivlin-Angert, Kaplan et al.

Political language is deeply intertwined with social identities. While social identities are often shaped by specific cultural contexts and expressed through particular uses of language, existing datasets for group and identity detection are predominantly English-centric, single-label and focus on coarse identity categories. We introduce HebID, the first multilabel Hebrew corpus for social identity detection: 5,536 sentences from Israeli politicians' Facebook posts (Dec 2018-Apr 2021), manually annotated for twelve nuanced social identities (e.g. Rightist, Ultra-Orthodox, Socially-oriented) grounded by survey data. We benchmark multilabel and single-label encoders alongside 2B-9B-parameter generative LLMs, finding that Hebrew-tuned LLMs provide the best results (macro-$F_1$ = 0.74). We apply our classifier to politicians' Facebook posts and parliamentary speeches, evaluating differences in popularity, temporal trends, clustering patterns, and gender-related variations in identity expression. We utilize identity choices from a national public survey, enabling a comparison between identities portrayed in elite discourse and the public's identity priorities. HebID provides a comprehensive foundation for studying social identities in Hebrew and can serve as a model for similar research in other non-English political contexts.

academic

HebID: Обнаружение социальных идентичностей в иврите-язычных политических текстах

Основная информация

ID статьи: 2508.15483
Название: HebID: Detecting Social Identities in Hebrew-language Political Text
Авторы: Guy Mor-Lan, Naama Rivlin-Angert, Yael R. Kaplan, Tamir Sheafer, Shaul R. Shenhav
Классификация: cs.CL (Компьютерная лингвистика)
Дата публикации: препринт arXiv, 12 октября 2025 года
Ссылка на статью: https://arxiv.org/abs/2508.15483

Аннотация

Политический язык тесно связан с социальной идентичностью. Хотя социальная идентичность часто формируется специфическим культурным контекстом, существующие наборы данных NLP в основном ориентированы на английский язык, используют однозначную классификацию и сосредоточены на грубозернистых категориях идентичности. В данной работе представлен HebID — первый многозначный корпус на иврите для обнаружения социальной идентичности, содержащий 5 536 предложений из постов израильских политиков в Facebook (декабрь 2018 г. — апрель 2021 г.), вручную аннотированных на основе данных опросов с использованием 12 тонкозернистых социальных идентичностей (таких как правые, ультраортодоксальные, социально ориентированные). Исследование сравнивает многозначные и однозначные кодировщики, а также генеративные большие языковые модели с параметрами 2B-9B, обнаруживая, что настроенная на иврит LLM показывает лучший результат (макро-усредненный F1 = 0,74).

Исследовательский контекст и мотивация

Описание проблемы

Дисбаланс языковых ресурсов: существующие ресурсы для обнаружения социальной идентичности почти полностью сосредоточены на английском языке, отсутствует поддержка неанглийских политических контекстов
Грубая зернистость аннотаций: существующие наборы данных в основном сосредоточены на грубозернистых категориях (таких как партия или раса), не способны охватить сложность политического дискурса
Ограничение однозначной классификации: большинство наборов данных используют однозначную классификацию, не могут обрабатывать реальные случаи множественной идентичности
Отсутствие культурного контекста: отсутствует выбор категорий идентичности, основанный на специфическом культурном контексте и эмпирических исследованиях

Значимость исследования

Социальная идентичность является важным движущим фактором политического поведения и общественного дискурса
Иврит как язык с ограниченными ресурсами недостаточно представлен в исследованиях NLP
Сложность израильской политической среды предоставляет идеальный сценарий для изучения многомерного выражения идентичности

Ограничения существующих методов

Обнаружение упоминаний групп: ограничено явными упоминаниями групп, не может охватить неявные выражения идентичности
Анализ фреймов и позиций: в основном сосредоточен на однозначной позиции или фрейме, отсутствует поддержка многозначных категорий идентичности
Вывод идеологии: может только выводить широкие идеологические тенденции, не может обнаруживать явные упоминания идентичности

Основные вклады

Новаторский набор данных: создание первого открытого многозначного набора данных на иврите для обнаружения социальной идентичности
Методология, управляемая опросами: установление основы, основанной на крупномасштабных данных опросов для руководства аннотацией текста
Комплексное тестирование: оценка производительности моделей кодировщиков и декодеров на этой задаче
Кросс-доменная оценка: проверка способности модели к обобщению на данные парламентских речей
Внешняя валидация: проверка эффективности классификатора через опрос экспертов CHES-Israel
Социолингвистический анализ: выявление различий в динамике идентичности на разных платформах и среди разных групп

Подробное описание методологии

Определение задачи

Входные данные: предложения на иврите Выходные данные: многозначные бинарные результаты классификации для 12 социальных идентичностей Цель: определить, какие социальные идентичности активно выражены или упомянуты в данном предложении

Метод выбора категорий идентичности

Основа опроса: основано на 12 волнах репрезентативного панельного опроса (N=1 769), охватывающих период с января 2019 г. по апрель 2021 г.
Руководство экспертов: 28 кандидатов идентичности выбраны группой израильских политических экспертов
Фильтрация по порогу: выбраны 12 идентичностей, которые последовательно превышали порог выбора 5% в первых пяти волнах опроса

Схема аннотации

12 категорий социальной идентичности:

Идеология: правые, левые, консервативные, либеральные
Экономика: капиталистические, социально ориентированные
Политические ценности: демократические, честные
Культурно-религиозные: сионистские, ультраортодоксальные
Группы: палестинцы и арабские граждане Израиля, ориентированные на безопасность

Принципы аннотации:

Аннотируются только активно выраженные идентичности
Поддержка многозначной классификации
Основано на содержании, а не на личности говорящего

Построение набора данных

Источник: посты в Facebook израильских парламентариев, политических партий и кандидатов
Временной диапазон: декабрь 2018 г. — апрель 2021 г.
Масштаб: 5 536 предложений, выбранных из 64K постов (375K предложений)
Согласованность между аннотаторами: среднее значение Cohen's κ = 0,77

Экспериментальная установка

Разделение набора данных

Обучающий набор: 70% (3 875 предложений)
Набор валидации: 15% (830 предложений)
Тестовый набор: 15% (831 предложение)

Типы моделей

Базовые модели: логистическая регрессия и LinearSVC (признаки TF-IDF)
Многозначные кодировщики: совместное обучение 12 меткам идентичности
Однозначные кодировщики: отдельная тонкая настройка для каждой метки
Декодер LLM: генерация списков меток, разделенных запятыми

Оцениваемые модели

Модели кодировщиков:

Многоязычные: mBERT
Специализированные на иврите: AlephBERT, HERO, DictaBERT (base/large)

Декодер LLM:

Универсальные: Gemma 2 (2B/9B), Qwen3-8B
Специализированные на иврите: DictaLM2.0

Метрики оценки

Макро-усредненная точность, полнота, F1-оценка
F1-оценка для каждой категории идентичности

Результаты экспериментов

Основные результаты

Лучшая производительность: DictaLM2.0 достигает макро-усредненного F1 = 0,743, значительно превосходя модели кодировщиков

Тип модели	Лучшая модель	Макро-усредненный F1
Декодер LLM	DictaLM2.0	0,743
Многозначный кодировщик	DictaBERT-Large	0,678
Однозначный кодировщик	DictaBERT-Large	0,659
Базовая модель	LinearSVC	0,361

Ключевые находки

Преимущество языково-специфичных моделей: настроенная на иврит DictaLM2.0 показывает лучший результат в 8 из 12 категорий идентичности
Эффективность многозначного обучения: многозначные кодировщики превосходят однозначные комбинации (0,678 против 0,659)
Преимущество декодеров: генеративные методы показывают лучшую производительность на многозначных задачах

Кросс-доменное обобщение

Тестирование на 500 предложениях парламентских речей показывает макро-усредненный F1 = 0,72, сравнимый с производительностью на данных Facebook, что доказывает способность модели к кросс-доменному обобщению.

Внешняя валидация

Анализ корреляции с опросом экспертов CHES-Israel показывает, что из 21 корреляции 16 значимы на уровне p ≤ 0,1, а 13 значимы на уровне p ≤ 0,05, с коэффициентами корреляции в диапазоне |r| = 0,71–0,94.

Социолингвистический анализ

Сравнение популярности идентичностей

Кросс-платформная согласованность: социально ориентированные, правые и демократические идентичности широко распространены во всех источниках данных
Различия платформ: честные и сионистские идентичности более популярны среди общественности, социально ориентированные идентичности более выражены в парламенте

Анализ временных тенденций

Эффект избирательного цикла: дискурс, связанный с идентичностью, достигает пика в трех из четырех выборов
Дифференциация элит-общественность:
- Социально ориентированная идентичность: снижение признания общественностью, увеличение использования политиками
- Честные и демократические идентичности: рост признания общественностью, снижение в элитном дискурсе

Модели кластеризации идентичности

Факторный анализ выявляет основное левоправое разделение:

Левый кластер: левые, демократические, честные, либеральные, палестинцы
Правый кластер: правые, консервативные, сионистские, ориентированные на безопасность, капиталистические, ультраортодоксальные

Гендерные различия

Интенсивность выражения идентичности: женщины выражают больше идентичностей во всех источниках данных
Предпочтения идентичности:
- Мужские тенденции: правые, ориентированные на безопасность, капиталистические, ультраортодоксальные
- Женские тенденции: социально ориентированная идентичность значительно предпочтительнее для женщин на всех платформах

Связанные работы

Обнаружение упоминаний групп

Набор данных GRIT (итальянский язык): аннотация упоминаний социальных групп в новостях и парламентских текстах
Британские парламентские дебаты: количественное определение частоты упоминания политиками конкретных социальных групп

Анализ фреймов и позиций

Корпус Us vs. Them: аннотация целевых групп, позиций и настроений в комментариях Reddit
Речи Конгресса США: классификация настроений и анализ фреймов в 140 лет дискурса об иммиграции

Вывод идеологии

Традиционные методы: классификация левоправой позиции на основе SVM и нейронных сетей
Современные методы: оценка идеологии с нулевым примером с использованием LLM

Заключение и обсуждение

Основные выводы

Языково-специфичные модели на иврите значительно превосходят универсальные многоязычные модели в задаче обнаружения социальной идентичности
Методы многозначного обучения лучше способны охватить сложность выражения идентичности
Основанная на данных опросов схема аннотации обеспечивает культурно-чувствительный метод выбора категорий идентичности
Кросс-платформный анализ выявляет важные различия между элитным дискурсом и признанием общественностью

Ограничения

Временной и платформенный диапазон: данные ограничены определенным периодом, не охватывают другие платформы, такие как Twitter
Ограничения выборки опроса: включают только еврейских граждан, отсутствует представительство арабских граждан
Зернистость аннотации: основано на пороге 5%, может упустить важные, но менее частые идентичности
Смещение модели: классификатор может наследовать смещения из обучающих данных и предварительно обученных моделей

Будущие направления

Расширение на большее количество платформ и временных периодов
Включение более разнообразных выборок населения
Разработка методов для снижения смещения модели
Изучение динамической аннотации новых категорий идентичности

Глубокая оценка

Преимущества

Методологическая инновативность: впервые объединены крупномасштабные данные опросов с аннотацией текста, обеспечивая культурно-чувствительную исследовательскую основу
Технический вклад: установление сильных базовых показателей на языке с ограниченными ресурсами, доказывающих важность языково-специфичных моделей
Достаточность экспериментов: охватывает несколько типов моделей, кросс-доменную оценку и внешнюю валидацию
Ценность для социальных наук: предоставляет глубокие insights в политический дискурс и динамику идентичности

Недостатки

Репрезентативность данных: ограничения выборки опроса могут влиять на универсальность категорий идентичности
Согласованность аннотации: относительно низкие значения κ для некоторых категорий (например, Conservative: 0,705)
Диапазон оценки: кросс-доменная оценка основана только на 500 образцах, может быть недостаточной

Влияние

Академическая ценность: предоставляет важный ресурс для вычислительной социальной науки и многоязычного NLP
Практическая ценность: может использоваться для анализа политической коммуникации, мониторинга общественного мнения и других приложений
Методологический вклад: предоставляет шаблон для аналогичных исследований в других неанглийских политических контекстах

Применимые сценарии

Исследование политической коммуникации
Анализ социальной идентичности
Многоязычный анализ настроений
Мониторинг политического дискурса
Кросс-культурные сравнительные исследования

Библиография

В данной работе цитируются важные работы из нескольких областей, включая теорию социальной идентичности, компьютерную лингвистику и политическую коммуникацию. Теоретической основой служит интегративная теория межгрупповых конфликтов Tajfel and Turner (1979), а также недавние результаты исследований NLP в области обнаружения упоминаний групп и анализа фреймов.

Общая оценка: это высококачественное междисциплинарное исследование с важными вкладами в методологию, техническую реализацию и insights социальных наук. Исследование заполняет пробел в анализе иврито-язычных политических текстов и делает ценный вклад в развитие многоязычного NLP и вычислительной социальной науки.