2025-11-20T05:28:14.865591

Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark

He, Chu, Wu et al.

Benchmarks are crucial for evaluating machine learning algorithm performance, facilitating comparison and identifying superior solutions. However, biases within datasets can lead models to learn shortcut patterns, resulting in inaccurate assessments and hindering real-world applicability. This paper addresses the issue of entity bias in relation extraction tasks, where models tend to rely on entity mentions rather than context. We propose a debiased relation extraction benchmark DREB that breaks the pseudo-correlation between entity mentions and relation types through entity replacement. DREB utilizes Bias Evaluator and PPL Evaluator to ensure low bias and high naturalness, providing a reliable and accurate assessment of model generalization in entity bias scenarios. To establish a new baseline on DREB, we introduce MixDebias, a debiasing method combining data-level and model training-level techniques. MixDebias effectively improves model performance on DREB while maintaining performance on the original dataset. Extensive experiments demonstrate the effectiveness and robustness of MixDebias compared to existing methods, highlighting its potential for improving the generalization ability of relation extraction models. We will release DREB and MixDebias publicly.

academic

Переосмысление извлечения отношений: За пределами ярлыков к обобщению с помощью несмещённого эталона

Основная информация

ID статьи: 2501.01349
Название: Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark
Авторы: Liang He, Yougang Chu, Zhen Wu, Jianbing Zhang, Xinyu Dai, Jiajun Chen (Университет Нанкина)
Классификация: cs.AI
Дата публикации: 2 января 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.01349

Аннотация

Эталонные наборы данных имеют решающее значение для оценки производительности алгоритмов машинного обучения, однако смещения в наборах данных приводят к тому, что модели изучают ярлыки, что приводит к неточной оценке и препятствует практическому применению. В данной статье рассматривается проблема смещения сущностей в задаче извлечения отношений, то есть тенденция моделей полагаться на упоминания сущностей, а не на контекст. Авторы предлагают несмещённый эталон извлечения отношений DREB, который разрывает псевдокорреляцию между упоминаниями сущностей и типами отношений путём замены сущностей. DREB использует оценщик смещения и оценщик перплексии для обеспечения низкого смещения и высокой естественности. Для установления новых базовых показателей на DREB авторы вводят метод MixDebias, который сочетает методы несмещения на уровне данных и на уровне обучения модели.

Исследовательский контекст и мотивация

Определение проблемы

В задаче извлечения отношений существует серьёзная проблема смещения сущностей:

Псевдокорреляция: ложная статистическая корреляция между упоминаниями сущностей и типами отношений
Обучение ярлыкам: модели чрезмерно полагаются на названия сущностей, а не на информацию контекста при прогнозировании
Плохая способность к обобщению: производительность модели значительно снижается при замене или удалении сущностей

Важность проблемы

В наборе данных TACRED более половины экземпляров можно правильно предсказать, используя только упоминания сущностей
Модели SOTA, такие как LUKE и IRE, показывают снижение оценки F1 на 30%-50% после замены сущностей
Большие языковые модели игнорируют противоречивую или недостаточно представленную информацию контекста, чрезмерно полагаясь на смещённые параметризованные знания

Ограничения существующих методов

На уровне данных:

Существующие методы несмещения могут вводить новые смещения
Метод Wang et al. приводит к смещению распределения
Замена сущностей в ENTRED не имеет семантических ограничений

На уровне модели:

DFL может ухудшить производительность внутри домена
R-Drop не обеспечивает точный контроль над смещением сущностей
Постобработка CoRE не может полностью устранить смещение, изученное во время обучения

Основные вклады

Предложение эталона DREB: первый специализированный несмещённый эталон извлечения отношений для смещения сущностей, гарантирующий, что модели не могут прогнозировать, полагаясь только на упоминания сущностей
Разработка двойного механизма оценки: оценщик смещения и оценщик перплексии обеспечивают низкое смещение и высокую естественность
Разработка метода MixDebias: новый базовый метод, сочетающий несмещение на уровне данных и на уровне модели
Комплексная экспериментальная оценка: проверка эффективности и надёжности метода на нескольких наборах данных

Подробное описание методов

Построение эталона DREB

Общая архитектура

DREB разрывает псевдокорреляцию между упоминаниями сущностей и типами отношений через стратегию замены сущностей:

Замена сущностей: запрос сущностей того же типа из Wikidata для замены
Оценка смещения: использование нейронной сети для оценки степени смещения заменённых образцов
Обеспечение естественности: использование оценщика перплексии для гарантии естественности сгенерированных образцов

Оценщик смещения

Оценщик смещения моделирует псевдокорреляцию смещения сущностей:

Функция извлечения признаков φ(x) извлекает признаки смещения сущностей
Нейронная сеть F: φ(x) → y непосредственно моделирует корреляцию
Выход F(φ(x)) отражает внутреннее смещение образца x

Оценщик перплексии

Использует GPT-2 для вычисления перплексии образца, обеспечивая естественность сгенерированных образцов:

$\log PPL(W) = -\frac{1}{n}\sum_{i=1}^{n}\log P(w_i|w_1,...,w_{i-1})$

Образцы с наименьшей перплексией выбираются в качестве окончательных сгенерированных образцов.

Метод несмещения MixDebias

Несмещение на уровне данных (RDA)

Генерирует увеличенные образцы путём замены сущностей с ограничением дивергенции Кульбака-Лейблера:

$L_{RDA} = \frac{1}{2}(D_{KL}(P||P_{aug}) + D_{KL}(P_{aug}||P))$

где P и P_aug — распределения вероятностей исходных и увеличенных образцов соответственно.

Несмещение на уровне модели (CDA)

Использует оценку причинного эффекта для выявления и количественной оценки смещения сущностей:

Оценка вероятности смещения: $P_{bias} = P - \lambda P_{context}$
Фокусная потеря без смещения: $L_{CDA} = -(1-P_{bias}^j)\log P^j$

Объединённая функция потерь

$L_{MixDebias} = L_{CDA} + \beta L_{RDA}$

$= -(1-(P^j-\lambda P_{context}^j))\log P^j + \frac{\beta}{2}(D_{KL}(P||P_{aug}) + D_{KL}(P_{aug}||P))$

Технические инновации

Двойной контроль качества: одновременное рассмотрение степени смещения и естественности
Сохранение распределения: DREB сохраняет то же распределение отношений, что и исходный набор данных
Многоуровневое несмещение: органическое сочетание методов на уровне данных и модели
Динамическое увеличение: динамическое создание увеличенных образцов во время обучения

Экспериментальная установка

Наборы данных

TACRED: широко используемый набор данных для извлечения отношений
TACREV: пересмотренная версия TACRED, решающая проблемы аннотирования и шума
Re-TACRED: набор данных с переработанными типами отношений

Метрики оценки

Оценка F1: гармоническое среднее точности и полноты
Эффективность смягчения смещения (BME): $BME = \alpha \cdot \frac{F1_{origin}}{\tilde{F1}_{origin}} + (1-\alpha) \cdot \frac{F1_{DREB}}{\tilde{F1}_{DREB}}$ где α=0.5

Методы сравнения

Базовые модели:

LUKE: модель на основе Transformer, осведомлённая о сущностях
IRE: улучшенная базовая линия с типизированными метками сущностей

Методы несмещения:

Focal Loss: снижение влияния простых образцов
R-Drop: повышение обобщения через согласованность dropout
DFL: корректировка функции потерь на основе модели смещения
PoE: модель произведения экспертов
CoRE: метод несмещения на основе причинного графика

Детали реализации

Гиперпараметры β∈0.0,1.0, λ∈-0.6,0.6
Оптимальные настройки: β=0.8, λ=0.2
Использование стандартного процесса обучения для извлечения отношений

Результаты экспериментов

Основные результаты

Модель	TACRED		TACREV		Re-TACRED
	F1_origin	F1_DREB	F1_origin	F1_DREB	F1_origin	F1_DREB
LUKE	70.82	44.40	80.16	50.60	88.92	39.40
+MixDebias	69.93	62.44	80.91	72.93	87.95	77.71
IRE	71.27	50.94	79.36	57.20	87.43	46.25
+MixDebias	71.99	70.02	80.97	79.15	87.27	82.17

Ключевые выводы

Значительное улучшение производительности: MixDebias показывает наиболее значительное улучшение производительности на DREB, с увеличением оценки F1 на 15-40 процентных пункта
Сохранение исходной производительности: сохранение или незначительное улучшение производительности на исходных наборах данных
Лидерство по метрике BME: значительное превосходство над другими методами по комплексной метрике оценки BME
Последовательная производительность: отличные результаты на всех трёх наборах данных

Исследование абляции

Компонент	TACRED		TACREV		Re-TACRED
	F1_origin	F1_DREB	F1_origin	F1_DREB	F1_origin	F1_DREB
Полный MixDebias	69.93	62.44	80.91	72.93	87.95	77.71
-CDA	69.66	62.06	80.63	71.99	88.45	78.26
-RDA	69.68	45.77	79.32	51.91	88.69	39.72

Ключевые выводы:

RDA является более критичным компонентом, удаление которого приводит к значительному снижению производительности
CDA обеспечивает дополнительный эффект, дополнительно оптимизируя эффект несмещения
Два компонента дополняют друг друга, совместно достигая оптимальной производительности

Анализ гиперпараметров

Параметр β: контролирует вес дивергенции Кульбака-Лейблера, оптимальный эффект при β=0.8
Параметр λ: контролирует оценку причинного эффекта, оптимальный результат при λ=0.2
На зашумленных наборах данных (TACRED, TACREV) надлежащие значения β могут также улучшить производительность на исходных наборах данных

Анализ способности к обобщению

Визуализация распределения вероятностей меток при использовании только входных сущностей показывает:

Вероятности базовой модели сосредоточены вблизи значения 1
После MixDebias распределение вероятностей становится более равномерным
Псевдокорреляция между упоминаниями сущностей и типами отношений значительно снижается

Связанные работы

Несмещение на уровне данных

Установка фильтрующей оценки Wang et al.
Ограничения типов и случайная замена сущностей в ENTRED
Проблемы смещения распределения и недостаточных семантических ограничений

Несмещение на уровне модели

Корректировка функции потерь DFL
Согласованность выходного распределения R-Drop
Метод причинного графика CoRE
Проблемы компромисса между сохранением исходной производительности и эффектом несмещения в каждом методе

Преимущества данной работы

Первый специализированный эталон несмещения
Комплексный метод на уровне данных и модели
Строгий механизм контроля качества

Заключение и обсуждение

Основные выводы

Эффективность эталона DREB: успешно разрывает псевдокорреляцию между упоминаниями сущностей и типами отношений
Превосходство метода MixDebias: достигает оптимального баланса между эффектом несмещения и сохранением исходной производительности
Универсальность проблемы смещения сущностей: существующие модели SOTA повсеместно страдают от серьёзных проблем смещения сущностей

Ограничения

Вычислительные затраты: динамическое создание увеличенных образцов увеличивает время обучения
Зависимость от ресурсов сущностей: требует поддержки внешних баз знаний (Wikidata)
Языковые ограничения: в основном проверено на наборах данных на английском языке
Охват типов отношений: протестировано только на извлечении отношений на уровне предложения

Направления будущих исследований

Расширение на другие языки: распространение метода на другие языки
Извлечение отношений на уровне документа: адаптация к более сложным сценариям извлечения отношений
Оптимизация вычислительной эффективности: снижение вычислительных затрат во время обучения
Теоретический анализ: предоставление более глубоких теоретических гарантий

Глубокая оценка

Преимущества

Техническая инновативность

Точное выявление проблемы: точное выявление и количественная оценка проблемы смещения сущностей при извлечении отношений
Разумный дизайн метода: двойной механизм оценки обеспечивает качество эталона, многоуровневая стратегия несмещения научно обоснована и эффективна
Строгий дизайн экспериментов: комплексные сравнительные эксперименты, исследование абляции и визуальный анализ

Академический вклад

Вклад в эталон: DREB заполняет пробел в оценке несмещения при извлечении отношений
Инновация метода: MixDebias предоставляет новую парадигму несмещения
Эмпирическая ценность: раскрывает ограничения существующих методов, предоставляет направления для последующих исследований

Достаточность экспериментов

Проверка на нескольких наборах данных: проверка на трёх основных наборах данных
Многоугольный анализ: сравнение производительности, исследование абляции, анализ гиперпараметров, визуализация и т.д.
Статистическая значимость: результаты имеют статистическую значимость

Недостатки

Ограничения метода

Вычислительная сложность: требует динамического создания увеличенных образцов во время обучения, увеличивая вычислительные затраты
Внешние зависимости: зависит от внешних ресурсов, таких как Wikidata, что может повлиять на универсальность метода
Чувствительность гиперпараметров: параметры β и λ требуют тщательной настройки

Экспериментальная установка

Языковая однородность: проверено только на наборах данных на английском языке, отсутствует кроссязыковая проверка
Ограничение области задач: рассматривает только извлечение отношений на уровне предложения
Выбор базовых линий: можно включить больше современных методов несмещения для сравнения

Недостаток теоретического анализа

Отсутствие теоретических гарантий: отсутствует теоретический анализ эффективности метода
Анализ сходимости: не предоставляется гарантия сходимости функции потерь
Границы обобщения: отсутствуют теоретические границы способности к обобщению

Оценка влияния

Академическое влияние

Новаторская работа: имеет новаторское значение в области несмещения при извлечении отношений
Ценность эталона: DREB может стать стандартным эталоном оценки в этой области
Методологическое вдохновение: предоставляет новые идеи для последующих исследований несмещения

Практическая ценность

Промышленное применение: имеет важное значение для повышения эффективности практического развёртывания систем извлечения отношений
Улучшение справедливости: помогает снизить проблемы смещения в системах обработки естественного языка
Воспроизводимость: авторы обещают открыть исходный код и данные

Применимые сценарии

Оценка систем извлечения отношений: предоставляет более надёжную оценку для моделей извлечения отношений
Разработка методов несмещения: предоставляет платформу тестирования для разработки новых методов несмещения
Исследование справедливого ИИ: предоставляет конкретные примеры и инструменты для исследования справедливого ИИ

Библиография

Статья цитирует важные работы в области извлечения отношений и несмещения, включая:

Серия наборов данных TACRED (Zhang et al., 2017; Alt et al., 2020; Stoica et al., 2021)
Исследования, связанные со смещением сущностей (Wang et al., 2022, 2023; Peng et al., 2020)
Методы несмещения (Mahabadi et al., 2020; Liang et al., 2021)
Базовые модели (Yamada et al., 2020; Zhou & Chen, 2022)

Общая оценка: Это высококачественная исследовательская статья, которая точно выявляет и эффективно решает важную проблему при извлечении отношений. Эталон DREB и метод MixDebias обладают сильной инновативностью и практической ценностью. Несмотря на некоторые ограничения, вклад значителен и может способствовать развитию исследований несмещения при извлечении отношений.