Benchmarks are crucial for evaluating machine learning algorithm performance, facilitating comparison and identifying superior solutions. However, biases within datasets can lead models to learn shortcut patterns, resulting in inaccurate assessments and hindering real-world applicability. This paper addresses the issue of entity bias in relation extraction tasks, where models tend to rely on entity mentions rather than context. We propose a debiased relation extraction benchmark DREB that breaks the pseudo-correlation between entity mentions and relation types through entity replacement. DREB utilizes Bias Evaluator and PPL Evaluator to ensure low bias and high naturalness, providing a reliable and accurate assessment of model generalization in entity bias scenarios. To establish a new baseline on DREB, we introduce MixDebias, a debiasing method combining data-level and model training-level techniques. MixDebias effectively improves model performance on DREB while maintaining performance on the original dataset. Extensive experiments demonstrate the effectiveness and robustness of MixDebias compared to existing methods, highlighting its potential for improving the generalization ability of relation extraction models. We will release DREB and MixDebias publicly.
- ID статьи: 2501.01349
- Название: Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark
- Авторы: Liang He, Yougang Chu, Zhen Wu, Jianbing Zhang, Xinyu Dai, Jiajun Chen (Университет Нанкина)
- Классификация: cs.AI
- Дата публикации: 2 января 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2501.01349
Эталонные наборы данных имеют решающее значение для оценки производительности алгоритмов машинного обучения, однако смещения в наборах данных приводят к тому, что модели изучают ярлыки, что приводит к неточной оценке и препятствует практическому применению. В данной статье рассматривается проблема смещения сущностей в задаче извлечения отношений, то есть тенденция моделей полагаться на упоминания сущностей, а не на контекст. Авторы предлагают несмещённый эталон извлечения отношений DREB, который разрывает псевдокорреляцию между упоминаниями сущностей и типами отношений путём замены сущностей. DREB использует оценщик смещения и оценщик перплексии для обеспечения низкого смещения и высокой естественности. Для установления новых базовых показателей на DREB авторы вводят метод MixDebias, который сочетает методы несмещения на уровне данных и на уровне обучения модели.
В задаче извлечения отношений существует серьёзная проблема смещения сущностей:
- Псевдокорреляция: ложная статистическая корреляция между упоминаниями сущностей и типами отношений
- Обучение ярлыкам: модели чрезмерно полагаются на названия сущностей, а не на информацию контекста при прогнозировании
- Плохая способность к обобщению: производительность модели значительно снижается при замене или удалении сущностей
- В наборе данных TACRED более половины экземпляров можно правильно предсказать, используя только упоминания сущностей
- Модели SOTA, такие как LUKE и IRE, показывают снижение оценки F1 на 30%-50% после замены сущностей
- Большие языковые модели игнорируют противоречивую или недостаточно представленную информацию контекста, чрезмерно полагаясь на смещённые параметризованные знания
На уровне данных:
- Существующие методы несмещения могут вводить новые смещения
- Метод Wang et al. приводит к смещению распределения
- Замена сущностей в ENTRED не имеет семантических ограничений
На уровне модели:
- DFL может ухудшить производительность внутри домена
- R-Drop не обеспечивает точный контроль над смещением сущностей
- Постобработка CoRE не может полностью устранить смещение, изученное во время обучения
- Предложение эталона DREB: первый специализированный несмещённый эталон извлечения отношений для смещения сущностей, гарантирующий, что модели не могут прогнозировать, полагаясь только на упоминания сущностей
- Разработка двойного механизма оценки: оценщик смещения и оценщик перплексии обеспечивают низкое смещение и высокую естественность
- Разработка метода MixDebias: новый базовый метод, сочетающий несмещение на уровне данных и на уровне модели
- Комплексная экспериментальная оценка: проверка эффективности и надёжности метода на нескольких наборах данных
DREB разрывает псевдокорреляцию между упоминаниями сущностей и типами отношений через стратегию замены сущностей:
- Замена сущностей: запрос сущностей того же типа из Wikidata для замены
- Оценка смещения: использование нейронной сети для оценки степени смещения заменённых образцов
- Обеспечение естественности: использование оценщика перплексии для гарантии естественности сгенерированных образцов
Оценщик смещения моделирует псевдокорреляцию смещения сущностей:
- Функция извлечения признаков φ(x) извлекает признаки смещения сущностей
- Нейронная сеть F: φ(x) → y непосредственно моделирует корреляцию
- Выход F(φ(x)) отражает внутреннее смещение образца x
Использует GPT-2 для вычисления перплексии образца, обеспечивая естественность сгенерированных образцов:
logPPL(W)=−n1∑i=1nlogP(wi∣w1,...,wi−1)
Образцы с наименьшей перплексией выбираются в качестве окончательных сгенерированных образцов.
Генерирует увеличенные образцы путём замены сущностей с ограничением дивергенции Кульбака-Лейблера:
LRDA=21(DKL(P∣∣Paug)+DKL(Paug∣∣P))
где P и P_aug — распределения вероятностей исходных и увеличенных образцов соответственно.
Использует оценку причинного эффекта для выявления и количественной оценки смещения сущностей:
- Оценка вероятности смещения: Pbias=P−λPcontext
- Фокусная потеря без смещения: LCDA=−(1−Pbiasj)logPj
LMixDebias=LCDA+βLRDA
=−(1−(Pj−λPcontextj))logPj+2β(DKL(P∣∣Paug)+DKL(Paug∣∣P))
- Двойной контроль качества: одновременное рассмотрение степени смещения и естественности
- Сохранение распределения: DREB сохраняет то же распределение отношений, что и исходный набор данных
- Многоуровневое несмещение: органическое сочетание методов на уровне данных и модели
- Динамическое увеличение: динамическое создание увеличенных образцов во время обучения
- TACRED: широко используемый набор данных для извлечения отношений
- TACREV: пересмотренная версия TACRED, решающая проблемы аннотирования и шума
- Re-TACRED: набор данных с переработанными типами отношений
- Оценка F1: гармоническое среднее точности и полноты
- Эффективность смягчения смещения (BME):
BME=α⋅F1~originF1origin+(1−α)⋅F1~DREBF1DREB
где α=0.5
Базовые модели:
- LUKE: модель на основе Transformer, осведомлённая о сущностях
- IRE: улучшенная базовая линия с типизированными метками сущностей
Методы несмещения:
- Focal Loss: снижение влияния простых образцов
- R-Drop: повышение обобщения через согласованность dropout
- DFL: корректировка функции потерь на основе модели смещения
- PoE: модель произведения экспертов
- CoRE: метод несмещения на основе причинного графика
- Гиперпараметры β∈0.0,1.0, λ∈-0.6,0.6
- Оптимальные настройки: β=0.8, λ=0.2
- Использование стандартного процесса обучения для извлечения отношений
| Модель | TACRED | | TACREV | | Re-TACRED | |
|---|
| F1_origin | F1_DREB | F1_origin | F1_DREB | F1_origin | F1_DREB |
| LUKE | 70.82 | 44.40 | 80.16 | 50.60 | 88.92 | 39.40 |
| +MixDebias | 69.93 | 62.44 | 80.91 | 72.93 | 87.95 | 77.71 |
| IRE | 71.27 | 50.94 | 79.36 | 57.20 | 87.43 | 46.25 |
| +MixDebias | 71.99 | 70.02 | 80.97 | 79.15 | 87.27 | 82.17 |
- Значительное улучшение производительности: MixDebias показывает наиболее значительное улучшение производительности на DREB, с увеличением оценки F1 на 15-40 процентных пункта
- Сохранение исходной производительности: сохранение или незначительное улучшение производительности на исходных наборах данных
- Лидерство по метрике BME: значительное превосходство над другими методами по комплексной метрике оценки BME
- Последовательная производительность: отличные результаты на всех трёх наборах данных
| Компонент | TACRED | | TACREV | | Re-TACRED | |
|---|
| F1_origin | F1_DREB | F1_origin | F1_DREB | F1_origin | F1_DREB |
| Полный MixDebias | 69.93 | 62.44 | 80.91 | 72.93 | 87.95 | 77.71 |
| -CDA | 69.66 | 62.06 | 80.63 | 71.99 | 88.45 | 78.26 |
| -RDA | 69.68 | 45.77 | 79.32 | 51.91 | 88.69 | 39.72 |
Ключевые выводы:
- RDA является более критичным компонентом, удаление которого приводит к значительному снижению производительности
- CDA обеспечивает дополнительный эффект, дополнительно оптимизируя эффект несмещения
- Два компонента дополняют друг друга, совместно достигая оптимальной производительности
- Параметр β: контролирует вес дивергенции Кульбака-Лейблера, оптимальный эффект при β=0.8
- Параметр λ: контролирует оценку причинного эффекта, оптимальный результат при λ=0.2
- На зашумленных наборах данных (TACRED, TACREV) надлежащие значения β могут также улучшить производительность на исходных наборах данных
Визуализация распределения вероятностей меток при использовании только входных сущностей показывает:
- Вероятности базовой модели сосредоточены вблизи значения 1
- После MixDebias распределение вероятностей становится более равномерным
- Псевдокорреляция между упоминаниями сущностей и типами отношений значительно снижается
- Установка фильтрующей оценки Wang et al.
- Ограничения типов и случайная замена сущностей в ENTRED
- Проблемы смещения распределения и недостаточных семантических ограничений
- Корректировка функции потерь DFL
- Согласованность выходного распределения R-Drop
- Метод причинного графика CoRE
- Проблемы компромисса между сохранением исходной производительности и эффектом несмещения в каждом методе
- Первый специализированный эталон несмещения
- Комплексный метод на уровне данных и модели
- Строгий механизм контроля качества
- Эффективность эталона DREB: успешно разрывает псевдокорреляцию между упоминаниями сущностей и типами отношений
- Превосходство метода MixDebias: достигает оптимального баланса между эффектом несмещения и сохранением исходной производительности
- Универсальность проблемы смещения сущностей: существующие модели SOTA повсеместно страдают от серьёзных проблем смещения сущностей
- Вычислительные затраты: динамическое создание увеличенных образцов увеличивает время обучения
- Зависимость от ресурсов сущностей: требует поддержки внешних баз знаний (Wikidata)
- Языковые ограничения: в основном проверено на наборах данных на английском языке
- Охват типов отношений: протестировано только на извлечении отношений на уровне предложения
- Расширение на другие языки: распространение метода на другие языки
- Извлечение отношений на уровне документа: адаптация к более сложным сценариям извлечения отношений
- Оптимизация вычислительной эффективности: снижение вычислительных затрат во время обучения
- Теоретический анализ: предоставление более глубоких теоретических гарантий
- Точное выявление проблемы: точное выявление и количественная оценка проблемы смещения сущностей при извлечении отношений
- Разумный дизайн метода: двойной механизм оценки обеспечивает качество эталона, многоуровневая стратегия несмещения научно обоснована и эффективна
- Строгий дизайн экспериментов: комплексные сравнительные эксперименты, исследование абляции и визуальный анализ
- Вклад в эталон: DREB заполняет пробел в оценке несмещения при извлечении отношений
- Инновация метода: MixDebias предоставляет новую парадигму несмещения
- Эмпирическая ценность: раскрывает ограничения существующих методов, предоставляет направления для последующих исследований
- Проверка на нескольких наборах данных: проверка на трёх основных наборах данных
- Многоугольный анализ: сравнение производительности, исследование абляции, анализ гиперпараметров, визуализация и т.д.
- Статистическая значимость: результаты имеют статистическую значимость
- Вычислительная сложность: требует динамического создания увеличенных образцов во время обучения, увеличивая вычислительные затраты
- Внешние зависимости: зависит от внешних ресурсов, таких как Wikidata, что может повлиять на универсальность метода
- Чувствительность гиперпараметров: параметры β и λ требуют тщательной настройки
- Языковая однородность: проверено только на наборах данных на английском языке, отсутствует кроссязыковая проверка
- Ограничение области задач: рассматривает только извлечение отношений на уровне предложения
- Выбор базовых линий: можно включить больше современных методов несмещения для сравнения
- Отсутствие теоретических гарантий: отсутствует теоретический анализ эффективности метода
- Анализ сходимости: не предоставляется гарантия сходимости функции потерь
- Границы обобщения: отсутствуют теоретические границы способности к обобщению
- Новаторская работа: имеет новаторское значение в области несмещения при извлечении отношений
- Ценность эталона: DREB может стать стандартным эталоном оценки в этой области
- Методологическое вдохновение: предоставляет новые идеи для последующих исследований несмещения
- Промышленное применение: имеет важное значение для повышения эффективности практического развёртывания систем извлечения отношений
- Улучшение справедливости: помогает снизить проблемы смещения в системах обработки естественного языка
- Воспроизводимость: авторы обещают открыть исходный код и данные
- Оценка систем извлечения отношений: предоставляет более надёжную оценку для моделей извлечения отношений
- Разработка методов несмещения: предоставляет платформу тестирования для разработки новых методов несмещения
- Исследование справедливого ИИ: предоставляет конкретные примеры и инструменты для исследования справедливого ИИ
Статья цитирует важные работы в области извлечения отношений и несмещения, включая:
- Серия наборов данных TACRED (Zhang et al., 2017; Alt et al., 2020; Stoica et al., 2021)
- Исследования, связанные со смещением сущностей (Wang et al., 2022, 2023; Peng et al., 2020)
- Методы несмещения (Mahabadi et al., 2020; Liang et al., 2021)
- Базовые модели (Yamada et al., 2020; Zhou & Chen, 2022)
Общая оценка: Это высококачественная исследовательская статья, которая точно выявляет и эффективно решает важную проблему при извлечении отношений. Эталон DREB и метод MixDebias обладают сильной инновативностью и практической ценностью. Несмотря на некоторые ограничения, вклад значителен и может способствовать развитию исследований несмещения при извлечении отношений.