2025-11-19T20:19:14.203751

Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning

Liu, Wang, Liu et al.
Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.
academic

Гибридное многоэтапное декодирование для Few-shot NER с контрастивным обучением, ориентированным на сущности

Основная информация

  • ID статьи: 2404.06970
  • Название: Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning
  • Авторы: Congying Liu, Gaosheng Wang, Peipei Liu, Xingyuan Wei, Hongsong Zhu
  • Категория: cs.CL
  • Дата публикации: апрель 2024 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2404.06970

Аннотация

Распознавание именованных сущностей с малым числом примеров (Few-shot NER) позволяет идентифицировать новые типы именованных сущностей на основе нескольких размеченных примеров. Предыдущие методы, использующие метрическое обучение на уровне токенов или спанов, страдают от вычислительной нагрузки и большого количества отрицательных примеров спанов. В данной работе предлагается метод MsFNER (Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning), который разделяет общую задачу NER на два этапа: обнаружение спана сущности и классификацию сущности. Процесс введения MsFNER включает три этапа: обучение, тонкая настройка и вывод. На этапе обучения мы отдельно обучаем модель обнаружения спана сущности и модель классификации сущности на исходном домене с использованием метаобучения, где мы создаём модуль контрастивного обучения для улучшения представлений сущностей при классификации. На этапе тонкой настройки мы настраиваем обе модели на наборе поддержки целевого домена. На этапе вывода для немеченых данных мы сначала обнаруживаем спаны сущностей, затем спаны совместно определяются моделью классификации сущности и методом KNN. Мы проводим эксперименты на открытом наборе данных FewNERD, и результаты демонстрируют преимущества MsFNER.

Исследовательский контекст и мотивация

Определение проблемы

Распознавание именованных сущностей с малым числом примеров (Few-shot NER) направлено на быстрое распознавание новых типов именованных сущностей на основе небольшого количества размеченных образцов. Эта задача имеет важное значение для адаптации к динамически изменяющимся сценариям реальных приложений, особенно в случаях, когда модель должна быстро адаптироваться к новым данным или изменениям окружающей среды.

Ограничения существующих методов

  1. Методы на уровне токенов: Хотя методы, основанные на расстоянии между токеном и прототипом или токенами набора поддержки, просты и интуитивны, они страдают от высокой вычислительной стоимости и неспособности сохранять семантическую целостность токенов сущности, легко подвергаясь влиянию неэнтитетных маркеров.
  2. Методы на уровне спанов: Хотя они могут смягчить некоторые проблемы методов на уровне токенов путём оценки всего спана, перечисление всех возможных спанов приводит к сложности O(N²) и увеличивает шум от большого количества отрицательных примеров.

Исследовательская мотивация

Авторы стремятся решить две основные проблемы:

  1. Как повысить эффективность распознавания few-shot NER путём усиления семантических различий между сущностями и несущностями для определения эффективных спанов сущностей
  2. Как улучшить классификацию спанов сущностей путём контроля и координации семантических расстояний между различными типами сущностей, чтобы представления сущностей одного класса были ближе друг к другу, а представления разных классов — дальше

Основные вклады

  1. Предложена структура MsFNER: Разложение традиционной задачи NER на два этапа — обнаружение спана сущности и классификацию сущности, что эффективно снижает вычислительную сложность и уменьшает влияние отрицательных примеров
  2. Разработан модуль контрастивного обучения, ориентированный на сущности: Улучшение обучения представлениям сущностей, повышение согласованности сущностей одного класса и увеличение расстояния между сущностями разных классов
  3. Построен гибридный механизм вывода: Объединение модели классификации сущности и метода KNN для совместного предсказания, повышение точности классификации
  4. Достижение производительности SOTA: Значительное превосходство над существующими методами на наборах данных FewNERD и FewAPTER, а также комплексное сравнение с ChatGPT

Подробное описание метода

Определение задачи

Задача Few-shot NER определяется следующим образом: модель сначала обучается на наборе данных исходного домена Dsource=(Ssource,Qsource)D_{source} = (S_{source}, Q_{source}), а затем переносится на набор данных целевого домена Dtarget=(Starget,Qtarget)D_{target} = (S_{target}, Q_{target}) для вывода. Здесь StargetS_{target} — это набор поддержки, содержащий N типов сущностей (N-way), каждый тип имеет K размеченных примеров (K-shot); QtargetQ_{target} — это набор запросов, содержащий те же типы сущностей, что и набор поддержки.

Архитектура модели

MsFNER включает три основных процесса:

1. Процесс обучения (Training Process)

Модуль обнаружения спана сущности (ESD):

  • Рассмотрение обнаружения спана сущности как задачи разметки последовательности с использованием схемы BIOES
  • Для входного предложения x=(x1,x2,...,xn)x = (x_1, x_2, ..., x_n) использование кодировщика BERT для получения представлений контекста h=(h1,h2,...,hn)h = (h_1, h_2, ..., h_n)
  • Обнаружение спана сущности через слой CRF, функция потерь обучения:

LESD=logP(yx)L_{ESD} = -\sum \log P(y|x)

где: P(yx)=i=1xϕi(yi1,yi,x)yi=1xϕi(yi1,yi,x)P(y|x) = \frac{\prod_{i=1}^{|x|} \phi_i(y_{i-1}, y_i, x)}{\sum_{y'} \prod_{i=1}^{|x|} \phi_i(y'_{i-1}, y'_i, x)}

  • Использование метода метаобучения MAML, включающего обновления внутреннего и внешнего циклов

Модуль классификации сущности (EC):

  • Для сущности ek=(xf,...,xf+l)e_k = (x_f, ..., x_{f+l}) использование максимального объединения для получения представления: e^k=max(hf,...,hf+l)\hat{e}_k = \max(h_f, ..., h_{f+l})
  • Введение контрастивного обучения, ориентированного на сущности, функция потерь: LCL=j1P(j)pP(j)logexp(sim(zj,zp)/τ)aA(j)exp(sim(zj,za)/τ)L_{CL} = \sum_j -\frac{1}{|P(j)|} \sum_{p \in P(j)} \log \frac{\exp(\text{sim}(z_j, z_p)/\tau)}{\sum_{a \in A(j)} \exp(\text{sim}(z_j, z_a)/\tau)}
  • Построение представления прототипа и классификация: ct(S)=1StemSte^mc_t(S) = \frac{1}{|S_t|} \sum_{e_m \in S_t} \hat{e}_m

psoft(ek)=exp(d(ct(S),e^k))i=1ϕexp(d(ci(S),e^k))p_{soft}(e_k) = \frac{\exp(-d(c_t(S), \hat{e}_k))}{\sum_{i=1}^{|\phi|} \exp(-d(c_i(S), \hat{e}_k))}

2. Процесс тонкой настройки (Finetuning Process)

Тонкая настройка обученных моделей обнаружения сущности и классификации на наборе поддержки целевого домена StargetS_{target} с использованием того же режима, что и в процессе обучения.

3. Процесс вывода (Inference Process)

Включает четыре этапа:

  1. Построение хранилища данных ключ-значение DknnD_{knn}, где ключи — представления сущностей, значения — соответствующие метки
  2. Получение спанов сущностей с использованием модели обнаружения сущности
  3. Подача обнаруженных представлений сущностей в модель классификации и модуль KNN
  4. Совместное предсказание: p(yek)=λpknn(yek)+(1λ)psoft(yek)p(y|e'_k) = \lambda p_{knn}(y|e'_k) + (1-\lambda) p_{soft}(y|e'_k)

Технические инновации

  1. Стратегия двухэтапного разложения: Разложение задачи NER на два подзадачи — обнаружение спана и классификацию, что избегает проблемы сложности перечисления всех возможных спанов в традиционных методах
  2. Контрастивное обучение, ориентированное на сущности: Специально разработанный модуль контрастивного обучения улучшает представления сущностей, повышая компактность сущностей одного класса и различимость сущностей разных классов
  3. Гибридный механизм вывода: Объединение параметризованной модели и непараметрического метода KNN для полного использования информации набора поддержки

Экспериментальная установка

Наборы данных

Набор данных FewNERD:

  • Содержит 8 типов сущностей грубой зернистости и 66 типов сущностей тонкой зернистости
  • Оценка двух установок: FewNERD-INTRA и FewNERD-INTER
  • Использование метода выборки N-way K~2K-shot для построения задач

Набор данных FewAPTER:

  • Построен на основе набора данных разведки об угрозах кибербезопасности APTER
  • Консолидация исходных 37 типов сущностей в 21 класс, всего 28 250 сущностей
  • Разделение на наборы обучения/валидации/тестирования в соотношении 7:7:7
  • Построение четырёх установок: 4-way 1-shot, 4-way 3-shot, 6-way 1-shot, 6-way 3-shot

Метрики оценки

Использование F1-оценки в качестве основной метрики оценки с отчётом о стандартном отклонении.

Методы сравнения

  • ProtoBERT: метод на уровне токенов, основанный на сходстве скрытых состояний BERT
  • CONTAINER: метод с использованием контрастивного обучения на уровне токенов
  • NNShot/StructShot: методы, основанные на алгоритме ближайшего соседа
  • ESD: метод сопоставления на уровне спанов
  • MAML-ProtoNet: метод метаобучения, объединяющий MAML и сеть прототипов
  • BDCP: метод с граничной дискриминацией и очисткой релевантности
  • ChatGPT: базовая модель большого языка

Детали реализации

  • Кодировщик: BERT-base
  • Оптимизатор: AdamW, скорость обучения 3e-5
  • Размер пакета: 32, максимальная длина последовательности: 128
  • K=10 в KNN, λ=0.1
  • Обучение на протяжении 1000 шагов, выбор лучшей модели на наборе валидации

Результаты экспериментов

Основные результаты

Набор данных FewNERD:

  • Среднее повышение F1 на 2,65% на FewNERD-INTRA
  • Среднее повышение F1 на 4,44% на FewNERD-INTER
  • Значительное улучшение по сравнению с предыдущим лучшим методом MAML-ProtoNet

Набор данных FewAPTER:

  • Среднее повышение F1-оценки на 11,42%
  • Превосходство над ChatGPT в большинстве установок

Сравнение с ChatGPT:

  • Общее превосходство над ChatGPT на FewNERD
  • Незначительное отставание от ChatGPT на FewAPTER, но значительно более высокая скорость вывода

Абляционные эксперименты

  1. Удаление модуля контрастивного обучения:
    • Среднее снижение на 0,905% на FewNERD
    • Среднее снижение на 0,745% на FewAPTER
  2. Удаление модуля KNN:
    • Среднее снижение на 0,524% на FewNERD
    • Среднее снижение на 0,635% на FewAPTER

Результаты показывают, что оба модуля положительно влияют на производительность.

Анализ эффективности

Время вывода MsFNER значительно быстрее, чем ChatGPT, демонстрируя более высокую эффективность во всех установках, что соответствует принципу бритвы Оккама.

Экспериментальные выводы

  1. Влияние количества K-shot: Увеличение количества образцов K-shot значительно повышает производительность
  2. Влияние количества N-way: Увеличение N-way снижает производительность, что соответствует интуиции
  3. Адаптация к домену: Модель хорошо работает на задачах кросс-доменного переноса
  4. Стабильность LLM: Производительность ChatGPT относительно стабильна, мало зависит от изменений данных и домена

Связанные работы

Основные направления Few-shot NER

  1. Методы на уровне токенов: Такие как ProtoBERT, CONTAINER и др., основанные на сходстве токенов для предсказания
  2. Методы на уровне спанов: Такие как ESD, рассматривающие сущности как целые спаны
  3. Методы метаобучения: Такие как MAML-ProtoNet, использующие структуру метаобучения для быстрой адаптации к новым задачам

Преимущества данной работы

По сравнению с существующими работами MsFNER эффективно решает проблемы вычислительной сложности и отрицательных примеров благодаря двухэтапному разложению, одновременно вводя контрастивное обучение для улучшения обучения представлениям.

Заключение и обсуждение

Основные выводы

  1. Эффективность: MsFNER достигает производительности SOTA на нескольких наборах данных, доказывая эффективность стратегии двухэтапного разложения
  2. Эффективность: Значительное снижение вычислительной сложности по сравнению с традиционными методами на уровне спанов
  3. Универсальность: Хорошая производительность в различных доменах и установках

Ограничения

  1. Ограничения адаптации к домену: Способность обобщения в некоторых специфических доменах (например, FewAPTER) всё ещё может быть улучшена
  2. Чувствительность гиперпараметров: Гиперпараметры, такие как λ, требуют настройки для различных наборов данных
  3. Вычислительные ресурсы: По-прежнему требуется предварительно обученная модель BERT в качестве основы

Будущие направления

  1. Более сильная адаптация к домену: Исследование лучших методов кросс-доменного переноса
  2. Сквозная оптимизация: Изучение стратегий совместной оптимизации двух этапов
  3. Оценка в более крупном масштабе: Проверка эффективности метода на большем количестве доменов и языков

Глубокая оценка

Преимущества

  1. Сильная методологическая инновация: Стратегия двухэтапного разложения новаторская и эффективно решает основные проблемы существующих методов
  2. Разумный технический дизайн: Контрастивное обучение, ориентированное на сущности, и гибридный механизм вывода разработаны искусно
  3. Полные эксперименты: Комплексная оценка на нескольких наборах данных, включая сравнение с LLM
  4. Глубокий анализ: Предоставлены подробные абляционные эксперименты и анализ эффективности

Недостатки

  1. Недостаток теоретического анализа: Отсутствие теоретического объяснения эффективности метода
  2. Отсутствие анализа вычислительной сложности: Хотя утверждается снижение сложности, отсутствует количественный анализ
  3. Отсутствие анализа ошибок: Нет глубокого анализа случаев отказа модели

Влияние

  1. Академический вклад: Предоставление новых подходов к решению задачи few-shot NER
  2. Практическая ценность: Метод прост, эффективен, легко реализуется и развёртывается
  3. Воспроизводимость: Предоставлены подробные детали реализации и настройки гиперпараметров

Применимые сценарии

  1. Среды с ограниченными ресурсами: Более подходит для сценариев с ограниченными вычислительными ресурсами по сравнению с большими языковыми моделями
  2. Требования к быстрому развёртыванию: Способность быстро адаптироваться к новым типам сущностей
  3. Приложения в специфических доменах: Хорошие перспективы применения в вертикальных доменах, таких как кибербезопасность

Библиография

Статья ссылается на важные работы в соответствующих областях, включая:

  • Базовые методы few-shot обучения (Prototypical Networks, MAML)
  • Классические методы распознавания именованных сущностей (подходы на основе BERT)
  • Связанные работы по контрастивному обучению (Supervised Contrastive Learning)
  • Специализированные методы Few-shot NER (ProtoBERT, ESD, MAML-ProtoNet и др.)

Общая оценка: Это отличная статья с прочной технической базой и полными экспериментами. Предложенная авторами стратегия двухэтапного разложения эффективно решает ключевые проблемы существующих методов и достигает значительного повышения производительности на нескольких наборах данных. Дизайн метода разумен, практическая ценность высока, и работа вносит ценный вклад в область few-shot NER.