Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.
- ID статьи: 2404.06970
- Название: Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning
- Авторы: Congying Liu, Gaosheng Wang, Peipei Liu, Xingyuan Wei, Hongsong Zhu
- Категория: cs.CL
- Дата публикации: апрель 2024 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2404.06970
Распознавание именованных сущностей с малым числом примеров (Few-shot NER) позволяет идентифицировать новые типы именованных сущностей на основе нескольких размеченных примеров. Предыдущие методы, использующие метрическое обучение на уровне токенов или спанов, страдают от вычислительной нагрузки и большого количества отрицательных примеров спанов. В данной работе предлагается метод MsFNER (Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning), который разделяет общую задачу NER на два этапа: обнаружение спана сущности и классификацию сущности. Процесс введения MsFNER включает три этапа: обучение, тонкая настройка и вывод. На этапе обучения мы отдельно обучаем модель обнаружения спана сущности и модель классификации сущности на исходном домене с использованием метаобучения, где мы создаём модуль контрастивного обучения для улучшения представлений сущностей при классификации. На этапе тонкой настройки мы настраиваем обе модели на наборе поддержки целевого домена. На этапе вывода для немеченых данных мы сначала обнаруживаем спаны сущностей, затем спаны совместно определяются моделью классификации сущности и методом KNN. Мы проводим эксперименты на открытом наборе данных FewNERD, и результаты демонстрируют преимущества MsFNER.
Распознавание именованных сущностей с малым числом примеров (Few-shot NER) направлено на быстрое распознавание новых типов именованных сущностей на основе небольшого количества размеченных образцов. Эта задача имеет важное значение для адаптации к динамически изменяющимся сценариям реальных приложений, особенно в случаях, когда модель должна быстро адаптироваться к новым данным или изменениям окружающей среды.
- Методы на уровне токенов: Хотя методы, основанные на расстоянии между токеном и прототипом или токенами набора поддержки, просты и интуитивны, они страдают от высокой вычислительной стоимости и неспособности сохранять семантическую целостность токенов сущности, легко подвергаясь влиянию неэнтитетных маркеров.
- Методы на уровне спанов: Хотя они могут смягчить некоторые проблемы методов на уровне токенов путём оценки всего спана, перечисление всех возможных спанов приводит к сложности O(N²) и увеличивает шум от большого количества отрицательных примеров.
Авторы стремятся решить две основные проблемы:
- Как повысить эффективность распознавания few-shot NER путём усиления семантических различий между сущностями и несущностями для определения эффективных спанов сущностей
- Как улучшить классификацию спанов сущностей путём контроля и координации семантических расстояний между различными типами сущностей, чтобы представления сущностей одного класса были ближе друг к другу, а представления разных классов — дальше
- Предложена структура MsFNER: Разложение традиционной задачи NER на два этапа — обнаружение спана сущности и классификацию сущности, что эффективно снижает вычислительную сложность и уменьшает влияние отрицательных примеров
- Разработан модуль контрастивного обучения, ориентированный на сущности: Улучшение обучения представлениям сущностей, повышение согласованности сущностей одного класса и увеличение расстояния между сущностями разных классов
- Построен гибридный механизм вывода: Объединение модели классификации сущности и метода KNN для совместного предсказания, повышение точности классификации
- Достижение производительности SOTA: Значительное превосходство над существующими методами на наборах данных FewNERD и FewAPTER, а также комплексное сравнение с ChatGPT
Задача Few-shot NER определяется следующим образом: модель сначала обучается на наборе данных исходного домена Dsource=(Ssource,Qsource), а затем переносится на набор данных целевого домена Dtarget=(Starget,Qtarget) для вывода. Здесь Starget — это набор поддержки, содержащий N типов сущностей (N-way), каждый тип имеет K размеченных примеров (K-shot); Qtarget — это набор запросов, содержащий те же типы сущностей, что и набор поддержки.
MsFNER включает три основных процесса:
Модуль обнаружения спана сущности (ESD):
- Рассмотрение обнаружения спана сущности как задачи разметки последовательности с использованием схемы BIOES
- Для входного предложения x=(x1,x2,...,xn) использование кодировщика BERT для получения представлений контекста h=(h1,h2,...,hn)
- Обнаружение спана сущности через слой CRF, функция потерь обучения:
LESD=−∑logP(y∣x)
где:
P(y∣x)=∑y′∏i=1∣x∣ϕi(yi−1′,yi′,x)∏i=1∣x∣ϕi(yi−1,yi,x)
- Использование метода метаобучения MAML, включающего обновления внутреннего и внешнего циклов
Модуль классификации сущности (EC):
- Для сущности ek=(xf,...,xf+l) использование максимального объединения для получения представления:
e^k=max(hf,...,hf+l)
- Введение контрастивного обучения, ориентированного на сущности, функция потерь:
LCL=∑j−∣P(j)∣1∑p∈P(j)log∑a∈A(j)exp(sim(zj,za)/τ)exp(sim(zj,zp)/τ)
- Построение представления прототипа и классификация:
ct(S)=∣St∣1∑em∈Ste^m
psoft(ek)=∑i=1∣ϕ∣exp(−d(ci(S),e^k))exp(−d(ct(S),e^k))
Тонкая настройка обученных моделей обнаружения сущности и классификации на наборе поддержки целевого домена Starget с использованием того же режима, что и в процессе обучения.
Включает четыре этапа:
- Построение хранилища данных ключ-значение Dknn, где ключи — представления сущностей, значения — соответствующие метки
- Получение спанов сущностей с использованием модели обнаружения сущности
- Подача обнаруженных представлений сущностей в модель классификации и модуль KNN
- Совместное предсказание: p(y∣ek′)=λpknn(y∣ek′)+(1−λ)psoft(y∣ek′)
- Стратегия двухэтапного разложения: Разложение задачи NER на два подзадачи — обнаружение спана и классификацию, что избегает проблемы сложности перечисления всех возможных спанов в традиционных методах
- Контрастивное обучение, ориентированное на сущности: Специально разработанный модуль контрастивного обучения улучшает представления сущностей, повышая компактность сущностей одного класса и различимость сущностей разных классов
- Гибридный механизм вывода: Объединение параметризованной модели и непараметрического метода KNN для полного использования информации набора поддержки
Набор данных FewNERD:
- Содержит 8 типов сущностей грубой зернистости и 66 типов сущностей тонкой зернистости
- Оценка двух установок: FewNERD-INTRA и FewNERD-INTER
- Использование метода выборки N-way K~2K-shot для построения задач
Набор данных FewAPTER:
- Построен на основе набора данных разведки об угрозах кибербезопасности APTER
- Консолидация исходных 37 типов сущностей в 21 класс, всего 28 250 сущностей
- Разделение на наборы обучения/валидации/тестирования в соотношении 7:7:7
- Построение четырёх установок: 4-way 1-shot, 4-way 3-shot, 6-way 1-shot, 6-way 3-shot
Использование F1-оценки в качестве основной метрики оценки с отчётом о стандартном отклонении.
- ProtoBERT: метод на уровне токенов, основанный на сходстве скрытых состояний BERT
- CONTAINER: метод с использованием контрастивного обучения на уровне токенов
- NNShot/StructShot: методы, основанные на алгоритме ближайшего соседа
- ESD: метод сопоставления на уровне спанов
- MAML-ProtoNet: метод метаобучения, объединяющий MAML и сеть прототипов
- BDCP: метод с граничной дискриминацией и очисткой релевантности
- ChatGPT: базовая модель большого языка
- Кодировщик: BERT-base
- Оптимизатор: AdamW, скорость обучения 3e-5
- Размер пакета: 32, максимальная длина последовательности: 128
- K=10 в KNN, λ=0.1
- Обучение на протяжении 1000 шагов, выбор лучшей модели на наборе валидации
Набор данных FewNERD:
- Среднее повышение F1 на 2,65% на FewNERD-INTRA
- Среднее повышение F1 на 4,44% на FewNERD-INTER
- Значительное улучшение по сравнению с предыдущим лучшим методом MAML-ProtoNet
Набор данных FewAPTER:
- Среднее повышение F1-оценки на 11,42%
- Превосходство над ChatGPT в большинстве установок
Сравнение с ChatGPT:
- Общее превосходство над ChatGPT на FewNERD
- Незначительное отставание от ChatGPT на FewAPTER, но значительно более высокая скорость вывода
- Удаление модуля контрастивного обучения:
- Среднее снижение на 0,905% на FewNERD
- Среднее снижение на 0,745% на FewAPTER
- Удаление модуля KNN:
- Среднее снижение на 0,524% на FewNERD
- Среднее снижение на 0,635% на FewAPTER
Результаты показывают, что оба модуля положительно влияют на производительность.
Время вывода MsFNER значительно быстрее, чем ChatGPT, демонстрируя более высокую эффективность во всех установках, что соответствует принципу бритвы Оккама.
- Влияние количества K-shot: Увеличение количества образцов K-shot значительно повышает производительность
- Влияние количества N-way: Увеличение N-way снижает производительность, что соответствует интуиции
- Адаптация к домену: Модель хорошо работает на задачах кросс-доменного переноса
- Стабильность LLM: Производительность ChatGPT относительно стабильна, мало зависит от изменений данных и домена
- Методы на уровне токенов: Такие как ProtoBERT, CONTAINER и др., основанные на сходстве токенов для предсказания
- Методы на уровне спанов: Такие как ESD, рассматривающие сущности как целые спаны
- Методы метаобучения: Такие как MAML-ProtoNet, использующие структуру метаобучения для быстрой адаптации к новым задачам
По сравнению с существующими работами MsFNER эффективно решает проблемы вычислительной сложности и отрицательных примеров благодаря двухэтапному разложению, одновременно вводя контрастивное обучение для улучшения обучения представлениям.
- Эффективность: MsFNER достигает производительности SOTA на нескольких наборах данных, доказывая эффективность стратегии двухэтапного разложения
- Эффективность: Значительное снижение вычислительной сложности по сравнению с традиционными методами на уровне спанов
- Универсальность: Хорошая производительность в различных доменах и установках
- Ограничения адаптации к домену: Способность обобщения в некоторых специфических доменах (например, FewAPTER) всё ещё может быть улучшена
- Чувствительность гиперпараметров: Гиперпараметры, такие как λ, требуют настройки для различных наборов данных
- Вычислительные ресурсы: По-прежнему требуется предварительно обученная модель BERT в качестве основы
- Более сильная адаптация к домену: Исследование лучших методов кросс-доменного переноса
- Сквозная оптимизация: Изучение стратегий совместной оптимизации двух этапов
- Оценка в более крупном масштабе: Проверка эффективности метода на большем количестве доменов и языков
- Сильная методологическая инновация: Стратегия двухэтапного разложения новаторская и эффективно решает основные проблемы существующих методов
- Разумный технический дизайн: Контрастивное обучение, ориентированное на сущности, и гибридный механизм вывода разработаны искусно
- Полные эксперименты: Комплексная оценка на нескольких наборах данных, включая сравнение с LLM
- Глубокий анализ: Предоставлены подробные абляционные эксперименты и анализ эффективности
- Недостаток теоретического анализа: Отсутствие теоретического объяснения эффективности метода
- Отсутствие анализа вычислительной сложности: Хотя утверждается снижение сложности, отсутствует количественный анализ
- Отсутствие анализа ошибок: Нет глубокого анализа случаев отказа модели
- Академический вклад: Предоставление новых подходов к решению задачи few-shot NER
- Практическая ценность: Метод прост, эффективен, легко реализуется и развёртывается
- Воспроизводимость: Предоставлены подробные детали реализации и настройки гиперпараметров
- Среды с ограниченными ресурсами: Более подходит для сценариев с ограниченными вычислительными ресурсами по сравнению с большими языковыми моделями
- Требования к быстрому развёртыванию: Способность быстро адаптироваться к новым типам сущностей
- Приложения в специфических доменах: Хорошие перспективы применения в вертикальных доменах, таких как кибербезопасность
Статья ссылается на важные работы в соответствующих областях, включая:
- Базовые методы few-shot обучения (Prototypical Networks, MAML)
- Классические методы распознавания именованных сущностей (подходы на основе BERT)
- Связанные работы по контрастивному обучению (Supervised Contrastive Learning)
- Специализированные методы Few-shot NER (ProtoBERT, ESD, MAML-ProtoNet и др.)
Общая оценка: Это отличная статья с прочной технической базой и полными экспериментами. Предложенная авторами стратегия двухэтапного разложения эффективно решает ключевые проблемы существующих методов и достигает значительного повышения производительности на нескольких наборах данных. Дизайн метода разумен, практическая ценность высока, и работа вносит ценный вклад в область few-shot NER.