2025-11-19T20:19:14.203751

Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning

Liu, Wang, Liu et al.

Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.

academic

Hybrid Multi-stage Decoding für Few-shot NER mit Entity-aware Contrastive Learning

Grundinformationen

Paper-ID: 2404.06970
Titel: Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning
Autoren: Congying Liu, Gaosheng Wang, Peipei Liu, Xingyuan Wei, Hongsong Zhu
Klassifizierung: cs.CL
Veröffentlichungsdatum: April 2024 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2404.06970

Zusammenfassung

Die Few-shot-Erkennung benannter Entitäten kann neue Arten benannter Entitäten anhand weniger gekennzeichneter Beispiele identifizieren. Bisherige Methoden, die Token-Level- oder Span-Level-Metrik-Learning verwenden, leiden unter rechnerischer Belastung und einer großen Anzahl negativer Beispiel-Spans. In diesem Papier schlagen wir Hybrid Multi-stage Decoding für Few-shot NER mit Entity-aware Contrastive Learning (MsFNER) vor, das die allgemeine NER in zwei Phasen aufteilt: Entity-Span-Erkennung und Entity-Klassifizierung. Es gibt 3 Prozesse für die Einführung von MsFNER: Training, Feinabstimmung und Inferenz. Im Trainingsprozess trainieren wir und erhalten das beste Entity-Span-Erkennungsmodell und das Entity-Klassifizierungsmodell separat in der Quelldomäne unter Verwendung von Meta-Learning, wobei wir ein Contrastive-Learning-Modul erstellen, um Entity-Darstellungen für die Entity-Klassifizierung zu verbessern. Während der Feinabstimmung passen wir beide Modelle auf dem Support-Datensatz der Zieldomäne an. Im Inferenzprozess erkennen wir zunächst die Entity-Spans für die nicht gekennzeichneten Daten, dann werden die Entity-Spans gemeinsam durch das Entity-Klassifizierungsmodell und KNN bestimmt. Wir führen Experimente auf dem offenen FewNERD-Datensatz durch und die Ergebnisse demonstrieren die Überlegenheit von MsFNER.

Forschungshintergrund und Motivation

Problemdefinition

Few-shot Named Entity Recognition (Few-shot NER) zielt darauf ab, neue Arten benannter Entitäten basierend auf wenigen gekennzeichneten Beispielen schnell zu identifizieren. Diese Aufgabe ist für die Anpassung an dynamisch verändernde reale Anwendungsszenarien von großer Bedeutung, besonders in Situationen, in denen das Modell schnell an neue Daten oder Umgebungsveränderungen angepasst werden muss.

Einschränkungen bestehender Methoden

Token-Level-Methoden: Obwohl Methoden, die auf der Distanz zwischen Token und Prototypen oder Support-Set-Token basieren, einfach und intuitiv sind, leiden sie unter hohen Rechenkosten und können die semantische Vollständigkeit von Entity-Token nicht bewahren, was zu Störungen durch Nicht-Entity-Markierungen führt.
Span-Level-Methoden: Obwohl die Bewertung ganzer Spans einige Probleme von Token-Level-Methoden lindert, führt die Aufzählung aller möglichen Spans zu O(N²)-Komplexität und erhöht das Rauschen durch viele negative Beispiele.

Forschungsmotivation

Die Autoren möchten zwei Kernprobleme lösen:

Wie kann die Erkennungseffizienz von Few-shot NER verbessert werden, indem die semantischen Unterschiede zwischen Entitäten und Nicht-Entitäten verstärkt werden, um effektive Entity-Spans zu bestimmen?
Wie kann die Entity-Span-Klassifizierung verbessert werden, indem die semantischen Abstände zwischen verschiedenen Entity-Typen kontrolliert und koordiniert werden, sodass Entity-Darstellungen desselben Typs näher beieinander liegen und unterschiedliche Typen weiter auseinander?

Kernbeiträge

Vorschlag des MsFNER-Frameworks: Zerlegung der traditionellen NER-Aufgabe in Entity-Span-Erkennung und Entity-Klassifizierung in zwei Phasen, was die Rechenkomplexität effektiv reduziert und die Auswirkungen negativer Beispiele verringert
Entwurf eines Entity-aware Contrastive-Learning-Moduls: Verbesserung des Entity-Darstellungslernens, Steigerung der Konsistenz von Entitäten desselben Typs und Vergrößerung der Distanz zwischen verschiedenen Entity-Typen
Konstruktion eines hybriden Inferenzmechanismus: Kombination des Entity-Klassifizierungsmodells und der KNN-Methode für gemeinsame Vorhersagen, um die Klassifizierungsgenauigkeit zu verbessern
Erreichung von SOTA-Leistung: Signifikante Überlegenheit gegenüber bestehenden Methoden auf den FewNERD- und FewAPTER-Datensätzen und umfassender Vergleich mit ChatGPT

Methodische Details

Aufgabendefinition

Die Few-shot-NER-Aufgabe wird definiert als: Das Modell wird zunächst auf dem Quelldomänen-Datensatz $D_{source} = (S_{source}, Q_{source})$ trainiert und dann auf den Zieldomänen-Datensatz $D_{target} = (S_{target}, Q_{target})$ für die Inferenz übertragen. Dabei ist $S_{target}$ die Support-Menge, die N Entity-Typen (N-way) enthält, wobei jeder Typ K gekennzeichnete Beispiele (K-shot) hat; $Q_{target}$ ist die Query-Menge, die die gleichen Entity-Typen wie die Support-Menge enthält.

Modellarchitektur

MsFNER umfasst drei Hauptprozesse:

1. Trainingsprozess (Training Process)

Entity-Span-Erkennungsmodul (ESD):

Entity-Span-Erkennung wird als Sequenz-Tagging-Aufgabe betrachtet, wobei das BIOES-Tagging-Schema verwendet wird
Für den Eingabesatz $x = (x_1, x_2, ..., x_n)$ wird ein BERT-Encoder verwendet, um kontextuelle Darstellungen $h = (h_1, h_2, ..., h_n)$ zu erhalten
Entity-Span-Erkennung wird durch eine CRF-Schicht durchgeführt, wobei der Trainingsverlust wie folgt ist:

$L_{ESD} = -\sum \log P(y|x)$

wobei: $P(y|x) = \frac{\prod_{i=1}^{|x|} \phi_i(y_{i-1}, y_i, x)}{\sum_{y'} \prod_{i=1}^{|x|} \phi_i(y'_{i-1}, y'_i, x)}$

Das Training erfolgt mit der MAML-Meta-Learning-Methode, einschließlich innerer und äußerer Schleifenupdates

Entity-Klassifizierungsmodul (EC):

Für die Entity $e_k = (x_f, ..., x_{f+l})$ wird Max-Pooling verwendet, um die Darstellung zu erhalten: $\hat{e}_k = \max(h_f, ..., h_{f+l})$
Einführung von Entity-aware Contrastive Learning, wobei die Verlustfunktion wie folgt ist: $L_{CL} = \sum_j -\frac{1}{|P(j)|} \sum_{p \in P(j)} \log \frac{\exp(\text{sim}(z_j, z_p)/\tau)}{\sum_{a \in A(j)} \exp(\text{sim}(z_j, z_a)/\tau)}$
Konstruktion von Prototyp-Darstellungen und Klassifizierung: $c_t(S) = \frac{1}{|S_t|} \sum_{e_m \in S_t} \hat{e}_m$

$p_{soft}(e_k) = \frac{\exp(-d(c_t(S), \hat{e}_k))}{\sum_{i=1}^{|\phi|} \exp(-d(c_i(S), \hat{e}_k))}$

2. Feinabstimmungsprozess (Finetuning Process)

Feinabstimmung der trainierten Entity-Erkennungs- und Klassifizierungsmodelle auf der Support-Menge $S_{target}$ der Zieldomäne unter Verwendung des gleichen Musters wie im Trainingsprozess.

3. Inferenzprozess (Inference Process)

Umfasst vier Phasen:

Konstruktion eines Schlüssel-Wert-Datenspeichers $D_{knn}$ , wobei der Schlüssel die Entity-Darstellung ist und der Wert das entsprechende Label
Verwendung des Entity-Erkennungsmodells zur Gewinnung von Entity-Spans
Eingabe der erkannten Entity-Darstellungen in das Klassifizierungsmodell und das KNN-Modul
Gemeinsame Vorhersage: $p(y|e'_k) = \lambda p_{knn}(y|e'_k) + (1-\lambda) p_{soft}(y|e'_k)$

Technische Innovationen

Zwei-Phasen-Zerlegungsstrategie: Zerlegung der NER-Aufgabe in zwei Unteraufgaben (Span-Erkennung und Klassifizierung), wodurch die Komplexität der Aufzählung aller möglichen Spans in traditionellen Methoden vermieden wird
Entity-aware Contrastive Learning: Ein speziell entworfenes Contrastive-Learning-Modul verbessert Entity-Darstellungen und erhöht die Aggregation von Entitäten desselben Typs sowie die Unterscheidung zwischen verschiedenen Typen
Hybrider Inferenzmechanismus: Kombination parametrischer Modelle und nicht-parametrischer KNN-Methoden, um Support-Set-Informationen vollständig zu nutzen

Experimentelle Einrichtung

Datensätze

FewNERD-Datensatz:

Enthält 8 grobe und 66 feinkörnige Entity-Typen
Evaluierung von FewNERD-INTRA und FewNERD-INTER Einstellungen
Verwendung der N-way K~2K-shot Sampling-Methode zur Aufgabenkonstruktion

FewAPTER-Datensatz:

Basierend auf dem Cybersecurity-Threat-Intelligence-Datensatz APTER
Integration der ursprünglichen 37 Entity-Typen in 21 Klassen mit insgesamt 28.250 Entitäten
Aufteilung nach 7:7:7 Verhältnis für Trainings-/Validierungs-/Testsätze
Konstruktion von vier Einstellungen: 4-way 1-shot, 4-way 3-shot, 6-way 1-shot, 6-way 3-shot

Bewertungsmetriken

F1-Score wird als primäre Bewertungsmetrik verwendet, und die Standardabweichung wird berichtet.

Vergleichsmethoden

ProtoBERT: Token-Level-Methode basierend auf BERT-Ähnlichkeit
CONTAINER: Methode mit Token-Level Contrastive Learning
NNShot/StructShot: Methoden basierend auf Nearest-Neighbor-Algorithmen
ESD: Span-Level-Matching-Methode
MAML-ProtoNet: Meta-Learning-Methode, die MAML und Prototypical Networks kombiniert
BDCP: Boundary Discriminative and Correlation Purification Methode
ChatGPT: Large Language Model Baseline

Implementierungsdetails

Encoder: BERT-base
Optimierer: AdamW, Lernrate 3e-5
Batch-Größe: 32, maximale Sequenzlänge: 128
K=10 in KNN, λ=0.1
Training für 1000 Schritte, Auswahl des besten Modells auf dem Validierungssatz

Experimentelle Ergebnisse

Hauptergebnisse

FewNERD-Datensatz:

Durchschnittliche F1-Verbesserung von 2,65% auf FewNERD-INTRA
Durchschnittliche F1-Verbesserung von 4,44% auf FewNERD-INTER
Signifikante Verbesserung gegenüber der bisherigen besten Methode MAML-ProtoNet

FewAPTER-Datensatz:

Durchschnittliche F1-Score-Verbesserung von 11,42%
Überlegenheit gegenüber ChatGPT in den meisten Einstellungen

Vergleich mit ChatGPT:

Gesamte Überlegenheit gegenüber ChatGPT auf FewNERD
Leichte Unterlegenheit gegenüber ChatGPT auf FewAPTER, aber signifikant schnellere Inferenzgeschwindigkeit

Ablationsstudien

Entfernung des Contrastive-Learning-Moduls:
- Durchschnittlicher Rückgang von 0,905% auf FewNERD
- Durchschnittlicher Rückgang von 0,745% auf FewAPTER
Entfernung des KNN-Moduls:
- Durchschnittlicher Rückgang von 0,524% auf FewNERD
- Durchschnittlicher Rückgang von 0,635% auf FewAPTER

Die Ergebnisse zeigen, dass beide Module positiv zur Leistung beitragen.

Effizienzanalyse

Die Inferenzzeit von MsFNER ist signifikant schneller als ChatGPT und zeigt in allen Einstellungen höhere Effizienz, was dem Occam's-Razor-Prinzip entspricht.

Experimentelle Erkenntnisse

Auswirkung der K-shot-Anzahl: Eine Erhöhung der K-shot-Beispiele führt zu signifikanten Leistungsverbesserungen
Auswirkung der N-way-Anzahl: Eine Erhöhung der N-way führt zu Leistungsabnahmen, was intuitiv ist
Domänenadaptation: Das Modell zeigt gute Leistung bei domänenübergreifenden Aufgaben
LLM-Stabilität: ChatGPT-Leistung ist relativ stabil und wird weniger durch Daten- und Domänenveränderungen beeinflusst

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Effektivität: MsFNER erreicht SOTA-Leistung auf mehreren Datensätzen und beweist die Effektivität der Zwei-Phasen-Zerlegungsstrategie
Effizienz: Signifikante Reduzierung der Rechenkomplexität im Vergleich zu traditionellen Span-Level-Methoden
Universalität: Gute Leistung in verschiedenen Domänen und Einstellungen

Einschränkungen

Domänenadaptationsbeschränkungen: Die Verallgemeinerungsfähigkeit in bestimmten Domänen (wie FewAPTER) hat noch Verbesserungspotenzial
Hyperparameter-Sensibilität: Hyperparameter wie λ müssen für verschiedene Datensätze angepasst werden
Rechenressourcen: Benötigt immer noch vortrainierte BERT-Modelle als Grundlage

Zukünftige Richtungen

Stärkere Domänenadaptationsfähigkeit: Erforschung besserer domänenübergreifender Transfermethoden
End-to-End-Optimierung: Untersuchung von Strategien zur gemeinsamen Optimierung beider Phasen
Größere Evaluierungen: Validierung der Methodeneffektivität auf mehr Domänen und Sprachen

Tiefgreifende Bewertung

Stärken

Starke Methodische Innovation: Die Zwei-Phasen-Zerlegungsstrategie ist neuartig und löst effektiv Kernprobleme bestehender Methoden
Vernünftiges Technisches Design: Das Entity-aware Contrastive Learning und der hybride Inferenzmechanismus sind sorgfältig entworfen
Umfassende Experimente: Umfassende Evaluierung auf mehreren Datensätzen, einschließlich Vergleich mit LLMs
Tiefgreifende Analyse: Detaillierte Ablationsstudien und Effizienzanalysen

Mängel

Unzureichende theoretische Analyse: Mangel an theoretischen Erklärungen für die Methodeneffektivität
Fehlende Komplexitätsanalyse: Obwohl eine Komplexitätsreduktion behauptet wird, fehlt eine quantitative Analyse
Fehlende Fehleranalyse: Keine tiefgreifende Analyse von Modellfehlfällen

Auswirkungen

Akademischer Beitrag: Bietet neue Lösungsansätze für Few-shot NER
Praktischer Wert: Die Methode ist einfach, effektiv und leicht zu implementieren und bereitzustellen
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Hyperparameter-Einstellungen

Anwendungsszenarien

Ressourcenbegrenzte Umgebungen: Besser geeignet für Szenarien mit begrenzten Rechenressourcen als große Sprachmodelle
Schnelle Bereitstellungsanforderungen: Kann schnell an neue Entity-Typen angepasst werden
Domänenspezifische Anwendungen: Gute Anwendungsaussichten in vertikalen Domänen wie Cybersecurity

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten im verwandten Bereich, einschließlich:

Grundlegende Few-shot-Learning-Methoden (Prototypical Networks, MAML)
Klassische Named-Entity-Recognition-Methoden (BERT-basierte Ansätze)
Verwandte Arbeiten zum Contrastive Learning (Supervised Contrastive Learning)
Spezialisierte Few-shot-NER-Methoden (ProtoBERT, ESD, MAML-ProtoNet usw.)

Gesamtbewertung: Dies ist ein technisch solides und experimentell umfassendes ausgezeichnetes Papier. Die von den Autoren vorgeschlagene Zwei-Phasen-Zerlegungsstrategie löst effektiv Schlüsselprobleme bestehender Methoden und erreicht signifikante Leistungsverbesserungen auf mehreren Datensätzen. Das Methodendesign ist vernünftig, der praktische Wert ist hoch, und es leistet einen wertvollen Beitrag zum Few-shot-NER-Bereich.