Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.
- Paper-ID: 2404.06970
- Titel: Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning
- Autoren: Congying Liu, Gaosheng Wang, Peipei Liu, Xingyuan Wei, Hongsong Zhu
- Klassifizierung: cs.CL
- Veröffentlichungsdatum: April 2024 (arXiv Preprint)
- Paper-Link: https://arxiv.org/abs/2404.06970
Die Few-shot-Erkennung benannter Entitäten kann neue Arten benannter Entitäten anhand weniger gekennzeichneter Beispiele identifizieren. Bisherige Methoden, die Token-Level- oder Span-Level-Metrik-Learning verwenden, leiden unter rechnerischer Belastung und einer großen Anzahl negativer Beispiel-Spans. In diesem Papier schlagen wir Hybrid Multi-stage Decoding für Few-shot NER mit Entity-aware Contrastive Learning (MsFNER) vor, das die allgemeine NER in zwei Phasen aufteilt: Entity-Span-Erkennung und Entity-Klassifizierung. Es gibt 3 Prozesse für die Einführung von MsFNER: Training, Feinabstimmung und Inferenz. Im Trainingsprozess trainieren wir und erhalten das beste Entity-Span-Erkennungsmodell und das Entity-Klassifizierungsmodell separat in der Quelldomäne unter Verwendung von Meta-Learning, wobei wir ein Contrastive-Learning-Modul erstellen, um Entity-Darstellungen für die Entity-Klassifizierung zu verbessern. Während der Feinabstimmung passen wir beide Modelle auf dem Support-Datensatz der Zieldomäne an. Im Inferenzprozess erkennen wir zunächst die Entity-Spans für die nicht gekennzeichneten Daten, dann werden die Entity-Spans gemeinsam durch das Entity-Klassifizierungsmodell und KNN bestimmt. Wir führen Experimente auf dem offenen FewNERD-Datensatz durch und die Ergebnisse demonstrieren die Überlegenheit von MsFNER.
Few-shot Named Entity Recognition (Few-shot NER) zielt darauf ab, neue Arten benannter Entitäten basierend auf wenigen gekennzeichneten Beispielen schnell zu identifizieren. Diese Aufgabe ist für die Anpassung an dynamisch verändernde reale Anwendungsszenarien von großer Bedeutung, besonders in Situationen, in denen das Modell schnell an neue Daten oder Umgebungsveränderungen angepasst werden muss.
- Token-Level-Methoden: Obwohl Methoden, die auf der Distanz zwischen Token und Prototypen oder Support-Set-Token basieren, einfach und intuitiv sind, leiden sie unter hohen Rechenkosten und können die semantische Vollständigkeit von Entity-Token nicht bewahren, was zu Störungen durch Nicht-Entity-Markierungen führt.
- Span-Level-Methoden: Obwohl die Bewertung ganzer Spans einige Probleme von Token-Level-Methoden lindert, führt die Aufzählung aller möglichen Spans zu O(N²)-Komplexität und erhöht das Rauschen durch viele negative Beispiele.
Die Autoren möchten zwei Kernprobleme lösen:
- Wie kann die Erkennungseffizienz von Few-shot NER verbessert werden, indem die semantischen Unterschiede zwischen Entitäten und Nicht-Entitäten verstärkt werden, um effektive Entity-Spans zu bestimmen?
- Wie kann die Entity-Span-Klassifizierung verbessert werden, indem die semantischen Abstände zwischen verschiedenen Entity-Typen kontrolliert und koordiniert werden, sodass Entity-Darstellungen desselben Typs näher beieinander liegen und unterschiedliche Typen weiter auseinander?
- Vorschlag des MsFNER-Frameworks: Zerlegung der traditionellen NER-Aufgabe in Entity-Span-Erkennung und Entity-Klassifizierung in zwei Phasen, was die Rechenkomplexität effektiv reduziert und die Auswirkungen negativer Beispiele verringert
- Entwurf eines Entity-aware Contrastive-Learning-Moduls: Verbesserung des Entity-Darstellungslernens, Steigerung der Konsistenz von Entitäten desselben Typs und Vergrößerung der Distanz zwischen verschiedenen Entity-Typen
- Konstruktion eines hybriden Inferenzmechanismus: Kombination des Entity-Klassifizierungsmodells und der KNN-Methode für gemeinsame Vorhersagen, um die Klassifizierungsgenauigkeit zu verbessern
- Erreichung von SOTA-Leistung: Signifikante Überlegenheit gegenüber bestehenden Methoden auf den FewNERD- und FewAPTER-Datensätzen und umfassender Vergleich mit ChatGPT
Die Few-shot-NER-Aufgabe wird definiert als: Das Modell wird zunächst auf dem Quelldomänen-Datensatz Dsource=(Ssource,Qsource) trainiert und dann auf den Zieldomänen-Datensatz Dtarget=(Starget,Qtarget) für die Inferenz übertragen. Dabei ist Starget die Support-Menge, die N Entity-Typen (N-way) enthält, wobei jeder Typ K gekennzeichnete Beispiele (K-shot) hat; Qtarget ist die Query-Menge, die die gleichen Entity-Typen wie die Support-Menge enthält.
MsFNER umfasst drei Hauptprozesse:
Entity-Span-Erkennungsmodul (ESD):
- Entity-Span-Erkennung wird als Sequenz-Tagging-Aufgabe betrachtet, wobei das BIOES-Tagging-Schema verwendet wird
- Für den Eingabesatz x=(x1,x2,...,xn) wird ein BERT-Encoder verwendet, um kontextuelle Darstellungen h=(h1,h2,...,hn) zu erhalten
- Entity-Span-Erkennung wird durch eine CRF-Schicht durchgeführt, wobei der Trainingsverlust wie folgt ist:
LESD=−∑logP(y∣x)
wobei:
P(y∣x)=∑y′∏i=1∣x∣ϕi(yi−1′,yi′,x)∏i=1∣x∣ϕi(yi−1,yi,x)
- Das Training erfolgt mit der MAML-Meta-Learning-Methode, einschließlich innerer und äußerer Schleifenupdates
Entity-Klassifizierungsmodul (EC):
- Für die Entity ek=(xf,...,xf+l) wird Max-Pooling verwendet, um die Darstellung zu erhalten:
e^k=max(hf,...,hf+l)
- Einführung von Entity-aware Contrastive Learning, wobei die Verlustfunktion wie folgt ist:
LCL=∑j−∣P(j)∣1∑p∈P(j)log∑a∈A(j)exp(sim(zj,za)/τ)exp(sim(zj,zp)/τ)
- Konstruktion von Prototyp-Darstellungen und Klassifizierung:
ct(S)=∣St∣1∑em∈Ste^m
psoft(ek)=∑i=1∣ϕ∣exp(−d(ci(S),e^k))exp(−d(ct(S),e^k))
Feinabstimmung der trainierten Entity-Erkennungs- und Klassifizierungsmodelle auf der Support-Menge Starget der Zieldomäne unter Verwendung des gleichen Musters wie im Trainingsprozess.
Umfasst vier Phasen:
- Konstruktion eines Schlüssel-Wert-Datenspeichers Dknn, wobei der Schlüssel die Entity-Darstellung ist und der Wert das entsprechende Label
- Verwendung des Entity-Erkennungsmodells zur Gewinnung von Entity-Spans
- Eingabe der erkannten Entity-Darstellungen in das Klassifizierungsmodell und das KNN-Modul
- Gemeinsame Vorhersage: p(y∣ek′)=λpknn(y∣ek′)+(1−λ)psoft(y∣ek′)
- Zwei-Phasen-Zerlegungsstrategie: Zerlegung der NER-Aufgabe in zwei Unteraufgaben (Span-Erkennung und Klassifizierung), wodurch die Komplexität der Aufzählung aller möglichen Spans in traditionellen Methoden vermieden wird
- Entity-aware Contrastive Learning: Ein speziell entworfenes Contrastive-Learning-Modul verbessert Entity-Darstellungen und erhöht die Aggregation von Entitäten desselben Typs sowie die Unterscheidung zwischen verschiedenen Typen
- Hybrider Inferenzmechanismus: Kombination parametrischer Modelle und nicht-parametrischer KNN-Methoden, um Support-Set-Informationen vollständig zu nutzen
FewNERD-Datensatz:
- Enthält 8 grobe und 66 feinkörnige Entity-Typen
- Evaluierung von FewNERD-INTRA und FewNERD-INTER Einstellungen
- Verwendung der N-way K~2K-shot Sampling-Methode zur Aufgabenkonstruktion
FewAPTER-Datensatz:
- Basierend auf dem Cybersecurity-Threat-Intelligence-Datensatz APTER
- Integration der ursprünglichen 37 Entity-Typen in 21 Klassen mit insgesamt 28.250 Entitäten
- Aufteilung nach 7:7:7 Verhältnis für Trainings-/Validierungs-/Testsätze
- Konstruktion von vier Einstellungen: 4-way 1-shot, 4-way 3-shot, 6-way 1-shot, 6-way 3-shot
F1-Score wird als primäre Bewertungsmetrik verwendet, und die Standardabweichung wird berichtet.
- ProtoBERT: Token-Level-Methode basierend auf BERT-Ähnlichkeit
- CONTAINER: Methode mit Token-Level Contrastive Learning
- NNShot/StructShot: Methoden basierend auf Nearest-Neighbor-Algorithmen
- ESD: Span-Level-Matching-Methode
- MAML-ProtoNet: Meta-Learning-Methode, die MAML und Prototypical Networks kombiniert
- BDCP: Boundary Discriminative and Correlation Purification Methode
- ChatGPT: Large Language Model Baseline
- Encoder: BERT-base
- Optimierer: AdamW, Lernrate 3e-5
- Batch-Größe: 32, maximale Sequenzlänge: 128
- K=10 in KNN, λ=0.1
- Training für 1000 Schritte, Auswahl des besten Modells auf dem Validierungssatz
FewNERD-Datensatz:
- Durchschnittliche F1-Verbesserung von 2,65% auf FewNERD-INTRA
- Durchschnittliche F1-Verbesserung von 4,44% auf FewNERD-INTER
- Signifikante Verbesserung gegenüber der bisherigen besten Methode MAML-ProtoNet
FewAPTER-Datensatz:
- Durchschnittliche F1-Score-Verbesserung von 11,42%
- Überlegenheit gegenüber ChatGPT in den meisten Einstellungen
Vergleich mit ChatGPT:
- Gesamte Überlegenheit gegenüber ChatGPT auf FewNERD
- Leichte Unterlegenheit gegenüber ChatGPT auf FewAPTER, aber signifikant schnellere Inferenzgeschwindigkeit
- Entfernung des Contrastive-Learning-Moduls:
- Durchschnittlicher Rückgang von 0,905% auf FewNERD
- Durchschnittlicher Rückgang von 0,745% auf FewAPTER
- Entfernung des KNN-Moduls:
- Durchschnittlicher Rückgang von 0,524% auf FewNERD
- Durchschnittlicher Rückgang von 0,635% auf FewAPTER
Die Ergebnisse zeigen, dass beide Module positiv zur Leistung beitragen.
Die Inferenzzeit von MsFNER ist signifikant schneller als ChatGPT und zeigt in allen Einstellungen höhere Effizienz, was dem Occam's-Razor-Prinzip entspricht.
- Auswirkung der K-shot-Anzahl: Eine Erhöhung der K-shot-Beispiele führt zu signifikanten Leistungsverbesserungen
- Auswirkung der N-way-Anzahl: Eine Erhöhung der N-way führt zu Leistungsabnahmen, was intuitiv ist
- Domänenadaptation: Das Modell zeigt gute Leistung bei domänenübergreifenden Aufgaben
- LLM-Stabilität: ChatGPT-Leistung ist relativ stabil und wird weniger durch Daten- und Domänenveränderungen beeinflusst
- Token-Level-Methoden: Wie ProtoBERT, CONTAINER usw., basierend auf Token-Ähnlichkeit für Vorhersagen
- Span-Level-Methoden: Wie ESD, die Entitäten als ganze Spans behandeln
- Meta-Learning-Methoden: Wie MAML-ProtoNet, die Meta-Learning-Frameworks für schnelle Aufgabenanpassung verwenden
Im Vergleich zu bestehenden Arbeiten löst MsFNER durch Zwei-Phasen-Zerlegung effektiv die Probleme der Rechenkomplexität und negativer Beispiele, während gleichzeitig Contrastive Learning zur Verbesserung des Darstellungslernens eingeführt wird.
- Effektivität: MsFNER erreicht SOTA-Leistung auf mehreren Datensätzen und beweist die Effektivität der Zwei-Phasen-Zerlegungsstrategie
- Effizienz: Signifikante Reduzierung der Rechenkomplexität im Vergleich zu traditionellen Span-Level-Methoden
- Universalität: Gute Leistung in verschiedenen Domänen und Einstellungen
- Domänenadaptationsbeschränkungen: Die Verallgemeinerungsfähigkeit in bestimmten Domänen (wie FewAPTER) hat noch Verbesserungspotenzial
- Hyperparameter-Sensibilität: Hyperparameter wie λ müssen für verschiedene Datensätze angepasst werden
- Rechenressourcen: Benötigt immer noch vortrainierte BERT-Modelle als Grundlage
- Stärkere Domänenadaptationsfähigkeit: Erforschung besserer domänenübergreifender Transfermethoden
- End-to-End-Optimierung: Untersuchung von Strategien zur gemeinsamen Optimierung beider Phasen
- Größere Evaluierungen: Validierung der Methodeneffektivität auf mehr Domänen und Sprachen
- Starke Methodische Innovation: Die Zwei-Phasen-Zerlegungsstrategie ist neuartig und löst effektiv Kernprobleme bestehender Methoden
- Vernünftiges Technisches Design: Das Entity-aware Contrastive Learning und der hybride Inferenzmechanismus sind sorgfältig entworfen
- Umfassende Experimente: Umfassende Evaluierung auf mehreren Datensätzen, einschließlich Vergleich mit LLMs
- Tiefgreifende Analyse: Detaillierte Ablationsstudien und Effizienzanalysen
- Unzureichende theoretische Analyse: Mangel an theoretischen Erklärungen für die Methodeneffektivität
- Fehlende Komplexitätsanalyse: Obwohl eine Komplexitätsreduktion behauptet wird, fehlt eine quantitative Analyse
- Fehlende Fehleranalyse: Keine tiefgreifende Analyse von Modellfehlfällen
- Akademischer Beitrag: Bietet neue Lösungsansätze für Few-shot NER
- Praktischer Wert: Die Methode ist einfach, effektiv und leicht zu implementieren und bereitzustellen
- Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Hyperparameter-Einstellungen
- Ressourcenbegrenzte Umgebungen: Besser geeignet für Szenarien mit begrenzten Rechenressourcen als große Sprachmodelle
- Schnelle Bereitstellungsanforderungen: Kann schnell an neue Entity-Typen angepasst werden
- Domänenspezifische Anwendungen: Gute Anwendungsaussichten in vertikalen Domänen wie Cybersecurity
Das Papier zitiert wichtige Arbeiten im verwandten Bereich, einschließlich:
- Grundlegende Few-shot-Learning-Methoden (Prototypical Networks, MAML)
- Klassische Named-Entity-Recognition-Methoden (BERT-basierte Ansätze)
- Verwandte Arbeiten zum Contrastive Learning (Supervised Contrastive Learning)
- Spezialisierte Few-shot-NER-Methoden (ProtoBERT, ESD, MAML-ProtoNet usw.)
Gesamtbewertung: Dies ist ein technisch solides und experimentell umfassendes ausgezeichnetes Papier. Die von den Autoren vorgeschlagene Zwei-Phasen-Zerlegungsstrategie löst effektiv Schlüsselprobleme bestehender Methoden und erreicht signifikante Leistungsverbesserungen auf mehreren Datensätzen. Das Methodendesign ist vernünftig, der praktische Wert ist hoch, und es leistet einen wertvollen Beitrag zum Few-shot-NER-Bereich.