2025-11-19T20:19:14.203751

Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning

Liu, Wang, Liu et al.

Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.

academic

Decodifica Ibrida Multi-stadio per NER Few-shot con Apprendimento Contrastivo Consapevole dell'Entità

Informazioni Fondamentali

ID Articolo: 2404.06970
Titolo: Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning
Autori: Congying Liu, Gaosheng Wang, Peipei Liu, Xingyuan Wei, Hongsong Zhu
Classificazione: cs.CL
Data di Pubblicazione: Aprile 2024 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2404.06970

Riassunto

Il riconoscimento di entità nominate con pochi esempi (Few-shot NER) può identificare nuovi tipi di entità nominate basandosi su pochi esempi etichettati. I metodi precedenti che impiegano apprendimento metrico a livello di token o span soffrono dell'onere computazionale e di un gran numero di span negativi. In questo articolo, proponiamo la Decodifica Ibrida Multi-stadio per NER Few-shot con Apprendimento Contrastivo Consapevole dell'Entità (MsFNER), che divide il NER generale in due stadi: rilevamento dell'entità-span e classificazione dell'entità. Esistono 3 processi per l'introduzione di MsFNER: addestramento, fine-tuning e inferenza. Nel processo di addestramento, addestriamo e otteniamo il miglior modello di rilevamento dell'entità-span e il modello di classificazione dell'entità separatamente sul dominio sorgente utilizzando meta-apprendimento, dove creiamo un modulo di apprendimento contrastivo per migliorare le rappresentazioni dell'entità per la classificazione dell'entità. Durante il fine-tuning, affiniamo entrambi i modelli sul dataset di supporto del dominio target. Nel processo di inferenza, per i dati non etichettati, rilleviamo prima gli span dell'entità, quindi gli span dell'entità sono determinati congiuntamente dal modello di classificazione dell'entità e dal KNN. Conduciamo esperimenti sul dataset FewNERD aperto e i risultati dimostrano il vantaggio di MsFNER.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il riconoscimento di entità nominate con pochi esempi (Few-shot NER) mira a identificare rapidamente nuovi tipi di entità nominate basandosi su un numero limitato di campioni etichettati. Questo compito è di importanza cruciale per adattarsi a scenari applicativi reali in continua evoluzione, in particolare quando il modello deve adattarsi rapidamente a nuovi dati o cambiamenti ambientali.

Limitazioni dei Metodi Esistenti

Metodi a livello di token: Sebbene gli approcci basati sulla distanza tra token e prototipi o token del set di supporto siano semplici e intuitivi, soffrono di elevati costi computazionali, incapacità di mantenere l'integrità semantica dei token dell'entità e sono facilmente disturbati da marcatori non-entità.
Metodi a livello di span: Sebbene possano mitigare alcuni problemi dei metodi a livello di token valutando l'intero span, l'enumerazione di tutti gli span possibili comporta una complessità O(N²) e aumenta il rumore di numerosi campioni negativi.

Motivazione della Ricerca

Gli autori desiderano affrontare due problemi fondamentali:

Come migliorare l'efficienza del riconoscimento few-shot NER, aumentando la differenza semantica tra entità e non-entità per determinare span di entità efficaci
Come migliorare la classificazione dello span di entità, controllando e coordinando la distanza semantica tra diversi tipi di entità, rendendo le rappresentazioni semantiche di entità della stessa classe più vicine e quelle di classi diverse più lontane

Contributi Fondamentali

Proposta del framework MsFNER: Decompone il compito NER tradizionale in due stadi: rilevamento dello span di entità e classificazione dell'entità, riducendo efficacemente la complessità computazionale e l'impatto dei campioni negativi
Progettazione di un modulo di apprendimento contrastivo consapevole dell'entità: Migliora l'apprendimento della rappresentazione dell'entità, aumenta la coerenza delle entità della stessa classe e amplia la distanza tra entità di classi diverse
Costruzione di un meccanismo di inferenza ibrido: Combina il modello di classificazione dell'entità e il metodo KNN per la previsione congiunta, migliorando l'accuratezza della classificazione
Raggiungimento di prestazioni SOTA: Supera significativamente i metodi esistenti sui dataset FewNERD e FewAPTER, e fornisce un confronto completo con ChatGPT

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il compito Few-shot NER è definito come: il modello viene prima addestrato sul dataset del dominio sorgente $D_{source} = (S_{source}, Q_{source})$ , quindi trasferito al dataset del dominio target $D_{target} = (S_{target}, Q_{target})$ per l'inferenza. Dove $S_{target}$ è il set di supporto, contenente N tipi di entità (N-way), con K esempi etichettati per ogni tipo (K-shot); $Q_{target}$ è il set di query, contenente gli stessi tipi di entità del set di supporto.

Architettura del Modello

MsFNER contiene tre processi principali:

1. Processo di Addestramento (Training Process)

Modulo di Rilevamento dello Span di Entità (ESD):

Tratta il rilevamento dello span di entità come un compito di etichettatura sequenziale, utilizzando lo schema di annotazione BIOES
Per la frase di input $x = (x_1, x_2, ..., x_n)$ , utilizza l'encoder BERT per ottenere rappresentazioni contestuali $h = (h_1, h_2, ..., h_n)$
Esegue il rilevamento dello span di entità attraverso uno strato CRF, con perdita di addestramento:

$L_{ESD} = -\sum \log P(y|x)$

dove: $P(y|x) = \frac{\prod_{i=1}^{|x|} \phi_i(y_{i-1}, y_i, x)}{\sum_{y'} \prod_{i=1}^{|x|} \phi_i(y'_{i-1}, y'_i, x)}$

Utilizza il metodo di meta-apprendimento MAML per l'addestramento, includendo aggiornamenti del ciclo interno e del ciclo esterno

Modulo di Classificazione dell'Entità (EC):

Per l'entità $e_k = (x_f, ..., x_{f+l})$ , utilizza il max pooling per ottenere la rappresentazione: $\hat{e}_k = \max(h_f, ..., h_{f+l})$
Introduce l'apprendimento contrastivo consapevole dell'entità, con funzione di perdita: $L_{CL} = \sum_j -\frac{1}{|P(j)|} \sum_{p \in P(j)} \log \frac{\exp(\text{sim}(z_j, z_p)/\tau)}{\sum_{a \in A(j)} \exp(\text{sim}(z_j, z_a)/\tau)}$
Costruisce rappresentazioni prototipiche e esegue la classificazione: $c_t(S) = \frac{1}{|S_t|} \sum_{e_m \in S_t} \hat{e}_m$

$p_{soft}(e_k) = \frac{\exp(-d(c_t(S), \hat{e}_k))}{\sum_{i=1}^{|\phi|} \exp(-d(c_i(S), \hat{e}_k))}$

2. Processo di Fine-tuning (Finetuning Process)

Affina i modelli di rilevamento e classificazione dell'entità addestrati sul set di supporto del dominio target $S_{target}$ , utilizzando lo stesso schema del processo di addestramento.

3. Processo di Inferenza (Inference Process)

Contiene quattro fasi:

Costruzione dell'archivio dati chiave-valore $D_{knn}$ , con chiave come rappresentazione dell'entità e valore come etichetta corrispondente
Utilizzo del modello di rilevamento dell'entità per ottenere span di entità
Inserimento delle rappresentazioni di entità rilevate separatamente nel modello di classificazione e nel modulo KNN
Previsione congiunta: $p(y|e'_k) = \lambda p_{knn}(y|e'_k) + (1-\lambda) p_{soft}(y|e'_k)$

Punti di Innovazione Tecnica

Strategia di decomposizione a due stadi: Decompone il compito NER in due sottocompiti: rilevamento dello span e classificazione, evitando il problema di complessità dell'enumerazione di tutti gli span possibili nei metodi tradizionali
Apprendimento contrastivo consapevole dell'entità: Un modulo di apprendimento contrastivo appositamente progettato migliora la rappresentazione dell'entità, aumentando l'aggregazione di entità della stessa classe e la discriminazione di entità di classi diverse
Meccanismo di inferenza ibrido: Combina modelli parametrici e metodi KNN non parametrici, sfruttando pienamente le informazioni del set di supporto

Configurazione Sperimentale

Dataset

Dataset FewNERD:

Contiene 8 tipi di entità a grana grossa e 66 tipi a grana fine
Valuta le impostazioni FewNERD-INTRA e FewNERD-INTER
Utilizza il metodo di campionamento N-way K~2K-shot per costruire compiti

Dataset FewAPTER:

Costruito sul dataset di intelligence sulle minacce di sicurezza informatica APTER
Consolida i 37 tipi di entità originali in 21 classi, con 28.250 entità totali
Divide il set di addestramento/validazione/test nel rapporto 7:7:7
Costruisce quattro impostazioni: 4-way 1-shot, 4-way 3-shot, 6-way 1-shot, 6-way 3-shot

Metriche di Valutazione

Utilizza il punteggio F1 come metrica di valutazione principale, riportando anche la deviazione standard.

Metodi di Confronto

ProtoBERT: Metodo a livello di token basato sulla somiglianza degli stati nascosti di BERT
CONTAINER: Metodo che impiega apprendimento contrastivo a livello di token
NNShot/StructShot: Metodi basati su algoritmi dei vicini più prossimi
ESD: Metodo di corrispondenza a livello di span
MAML-ProtoNet: Metodo di meta-apprendimento che combina MAML e reti prototipiche
BDCP: Metodo di discriminazione dei confini e purificazione della rilevanza
ChatGPT: Baseline di modello linguistico di grandi dimensioni

Dettagli di Implementazione

Encoder: BERT-base
Ottimizzatore: AdamW, tasso di apprendimento 3e-5
Dimensione del batch: 32, lunghezza massima della sequenza: 128
K=10 in KNN, λ=0.1
Addestramento per 1000 step, selezione del miglior modello sul set di validazione

Risultati Sperimentali

Risultati Principali

Dataset FewNERD:

Miglioramento medio del punteggio F1 del 2,65% su FewNERD-INTRA
Miglioramento medio del punteggio F1 del 4,44% su FewNERD-INTER
Miglioramento significativo rispetto al precedente miglior metodo MAML-ProtoNet

Dataset FewAPTER:

Miglioramento medio del punteggio F1 dell'11,42%
Supera ChatGPT nella maggior parte delle impostazioni

Confronto con ChatGPT:

Supera complessivamente ChatGPT su FewNERD
Leggermente inferiore a ChatGPT su FewAPTER, ma con velocità di inferenza significativamente più rapida

Esperimenti di Ablazione

Rimozione del modulo di apprendimento contrastivo:
- Diminuzione media del 0,905% su FewNERD
- Diminuzione media del 0,745% su FewAPTER
Rimozione del modulo KNN:
- Diminuzione media del 0,524% su FewNERD
- Diminuzione media del 0,635% su FewAPTER

I risultati dimostrano che entrambi i moduli contribuiscono positivamente alle prestazioni.

Analisi dell'Efficienza

Il tempo di inferenza di MsFNER è significativamente più veloce di ChatGPT, mostrando maggiore efficienza in tutte le impostazioni, in conformità al principio del rasoio di Occam.

Scoperte Sperimentali

Impatto del numero di K-shot: L'aumento del numero di campioni K-shot migliora significativamente le prestazioni
Impatto del numero di N-way: L'aumento di N-way riduce le prestazioni, come previsto
Adattabilità del dominio: Il modello mostra buone prestazioni su compiti cross-domain
Stabilità dell'LLM: Le prestazioni di ChatGPT sono relativamente stabili, con minore impatto da variazioni di dati e dominio

Lavori Correlati

Principali Direzioni del Few-shot NER

Metodi a livello di token: Come ProtoBERT, CONTAINER, ecc., basati sulla somiglianza dei token per la previsione
Metodi a livello di span: Come ESD, che trattano l'entità come uno span intero
Metodi di meta-apprendimento: Come MAML-ProtoNet, che adottano framework di meta-apprendimento per adattarsi rapidamente a nuovi compiti

Vantaggi di questo Articolo

Rispetto ai lavori esistenti, MsFNER risolve efficacemente i problemi di complessità computazionale e campioni negativi attraverso la decomposizione a due stadi, introducendo contemporaneamente apprendimento contrastivo per migliorare l'apprendimento della rappresentazione.

Conclusioni e Discussione

Conclusioni Principali

Efficacia: MsFNER raggiunge prestazioni SOTA su più dataset, provando l'efficacia della strategia di decomposizione a due stadi
Efficienza: Riduce significativamente la complessità computazionale rispetto ai metodi tradizionali a livello di span
Generalità: Mostra buone prestazioni in diversi domini e impostazioni

Limitazioni

Limitazioni nell'adattamento del dominio: La capacità di generalizzazione in alcuni domini specifici (come FewAPTER) ha ancora spazio di miglioramento
Sensibilità agli iperparametri: Iperparametri come λ richiedono regolazione per diversi dataset
Risorse computazionali: Richiede ancora il modello BERT pre-addestrato come base

Direzioni Future

Capacità di adattamento del dominio più forti: Esplorare metodi di trasferimento cross-domain migliori
Ottimizzazione end-to-end: Ricercare strategie di ottimizzazione congiunta a due stadi
Valutazione su scala più ampia: Verificare l'efficacia del metodo su più domini e lingue

Valutazione Approfondita

Punti di Forza

Forte innovazione metodologica: La strategia di decomposizione a due stadi è innovativa e risolve efficacemente i problemi fondamentali dei metodi esistenti
Design tecnico ragionevole: L'apprendimento contrastivo consapevole dell'entità e il meccanismo di inferenza ibrido sono progettati in modo intelligente
Esperimenti completi: Valutazione completa su più dataset, incluso il confronto con LLM
Analisi approfondita: Fornisce esperimenti di ablazione dettagliati e analisi dell'efficienza

Insufficienze

Analisi teorica insufficiente: Manca la spiegazione teorica dell'efficacia del metodo
Analisi della complessità computazionale: Sebbene si affermi la riduzione della complessità, manca l'analisi quantitativa
Analisi degli errori mancante: Nessuna analisi approfondita dei casi di fallimento del modello

Impatto

Contributo accademico: Fornisce una nuova prospettiva di soluzione per il few-shot NER
Valore pratico: Il metodo è semplice, efficace, facile da implementare e distribuire
Riproducibilità: Fornisce dettagli di implementazione e impostazioni di iperparametri dettagliati

Scenari Applicabili

Ambienti con risorse limitate: Più adatto a scenari con risorse computazionali limitate rispetto ai modelli linguistici di grandi dimensioni
Esigenze di distribuzione rapida: Può adattarsi rapidamente a nuovi tipi di entità
Applicazioni in domini specifici: Ha buone prospettive di applicazione in domini verticali come la sicurezza informatica

Riferimenti Bibliografici

L'articolo cita lavori importanti nel campo correlato, inclusi:

Metodi fondamentali di apprendimento few-shot (Prototypical Networks, MAML)
Metodi classici di riconoscimento di entità nominate (approcci basati su BERT)
Lavori correlati all'apprendimento contrastivo (Supervised Contrastive Learning)
Metodi specializzati per few-shot NER (ProtoBERT, ESD, MAML-ProtoNet, ecc.)

Valutazione Complessiva: Questo è un articolo eccellente con una tecnica solida e esperimenti completi. Gli autori propongono una strategia di decomposizione a due stadi che risolve efficacemente i problemi chiave dei metodi esistenti, ottenendo miglioramenti significativi delle prestazioni su più dataset. Il design del metodo è ragionevole, il valore pratico è elevato e fornisce un contributo prezioso al campo del few-shot NER.