2025-11-19T20:19:14.203751

Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning

Liu, Wang, Liu et al.
Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.
academic

Decodifica Ibrida Multi-stadio per NER Few-shot con Apprendimento Contrastivo Consapevole dell'Entità

Informazioni Fondamentali

  • ID Articolo: 2404.06970
  • Titolo: Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning
  • Autori: Congying Liu, Gaosheng Wang, Peipei Liu, Xingyuan Wei, Hongsong Zhu
  • Classificazione: cs.CL
  • Data di Pubblicazione: Aprile 2024 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2404.06970

Riassunto

Il riconoscimento di entità nominate con pochi esempi (Few-shot NER) può identificare nuovi tipi di entità nominate basandosi su pochi esempi etichettati. I metodi precedenti che impiegano apprendimento metrico a livello di token o span soffrono dell'onere computazionale e di un gran numero di span negativi. In questo articolo, proponiamo la Decodifica Ibrida Multi-stadio per NER Few-shot con Apprendimento Contrastivo Consapevole dell'Entità (MsFNER), che divide il NER generale in due stadi: rilevamento dell'entità-span e classificazione dell'entità. Esistono 3 processi per l'introduzione di MsFNER: addestramento, fine-tuning e inferenza. Nel processo di addestramento, addestriamo e otteniamo il miglior modello di rilevamento dell'entità-span e il modello di classificazione dell'entità separatamente sul dominio sorgente utilizzando meta-apprendimento, dove creiamo un modulo di apprendimento contrastivo per migliorare le rappresentazioni dell'entità per la classificazione dell'entità. Durante il fine-tuning, affiniamo entrambi i modelli sul dataset di supporto del dominio target. Nel processo di inferenza, per i dati non etichettati, rilleviamo prima gli span dell'entità, quindi gli span dell'entità sono determinati congiuntamente dal modello di classificazione dell'entità e dal KNN. Conduciamo esperimenti sul dataset FewNERD aperto e i risultati dimostrano il vantaggio di MsFNER.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il riconoscimento di entità nominate con pochi esempi (Few-shot NER) mira a identificare rapidamente nuovi tipi di entità nominate basandosi su un numero limitato di campioni etichettati. Questo compito è di importanza cruciale per adattarsi a scenari applicativi reali in continua evoluzione, in particolare quando il modello deve adattarsi rapidamente a nuovi dati o cambiamenti ambientali.

Limitazioni dei Metodi Esistenti

  1. Metodi a livello di token: Sebbene gli approcci basati sulla distanza tra token e prototipi o token del set di supporto siano semplici e intuitivi, soffrono di elevati costi computazionali, incapacità di mantenere l'integrità semantica dei token dell'entità e sono facilmente disturbati da marcatori non-entità.
  2. Metodi a livello di span: Sebbene possano mitigare alcuni problemi dei metodi a livello di token valutando l'intero span, l'enumerazione di tutti gli span possibili comporta una complessità O(N²) e aumenta il rumore di numerosi campioni negativi.

Motivazione della Ricerca

Gli autori desiderano affrontare due problemi fondamentali:

  1. Come migliorare l'efficienza del riconoscimento few-shot NER, aumentando la differenza semantica tra entità e non-entità per determinare span di entità efficaci
  2. Come migliorare la classificazione dello span di entità, controllando e coordinando la distanza semantica tra diversi tipi di entità, rendendo le rappresentazioni semantiche di entità della stessa classe più vicine e quelle di classi diverse più lontane

Contributi Fondamentali

  1. Proposta del framework MsFNER: Decompone il compito NER tradizionale in due stadi: rilevamento dello span di entità e classificazione dell'entità, riducendo efficacemente la complessità computazionale e l'impatto dei campioni negativi
  2. Progettazione di un modulo di apprendimento contrastivo consapevole dell'entità: Migliora l'apprendimento della rappresentazione dell'entità, aumenta la coerenza delle entità della stessa classe e amplia la distanza tra entità di classi diverse
  3. Costruzione di un meccanismo di inferenza ibrido: Combina il modello di classificazione dell'entità e il metodo KNN per la previsione congiunta, migliorando l'accuratezza della classificazione
  4. Raggiungimento di prestazioni SOTA: Supera significativamente i metodi esistenti sui dataset FewNERD e FewAPTER, e fornisce un confronto completo con ChatGPT

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il compito Few-shot NER è definito come: il modello viene prima addestrato sul dataset del dominio sorgente Dsource=(Ssource,Qsource)D_{source} = (S_{source}, Q_{source}), quindi trasferito al dataset del dominio target Dtarget=(Starget,Qtarget)D_{target} = (S_{target}, Q_{target}) per l'inferenza. Dove StargetS_{target} è il set di supporto, contenente N tipi di entità (N-way), con K esempi etichettati per ogni tipo (K-shot); QtargetQ_{target} è il set di query, contenente gli stessi tipi di entità del set di supporto.

Architettura del Modello

MsFNER contiene tre processi principali:

1. Processo di Addestramento (Training Process)

Modulo di Rilevamento dello Span di Entità (ESD):

  • Tratta il rilevamento dello span di entità come un compito di etichettatura sequenziale, utilizzando lo schema di annotazione BIOES
  • Per la frase di input x=(x1,x2,...,xn)x = (x_1, x_2, ..., x_n), utilizza l'encoder BERT per ottenere rappresentazioni contestuali h=(h1,h2,...,hn)h = (h_1, h_2, ..., h_n)
  • Esegue il rilevamento dello span di entità attraverso uno strato CRF, con perdita di addestramento:

LESD=logP(yx)L_{ESD} = -\sum \log P(y|x)

dove: P(yx)=i=1xϕi(yi1,yi,x)yi=1xϕi(yi1,yi,x)P(y|x) = \frac{\prod_{i=1}^{|x|} \phi_i(y_{i-1}, y_i, x)}{\sum_{y'} \prod_{i=1}^{|x|} \phi_i(y'_{i-1}, y'_i, x)}

  • Utilizza il metodo di meta-apprendimento MAML per l'addestramento, includendo aggiornamenti del ciclo interno e del ciclo esterno

Modulo di Classificazione dell'Entità (EC):

  • Per l'entità ek=(xf,...,xf+l)e_k = (x_f, ..., x_{f+l}), utilizza il max pooling per ottenere la rappresentazione: e^k=max(hf,...,hf+l)\hat{e}_k = \max(h_f, ..., h_{f+l})
  • Introduce l'apprendimento contrastivo consapevole dell'entità, con funzione di perdita: LCL=j1P(j)pP(j)logexp(sim(zj,zp)/τ)aA(j)exp(sim(zj,za)/τ)L_{CL} = \sum_j -\frac{1}{|P(j)|} \sum_{p \in P(j)} \log \frac{\exp(\text{sim}(z_j, z_p)/\tau)}{\sum_{a \in A(j)} \exp(\text{sim}(z_j, z_a)/\tau)}
  • Costruisce rappresentazioni prototipiche e esegue la classificazione: ct(S)=1StemSte^mc_t(S) = \frac{1}{|S_t|} \sum_{e_m \in S_t} \hat{e}_m

psoft(ek)=exp(d(ct(S),e^k))i=1ϕexp(d(ci(S),e^k))p_{soft}(e_k) = \frac{\exp(-d(c_t(S), \hat{e}_k))}{\sum_{i=1}^{|\phi|} \exp(-d(c_i(S), \hat{e}_k))}

2. Processo di Fine-tuning (Finetuning Process)

Affina i modelli di rilevamento e classificazione dell'entità addestrati sul set di supporto del dominio target StargetS_{target}, utilizzando lo stesso schema del processo di addestramento.

3. Processo di Inferenza (Inference Process)

Contiene quattro fasi:

  1. Costruzione dell'archivio dati chiave-valore DknnD_{knn}, con chiave come rappresentazione dell'entità e valore come etichetta corrispondente
  2. Utilizzo del modello di rilevamento dell'entità per ottenere span di entità
  3. Inserimento delle rappresentazioni di entità rilevate separatamente nel modello di classificazione e nel modulo KNN
  4. Previsione congiunta: p(yek)=λpknn(yek)+(1λ)psoft(yek)p(y|e'_k) = \lambda p_{knn}(y|e'_k) + (1-\lambda) p_{soft}(y|e'_k)

Punti di Innovazione Tecnica

  1. Strategia di decomposizione a due stadi: Decompone il compito NER in due sottocompiti: rilevamento dello span e classificazione, evitando il problema di complessità dell'enumerazione di tutti gli span possibili nei metodi tradizionali
  2. Apprendimento contrastivo consapevole dell'entità: Un modulo di apprendimento contrastivo appositamente progettato migliora la rappresentazione dell'entità, aumentando l'aggregazione di entità della stessa classe e la discriminazione di entità di classi diverse
  3. Meccanismo di inferenza ibrido: Combina modelli parametrici e metodi KNN non parametrici, sfruttando pienamente le informazioni del set di supporto

Configurazione Sperimentale

Dataset

Dataset FewNERD:

  • Contiene 8 tipi di entità a grana grossa e 66 tipi a grana fine
  • Valuta le impostazioni FewNERD-INTRA e FewNERD-INTER
  • Utilizza il metodo di campionamento N-way K~2K-shot per costruire compiti

Dataset FewAPTER:

  • Costruito sul dataset di intelligence sulle minacce di sicurezza informatica APTER
  • Consolida i 37 tipi di entità originali in 21 classi, con 28.250 entità totali
  • Divide il set di addestramento/validazione/test nel rapporto 7:7:7
  • Costruisce quattro impostazioni: 4-way 1-shot, 4-way 3-shot, 6-way 1-shot, 6-way 3-shot

Metriche di Valutazione

Utilizza il punteggio F1 come metrica di valutazione principale, riportando anche la deviazione standard.

Metodi di Confronto

  • ProtoBERT: Metodo a livello di token basato sulla somiglianza degli stati nascosti di BERT
  • CONTAINER: Metodo che impiega apprendimento contrastivo a livello di token
  • NNShot/StructShot: Metodi basati su algoritmi dei vicini più prossimi
  • ESD: Metodo di corrispondenza a livello di span
  • MAML-ProtoNet: Metodo di meta-apprendimento che combina MAML e reti prototipiche
  • BDCP: Metodo di discriminazione dei confini e purificazione della rilevanza
  • ChatGPT: Baseline di modello linguistico di grandi dimensioni

Dettagli di Implementazione

  • Encoder: BERT-base
  • Ottimizzatore: AdamW, tasso di apprendimento 3e-5
  • Dimensione del batch: 32, lunghezza massima della sequenza: 128
  • K=10 in KNN, λ=0.1
  • Addestramento per 1000 step, selezione del miglior modello sul set di validazione

Risultati Sperimentali

Risultati Principali

Dataset FewNERD:

  • Miglioramento medio del punteggio F1 del 2,65% su FewNERD-INTRA
  • Miglioramento medio del punteggio F1 del 4,44% su FewNERD-INTER
  • Miglioramento significativo rispetto al precedente miglior metodo MAML-ProtoNet

Dataset FewAPTER:

  • Miglioramento medio del punteggio F1 dell'11,42%
  • Supera ChatGPT nella maggior parte delle impostazioni

Confronto con ChatGPT:

  • Supera complessivamente ChatGPT su FewNERD
  • Leggermente inferiore a ChatGPT su FewAPTER, ma con velocità di inferenza significativamente più rapida

Esperimenti di Ablazione

  1. Rimozione del modulo di apprendimento contrastivo:
    • Diminuzione media del 0,905% su FewNERD
    • Diminuzione media del 0,745% su FewAPTER
  2. Rimozione del modulo KNN:
    • Diminuzione media del 0,524% su FewNERD
    • Diminuzione media del 0,635% su FewAPTER

I risultati dimostrano che entrambi i moduli contribuiscono positivamente alle prestazioni.

Analisi dell'Efficienza

Il tempo di inferenza di MsFNER è significativamente più veloce di ChatGPT, mostrando maggiore efficienza in tutte le impostazioni, in conformità al principio del rasoio di Occam.

Scoperte Sperimentali

  1. Impatto del numero di K-shot: L'aumento del numero di campioni K-shot migliora significativamente le prestazioni
  2. Impatto del numero di N-way: L'aumento di N-way riduce le prestazioni, come previsto
  3. Adattabilità del dominio: Il modello mostra buone prestazioni su compiti cross-domain
  4. Stabilità dell'LLM: Le prestazioni di ChatGPT sono relativamente stabili, con minore impatto da variazioni di dati e dominio

Lavori Correlati

Principali Direzioni del Few-shot NER

  1. Metodi a livello di token: Come ProtoBERT, CONTAINER, ecc., basati sulla somiglianza dei token per la previsione
  2. Metodi a livello di span: Come ESD, che trattano l'entità come uno span intero
  3. Metodi di meta-apprendimento: Come MAML-ProtoNet, che adottano framework di meta-apprendimento per adattarsi rapidamente a nuovi compiti

Vantaggi di questo Articolo

Rispetto ai lavori esistenti, MsFNER risolve efficacemente i problemi di complessità computazionale e campioni negativi attraverso la decomposizione a due stadi, introducendo contemporaneamente apprendimento contrastivo per migliorare l'apprendimento della rappresentazione.

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia: MsFNER raggiunge prestazioni SOTA su più dataset, provando l'efficacia della strategia di decomposizione a due stadi
  2. Efficienza: Riduce significativamente la complessità computazionale rispetto ai metodi tradizionali a livello di span
  3. Generalità: Mostra buone prestazioni in diversi domini e impostazioni

Limitazioni

  1. Limitazioni nell'adattamento del dominio: La capacità di generalizzazione in alcuni domini specifici (come FewAPTER) ha ancora spazio di miglioramento
  2. Sensibilità agli iperparametri: Iperparametri come λ richiedono regolazione per diversi dataset
  3. Risorse computazionali: Richiede ancora il modello BERT pre-addestrato come base

Direzioni Future

  1. Capacità di adattamento del dominio più forti: Esplorare metodi di trasferimento cross-domain migliori
  2. Ottimizzazione end-to-end: Ricercare strategie di ottimizzazione congiunta a due stadi
  3. Valutazione su scala più ampia: Verificare l'efficacia del metodo su più domini e lingue

Valutazione Approfondita

Punti di Forza

  1. Forte innovazione metodologica: La strategia di decomposizione a due stadi è innovativa e risolve efficacemente i problemi fondamentali dei metodi esistenti
  2. Design tecnico ragionevole: L'apprendimento contrastivo consapevole dell'entità e il meccanismo di inferenza ibrido sono progettati in modo intelligente
  3. Esperimenti completi: Valutazione completa su più dataset, incluso il confronto con LLM
  4. Analisi approfondita: Fornisce esperimenti di ablazione dettagliati e analisi dell'efficienza

Insufficienze

  1. Analisi teorica insufficiente: Manca la spiegazione teorica dell'efficacia del metodo
  2. Analisi della complessità computazionale: Sebbene si affermi la riduzione della complessità, manca l'analisi quantitativa
  3. Analisi degli errori mancante: Nessuna analisi approfondita dei casi di fallimento del modello

Impatto

  1. Contributo accademico: Fornisce una nuova prospettiva di soluzione per il few-shot NER
  2. Valore pratico: Il metodo è semplice, efficace, facile da implementare e distribuire
  3. Riproducibilità: Fornisce dettagli di implementazione e impostazioni di iperparametri dettagliati

Scenari Applicabili

  1. Ambienti con risorse limitate: Più adatto a scenari con risorse computazionali limitate rispetto ai modelli linguistici di grandi dimensioni
  2. Esigenze di distribuzione rapida: Può adattarsi rapidamente a nuovi tipi di entità
  3. Applicazioni in domini specifici: Ha buone prospettive di applicazione in domini verticali come la sicurezza informatica

Riferimenti Bibliografici

L'articolo cita lavori importanti nel campo correlato, inclusi:

  • Metodi fondamentali di apprendimento few-shot (Prototypical Networks, MAML)
  • Metodi classici di riconoscimento di entità nominate (approcci basati su BERT)
  • Lavori correlati all'apprendimento contrastivo (Supervised Contrastive Learning)
  • Metodi specializzati per few-shot NER (ProtoBERT, ESD, MAML-ProtoNet, ecc.)

Valutazione Complessiva: Questo è un articolo eccellente con una tecnica solida e esperimenti completi. Gli autori propongono una strategia di decomposizione a due stadi che risolve efficacemente i problemi chiave dei metodi esistenti, ottenendo miglioramenti significativi delle prestazioni su più dataset. Il design del metodo è ragionevole, il valore pratico è elevato e fornisce un contributo prezioso al campo del few-shot NER.