2025-11-19T20:19:14.203751

Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning

Liu, Wang, Liu et al.
Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.
academic

Décodage Hybride Multi-étapes pour la Reconnaissance d'Entités Nommées en Contexte Few-shot avec Apprentissage Contrastif Conscient des Entités

Informations Fondamentales

  • ID de l'article : 2404.06970
  • Titre : Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning
  • Auteurs : Congying Liu, Gaosheng Wang, Peipei Liu, Xingyuan Wei, Hongsong Zhu
  • Classification : cs.CL
  • Date de publication : Avril 2024 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2404.06970

Résumé

La reconnaissance d'entités nommées en contexte few-shot peut identifier de nouveaux types d'entités nommées basés sur quelques exemples étiquetés. Les méthodes précédentes utilisant l'apprentissage métrique au niveau des tokens ou des spans souffrent de la charge computationnelle et d'un grand nombre de spans négatifs. Dans cet article, nous proposons le Décodage Hybride Multi-étapes pour la Reconnaissance d'Entités Nommées en Contexte Few-shot avec Apprentissage Contrastif Conscient des Entités (MsFNER), qui divise la reconnaissance d'entités nommées générale en deux étapes : détection de spans d'entités et classification d'entités. Il existe 3 processus pour introduire MsFNER : entraînement, ajustement fin et inférence. Au cours du processus d'entraînement, nous entraînons et obtenons séparément le meilleur modèle de détection de spans d'entités et le modèle de classification d'entités sur le domaine source en utilisant l'apprentissage par métaapprentissage, où nous créons un module d'apprentissage contrastif pour améliorer les représentations d'entités pour la classification d'entités. Lors de l'ajustement fin, nous affinons les deux modèles sur l'ensemble de support du domaine cible. Au cours du processus d'inférence, pour les données non étiquetées, nous détectons d'abord les spans d'entités, puis les spans d'entités sont déterminés conjointement par le modèle de classification d'entités et le KNN. Nous menons des expériences sur l'ensemble de données FewNERD ouvert et les résultats démontrent l'avantage de MsFNER.

Contexte de Recherche et Motivation

Définition du Problème

La reconnaissance d'entités nommées en contexte few-shot (Few-shot NER) vise à identifier rapidement de nouveaux types d'entités nommées basés sur un petit nombre d'exemples étiquetés. Cette tâche est importante pour adapter les modèles à des scénarios d'application réels en constante évolution, particulièrement dans les situations où le modèle doit s'adapter rapidement à de nouvelles données ou à des changements d'environnement.

Limitations des Méthodes Existantes

  1. Méthodes au niveau des tokens : Bien que les approches basées sur la distance entre les tokens et les prototypes ou les tokens de l'ensemble de support soient simples et intuitives, elles souffrent de coûts computationnels élevés et de l'incapacité à préserver l'intégrité sémantique des tokens d'entités, étant facilement perturbées par les marqueurs non-entités.
  2. Méthodes au niveau des spans : Bien qu'elles puissent atténuer certains problèmes des méthodes au niveau des tokens en évaluant des spans entiers, l'énumération de tous les spans possibles entraîne une complexité O(N²) et augmente le bruit des nombreux échantillons négatifs.

Motivation de la Recherche

Les auteurs souhaitent résoudre deux problèmes fondamentaux :

  1. Comment améliorer l'efficacité de la reconnaissance d'entités nommées en contexte few-shot en augmentant les différences sémantiques entre les entités et les non-entités pour déterminer des spans d'entités efficaces
  2. Comment améliorer la classification des spans d'entités en contrôlant et en coordonnant les distances sémantiques entre différents types d'entités, rapprochant les représentations sémantiques des entités du même type et éloignant celles de types différents

Contributions Principales

  1. Proposition du cadre MsFNER : Décompose la tâche traditionnelle de reconnaissance d'entités nommées en deux étapes : détection de spans d'entités et classification d'entités, réduisant efficacement la complexité computationnelle et l'impact des échantillons négatifs
  2. Conception d'un module d'apprentissage contrastif conscient des entités : Améliore l'apprentissage des représentations d'entités, augmentant la cohérence des entités du même type et élargissant la distance entre les entités de types différents
  3. Construction d'un mécanisme d'inférence hybride : Combine le modèle de classification d'entités et la méthode KNN pour une prédiction conjointe, améliorant la précision de la classification
  4. Réalisation de performances SOTA : Surpasse significativement les méthodes existantes sur les ensembles de données FewNERD et FewAPTER, et effectue une comparaison complète avec ChatGPT

Explication Détaillée de la Méthode

Définition de la Tâche

La tâche de reconnaissance d'entités nommées en contexte few-shot est définie comme suit : le modèle est d'abord entraîné sur l'ensemble de données du domaine source Dsource=(Ssource,Qsource)D_{source} = (S_{source}, Q_{source}), puis transféré à l'ensemble de données du domaine cible Dtarget=(Starget,Qtarget)D_{target} = (S_{target}, Q_{target}) pour l'inférence. Où StargetS_{target} est l'ensemble de support contenant N types d'entités (N-way), chaque type ayant K exemples étiquetés (K-shot) ; QtargetQ_{target} est l'ensemble de requête contenant les mêmes types d'entités que l'ensemble de support.

Architecture du Modèle

MsFNER comprend trois processus principaux :

1. Processus d'Entraînement (Training Process)

Module de Détection de Spans d'Entités (ESD) :

  • Traite la détection de spans d'entités comme une tâche d'étiquetage de séquences, utilisant le schéma d'annotation BIOES
  • Pour la phrase d'entrée x=(x1,x2,...,xn)x = (x_1, x_2, ..., x_n), utilise un encodeur BERT pour obtenir les représentations contextuelles h=(h1,h2,...,hn)h = (h_1, h_2, ..., h_n)
  • Effectue la détection de spans d'entités via une couche CRF, avec la perte d'entraînement :

LESD=logP(yx)L_{ESD} = -\sum \log P(y|x)

où : P(yx)=i=1xϕi(yi1,yi,x)yi=1xϕi(yi1,yi,x)P(y|x) = \frac{\prod_{i=1}^{|x|} \phi_i(y_{i-1}, y_i, x)}{\sum_{y'} \prod_{i=1}^{|x|} \phi_i(y'_{i-1}, y'_i, x)}

  • Utilise la méthode MAML de métaapprentissage pour l'entraînement, comprenant les mises à jour de boucle interne et externe

Module de Classification d'Entités (EC) :

  • Pour l'entité ek=(xf,...,xf+l)e_k = (x_f, ..., x_{f+l}), utilise le max-pooling pour obtenir la représentation : e^k=max(hf,...,hf+l)\hat{e}_k = \max(h_f, ..., h_{f+l})
  • Introduit l'apprentissage contrastif conscient des entités, avec la fonction de perte : LCL=j1P(j)pP(j)logexp(sim(zj,zp)/τ)aA(j)exp(sim(zj,za)/τ)L_{CL} = \sum_j -\frac{1}{|P(j)|} \sum_{p \in P(j)} \log \frac{\exp(\text{sim}(z_j, z_p)/\tau)}{\sum_{a \in A(j)} \exp(\text{sim}(z_j, z_a)/\tau)}
  • Construit les représentations prototypiques et effectue la classification : ct(S)=1StemSte^mc_t(S) = \frac{1}{|S_t|} \sum_{e_m \in S_t} \hat{e}_m

psoft(ek)=exp(d(ct(S),e^k))i=1ϕexp(d(ci(S),e^k))p_{soft}(e_k) = \frac{\exp(-d(c_t(S), \hat{e}_k))}{\sum_{i=1}^{|\phi|} \exp(-d(c_i(S), \hat{e}_k))}

2. Processus d'Ajustement Fin (Finetuning Process)

Affine les modèles de détection d'entités et de classification entraînés sur l'ensemble de support du domaine cible StargetS_{target}, en utilisant le même modèle que le processus d'entraînement.

3. Processus d'Inférence (Inference Process)

Comprend quatre étapes :

  1. Construire un stockage de données clé-valeur DknnD_{knn}, où la clé est la représentation d'entité et la valeur est l'étiquette correspondante
  2. Utiliser le modèle de détection d'entités pour obtenir les spans d'entités
  3. Introduire les représentations d'entités détectées respectivement dans le modèle de classification et le module KNN
  4. Prédiction conjointe : p(yek)=λpknn(yek)+(1λ)psoft(yek)p(y|e'_k) = \lambda p_{knn}(y|e'_k) + (1-\lambda) p_{soft}(y|e'_k)

Points d'Innovation Technique

  1. Stratégie de Décomposition en Deux Étapes : Décompose la tâche de reconnaissance d'entités nommées en deux sous-tâches : détection de spans et classification, évitant le problème de complexité de l'énumération de tous les spans possibles dans les méthodes traditionnelles
  2. Apprentissage Contrastif Conscient des Entités : Module d'apprentissage contrastif spécialement conçu qui améliore les représentations d'entités, augmentant l'agrégation des entités du même type et la discrimination entre entités de types différents
  3. Mécanisme d'Inférence Hybride : Combine les modèles paramétriques et la méthode non-paramétrique KNN, exploitant pleinement les informations de l'ensemble de support

Configuration Expérimentale

Ensembles de Données

Ensemble de Données FewNERD :

  • Contient 8 types d'entités à granularité grossière et 66 types à granularité fine
  • Évalue les deux configurations FewNERD-INTRA et FewNERD-INTER
  • Utilise la méthode d'échantillonnage N-way K~2K-shot pour construire les tâches

Ensemble de Données FewAPTER :

  • Construit à partir de l'ensemble de données de renseignement sur les menaces de cybersécurité APTER
  • Consolide les 37 types d'entités originaux en 21 classes, avec un total de 28 250 entités
  • Divise l'ensemble d'entraînement/validation/test selon un ratio 7:7:7
  • Construit quatre configurations : 4-way 1-shot, 4-way 3-shot, 6-way 1-shot, 6-way 3-shot

Métriques d'Évaluation

Utilise le score F1 comme métrique d'évaluation principale et rapporte l'écart-type.

Méthodes de Comparaison

  • ProtoBERT : Méthode au niveau des tokens basée sur la similarité des états cachés BERT
  • CONTAINER : Méthode utilisant l'apprentissage contrastif au niveau des tokens
  • NNShot/StructShot : Méthodes basées sur l'algorithme des plus proches voisins
  • ESD : Méthode de correspondance au niveau des spans
  • MAML-ProtoNet : Méthode de métaapprentissage combinant MAML et les réseaux prototypiques
  • BDCP : Méthode de discrimination des frontières et de purification de la pertinence
  • ChatGPT : Ligne de base du modèle de langage de grande taille

Détails d'Implémentation

  • Encodeur : BERT-base
  • Optimiseur : AdamW, taux d'apprentissage 3e-5
  • Taille de lot : 32, longueur maximale de séquence : 128
  • K=10 dans KNN, λ=0.1
  • Entraînement sur 1000 étapes, sélection du meilleur modèle sur l'ensemble de validation

Résultats Expérimentaux

Résultats Principaux

Ensemble de Données FewNERD :

  • Amélioration moyenne du F1 de 2,65% sur FewNERD-INTRA
  • Amélioration moyenne du F1 de 4,44% sur FewNERD-INTER
  • Amélioration significative par rapport à la meilleure méthode précédente MAML-ProtoNet

Ensemble de Données FewAPTER :

  • Amélioration moyenne du score F1 de 11,42%
  • Surpasse ChatGPT dans la plupart des configurations

Comparaison avec ChatGPT :

  • Surpasse globalement ChatGPT sur FewNERD
  • Légèrement inférieur à ChatGPT sur FewAPTER, mais avec une vitesse d'inférence significativement plus rapide

Études d'Ablation

  1. Suppression du module d'apprentissage contrastif :
    • Baisse moyenne de 0,905% sur FewNERD
    • Baisse moyenne de 0,745% sur FewAPTER
  2. Suppression du module KNN :
    • Baisse moyenne de 0,524% sur FewNERD
    • Baisse moyenne de 0,635% sur FewAPTER

Les résultats montrent que les deux modules contribuent positivement aux performances.

Analyse d'Efficacité

Le temps d'inférence de MsFNER est significativement plus rapide que celui de ChatGPT, démontrant une efficacité supérieure dans toutes les configurations, conformément au principe du rasoir d'Occam.

Découvertes Expérimentales

  1. Impact du nombre de K-shot : L'augmentation du nombre d'exemples K-shot améliore significativement les performances
  2. Impact du nombre de N-way : L'augmentation de N-way réduit les performances, ce qui est conforme à l'intuition
  3. Adaptabilité inter-domaines : Le modèle fonctionne bien sur les tâches inter-domaines
  4. Stabilité des LLM : Les performances de ChatGPT sont relativement stables, peu affectées par les changements de données et de domaine

Travaux Connexes

Directions Principales de la Reconnaissance d'Entités Nommées en Contexte Few-shot

  1. Méthodes au niveau des tokens : Comme ProtoBERT, CONTAINER, etc., basées sur la similarité des tokens pour la prédiction
  2. Méthodes au niveau des spans : Comme ESD, traitant les entités comme des spans entiers
  3. Méthodes de métaapprentissage : Comme MAML-ProtoNet, utilisant des cadres de métaapprentissage pour une adaptation rapide aux nouvelles tâches

Avantages de cet Article

Par rapport aux travaux existants, MsFNER résout efficacement les problèmes de complexité computationnelle et d'échantillons négatifs grâce à la décomposition en deux étapes, tout en introduisant l'apprentissage contrastif pour améliorer l'apprentissage des représentations.

Conclusion et Discussion

Conclusions Principales

  1. Efficacité : MsFNER atteint les performances SOTA sur plusieurs ensembles de données, prouvant l'efficacité de la stratégie de décomposition en deux étapes
  2. Efficience : Réduit significativement la complexité computationnelle par rapport aux méthodes traditionnelles au niveau des spans
  3. Généralité : Fonctionne bien dans différents domaines et configurations

Limitations

  1. Limitations d'Adaptation Inter-domaines : La capacité de généralisation dans certains domaines spécifiques (comme FewAPTER) peut encore être améliorée
  2. Sensibilité aux Hyperparamètres : Des hyperparamètres comme λ nécessitent un ajustement pour différents ensembles de données
  3. Ressources Computationnelles : Nécessite toujours un modèle BERT pré-entraîné comme base

Directions Futures

  1. Capacité d'Adaptation Inter-domaines Plus Forte : Explorer de meilleures méthodes de transfert inter-domaines
  2. Optimisation Bout en Bout : Étudier les stratégies d'optimisation conjointe des deux étapes
  3. Évaluation à Plus Grande Échelle : Valider l'efficacité de la méthode sur plus de domaines et de langues

Évaluation Approfondie

Points Forts

  1. Forte Innovativité Méthodologique : La stratégie de décomposition en deux étapes est novatrice et résout efficacement les problèmes fondamentaux des méthodes existantes
  2. Conception Technique Rationnelle : L'apprentissage contrastif conscient des entités et le mécanisme d'inférence hybride sont ingénieusement conçus
  3. Expériences Complètes : Évaluation complète sur plusieurs ensembles de données, incluant la comparaison avec les LLM
  4. Analyse Approfondie : Fournit des études d'ablation détaillées et une analyse d'efficacité

Insuffisances

  1. Analyse Théorique Insuffisante : Manque d'explications théoriques sur l'efficacité de la méthode
  2. Analyse de Complexité Computationnelle : Bien que la réduction de complexité soit affirmée, une analyse quantitative fait défaut
  3. Analyse d'Erreurs Manquante : Pas d'analyse approfondie des cas d'échec du modèle

Impact

  1. Contribution Académique : Fournit une nouvelle perspective de résolution pour la reconnaissance d'entités nommées en contexte few-shot
  2. Valeur Pratique : La méthode est simple, efficace, facile à implémenter et à déployer
  3. Reproductibilité : Fournit des détails d'implémentation détaillés et des paramètres d'hyperparamètres

Scénarios d'Application

  1. Environnements aux Ressources Limitées : Plus approprié que les grands modèles de langage pour les scénarios avec des ressources computationnelles limitées
  2. Besoins de Déploiement Rapide : Capable de s'adapter rapidement à de nouveaux types d'entités
  3. Applications Spécifiques à un Domaine : Bonnes perspectives d'application dans les domaines verticaux comme la cybersécurité

Références

L'article cite les travaux importants du domaine connexe, notamment :

  • Méthodes fondamentales d'apprentissage few-shot (Prototypical Networks, MAML)
  • Méthodes classiques de reconnaissance d'entités nommées (approches basées sur BERT)
  • Travaux connexes sur l'apprentissage contrastif (Supervised Contrastive Learning)
  • Méthodes spécialisées en reconnaissance d'entités nommées few-shot (ProtoBERT, ESD, MAML-ProtoNet, etc.)

Évaluation Globale : Ceci est un excellent article techniquement solide avec des expériences complètes. La stratégie de décomposition en deux étapes proposée par les auteurs résout efficacement les problèmes clés des méthodes existantes, réalisant des améliorations de performance significatives sur plusieurs ensembles de données. La conception de la méthode est rationnelle, sa valeur pratique est élevée, et elle apporte une contribution précieuse au domaine de la reconnaissance d'entités nommées en contexte few-shot.