Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.
- ID de l'article : 2404.06970
- Titre : Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning
- Auteurs : Congying Liu, Gaosheng Wang, Peipei Liu, Xingyuan Wei, Hongsong Zhu
- Classification : cs.CL
- Date de publication : Avril 2024 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2404.06970
La reconnaissance d'entités nommées en contexte few-shot peut identifier de nouveaux types d'entités nommées basés sur quelques exemples étiquetés. Les méthodes précédentes utilisant l'apprentissage métrique au niveau des tokens ou des spans souffrent de la charge computationnelle et d'un grand nombre de spans négatifs. Dans cet article, nous proposons le Décodage Hybride Multi-étapes pour la Reconnaissance d'Entités Nommées en Contexte Few-shot avec Apprentissage Contrastif Conscient des Entités (MsFNER), qui divise la reconnaissance d'entités nommées générale en deux étapes : détection de spans d'entités et classification d'entités. Il existe 3 processus pour introduire MsFNER : entraînement, ajustement fin et inférence. Au cours du processus d'entraînement, nous entraînons et obtenons séparément le meilleur modèle de détection de spans d'entités et le modèle de classification d'entités sur le domaine source en utilisant l'apprentissage par métaapprentissage, où nous créons un module d'apprentissage contrastif pour améliorer les représentations d'entités pour la classification d'entités. Lors de l'ajustement fin, nous affinons les deux modèles sur l'ensemble de support du domaine cible. Au cours du processus d'inférence, pour les données non étiquetées, nous détectons d'abord les spans d'entités, puis les spans d'entités sont déterminés conjointement par le modèle de classification d'entités et le KNN. Nous menons des expériences sur l'ensemble de données FewNERD ouvert et les résultats démontrent l'avantage de MsFNER.
La reconnaissance d'entités nommées en contexte few-shot (Few-shot NER) vise à identifier rapidement de nouveaux types d'entités nommées basés sur un petit nombre d'exemples étiquetés. Cette tâche est importante pour adapter les modèles à des scénarios d'application réels en constante évolution, particulièrement dans les situations où le modèle doit s'adapter rapidement à de nouvelles données ou à des changements d'environnement.
- Méthodes au niveau des tokens : Bien que les approches basées sur la distance entre les tokens et les prototypes ou les tokens de l'ensemble de support soient simples et intuitives, elles souffrent de coûts computationnels élevés et de l'incapacité à préserver l'intégrité sémantique des tokens d'entités, étant facilement perturbées par les marqueurs non-entités.
- Méthodes au niveau des spans : Bien qu'elles puissent atténuer certains problèmes des méthodes au niveau des tokens en évaluant des spans entiers, l'énumération de tous les spans possibles entraîne une complexité O(N²) et augmente le bruit des nombreux échantillons négatifs.
Les auteurs souhaitent résoudre deux problèmes fondamentaux :
- Comment améliorer l'efficacité de la reconnaissance d'entités nommées en contexte few-shot en augmentant les différences sémantiques entre les entités et les non-entités pour déterminer des spans d'entités efficaces
- Comment améliorer la classification des spans d'entités en contrôlant et en coordonnant les distances sémantiques entre différents types d'entités, rapprochant les représentations sémantiques des entités du même type et éloignant celles de types différents
- Proposition du cadre MsFNER : Décompose la tâche traditionnelle de reconnaissance d'entités nommées en deux étapes : détection de spans d'entités et classification d'entités, réduisant efficacement la complexité computationnelle et l'impact des échantillons négatifs
- Conception d'un module d'apprentissage contrastif conscient des entités : Améliore l'apprentissage des représentations d'entités, augmentant la cohérence des entités du même type et élargissant la distance entre les entités de types différents
- Construction d'un mécanisme d'inférence hybride : Combine le modèle de classification d'entités et la méthode KNN pour une prédiction conjointe, améliorant la précision de la classification
- Réalisation de performances SOTA : Surpasse significativement les méthodes existantes sur les ensembles de données FewNERD et FewAPTER, et effectue une comparaison complète avec ChatGPT
La tâche de reconnaissance d'entités nommées en contexte few-shot est définie comme suit : le modèle est d'abord entraîné sur l'ensemble de données du domaine source Dsource=(Ssource,Qsource), puis transféré à l'ensemble de données du domaine cible Dtarget=(Starget,Qtarget) pour l'inférence. Où Starget est l'ensemble de support contenant N types d'entités (N-way), chaque type ayant K exemples étiquetés (K-shot) ; Qtarget est l'ensemble de requête contenant les mêmes types d'entités que l'ensemble de support.
MsFNER comprend trois processus principaux :
Module de Détection de Spans d'Entités (ESD) :
- Traite la détection de spans d'entités comme une tâche d'étiquetage de séquences, utilisant le schéma d'annotation BIOES
- Pour la phrase d'entrée x=(x1,x2,...,xn), utilise un encodeur BERT pour obtenir les représentations contextuelles h=(h1,h2,...,hn)
- Effectue la détection de spans d'entités via une couche CRF, avec la perte d'entraînement :
LESD=−∑logP(y∣x)
où :
P(y∣x)=∑y′∏i=1∣x∣ϕi(yi−1′,yi′,x)∏i=1∣x∣ϕi(yi−1,yi,x)
- Utilise la méthode MAML de métaapprentissage pour l'entraînement, comprenant les mises à jour de boucle interne et externe
Module de Classification d'Entités (EC) :
- Pour l'entité ek=(xf,...,xf+l), utilise le max-pooling pour obtenir la représentation :
e^k=max(hf,...,hf+l)
- Introduit l'apprentissage contrastif conscient des entités, avec la fonction de perte :
LCL=∑j−∣P(j)∣1∑p∈P(j)log∑a∈A(j)exp(sim(zj,za)/τ)exp(sim(zj,zp)/τ)
- Construit les représentations prototypiques et effectue la classification :
ct(S)=∣St∣1∑em∈Ste^m
psoft(ek)=∑i=1∣ϕ∣exp(−d(ci(S),e^k))exp(−d(ct(S),e^k))
Affine les modèles de détection d'entités et de classification entraînés sur l'ensemble de support du domaine cible Starget, en utilisant le même modèle que le processus d'entraînement.
Comprend quatre étapes :
- Construire un stockage de données clé-valeur Dknn, où la clé est la représentation d'entité et la valeur est l'étiquette correspondante
- Utiliser le modèle de détection d'entités pour obtenir les spans d'entités
- Introduire les représentations d'entités détectées respectivement dans le modèle de classification et le module KNN
- Prédiction conjointe : p(y∣ek′)=λpknn(y∣ek′)+(1−λ)psoft(y∣ek′)
- Stratégie de Décomposition en Deux Étapes : Décompose la tâche de reconnaissance d'entités nommées en deux sous-tâches : détection de spans et classification, évitant le problème de complexité de l'énumération de tous les spans possibles dans les méthodes traditionnelles
- Apprentissage Contrastif Conscient des Entités : Module d'apprentissage contrastif spécialement conçu qui améliore les représentations d'entités, augmentant l'agrégation des entités du même type et la discrimination entre entités de types différents
- Mécanisme d'Inférence Hybride : Combine les modèles paramétriques et la méthode non-paramétrique KNN, exploitant pleinement les informations de l'ensemble de support
Ensemble de Données FewNERD :
- Contient 8 types d'entités à granularité grossière et 66 types à granularité fine
- Évalue les deux configurations FewNERD-INTRA et FewNERD-INTER
- Utilise la méthode d'échantillonnage N-way K~2K-shot pour construire les tâches
Ensemble de Données FewAPTER :
- Construit à partir de l'ensemble de données de renseignement sur les menaces de cybersécurité APTER
- Consolide les 37 types d'entités originaux en 21 classes, avec un total de 28 250 entités
- Divise l'ensemble d'entraînement/validation/test selon un ratio 7:7:7
- Construit quatre configurations : 4-way 1-shot, 4-way 3-shot, 6-way 1-shot, 6-way 3-shot
Utilise le score F1 comme métrique d'évaluation principale et rapporte l'écart-type.
- ProtoBERT : Méthode au niveau des tokens basée sur la similarité des états cachés BERT
- CONTAINER : Méthode utilisant l'apprentissage contrastif au niveau des tokens
- NNShot/StructShot : Méthodes basées sur l'algorithme des plus proches voisins
- ESD : Méthode de correspondance au niveau des spans
- MAML-ProtoNet : Méthode de métaapprentissage combinant MAML et les réseaux prototypiques
- BDCP : Méthode de discrimination des frontières et de purification de la pertinence
- ChatGPT : Ligne de base du modèle de langage de grande taille
- Encodeur : BERT-base
- Optimiseur : AdamW, taux d'apprentissage 3e-5
- Taille de lot : 32, longueur maximale de séquence : 128
- K=10 dans KNN, λ=0.1
- Entraînement sur 1000 étapes, sélection du meilleur modèle sur l'ensemble de validation
Ensemble de Données FewNERD :
- Amélioration moyenne du F1 de 2,65% sur FewNERD-INTRA
- Amélioration moyenne du F1 de 4,44% sur FewNERD-INTER
- Amélioration significative par rapport à la meilleure méthode précédente MAML-ProtoNet
Ensemble de Données FewAPTER :
- Amélioration moyenne du score F1 de 11,42%
- Surpasse ChatGPT dans la plupart des configurations
Comparaison avec ChatGPT :
- Surpasse globalement ChatGPT sur FewNERD
- Légèrement inférieur à ChatGPT sur FewAPTER, mais avec une vitesse d'inférence significativement plus rapide
- Suppression du module d'apprentissage contrastif :
- Baisse moyenne de 0,905% sur FewNERD
- Baisse moyenne de 0,745% sur FewAPTER
- Suppression du module KNN :
- Baisse moyenne de 0,524% sur FewNERD
- Baisse moyenne de 0,635% sur FewAPTER
Les résultats montrent que les deux modules contribuent positivement aux performances.
Le temps d'inférence de MsFNER est significativement plus rapide que celui de ChatGPT, démontrant une efficacité supérieure dans toutes les configurations, conformément au principe du rasoir d'Occam.
- Impact du nombre de K-shot : L'augmentation du nombre d'exemples K-shot améliore significativement les performances
- Impact du nombre de N-way : L'augmentation de N-way réduit les performances, ce qui est conforme à l'intuition
- Adaptabilité inter-domaines : Le modèle fonctionne bien sur les tâches inter-domaines
- Stabilité des LLM : Les performances de ChatGPT sont relativement stables, peu affectées par les changements de données et de domaine
- Méthodes au niveau des tokens : Comme ProtoBERT, CONTAINER, etc., basées sur la similarité des tokens pour la prédiction
- Méthodes au niveau des spans : Comme ESD, traitant les entités comme des spans entiers
- Méthodes de métaapprentissage : Comme MAML-ProtoNet, utilisant des cadres de métaapprentissage pour une adaptation rapide aux nouvelles tâches
Par rapport aux travaux existants, MsFNER résout efficacement les problèmes de complexité computationnelle et d'échantillons négatifs grâce à la décomposition en deux étapes, tout en introduisant l'apprentissage contrastif pour améliorer l'apprentissage des représentations.
- Efficacité : MsFNER atteint les performances SOTA sur plusieurs ensembles de données, prouvant l'efficacité de la stratégie de décomposition en deux étapes
- Efficience : Réduit significativement la complexité computationnelle par rapport aux méthodes traditionnelles au niveau des spans
- Généralité : Fonctionne bien dans différents domaines et configurations
- Limitations d'Adaptation Inter-domaines : La capacité de généralisation dans certains domaines spécifiques (comme FewAPTER) peut encore être améliorée
- Sensibilité aux Hyperparamètres : Des hyperparamètres comme λ nécessitent un ajustement pour différents ensembles de données
- Ressources Computationnelles : Nécessite toujours un modèle BERT pré-entraîné comme base
- Capacité d'Adaptation Inter-domaines Plus Forte : Explorer de meilleures méthodes de transfert inter-domaines
- Optimisation Bout en Bout : Étudier les stratégies d'optimisation conjointe des deux étapes
- Évaluation à Plus Grande Échelle : Valider l'efficacité de la méthode sur plus de domaines et de langues
- Forte Innovativité Méthodologique : La stratégie de décomposition en deux étapes est novatrice et résout efficacement les problèmes fondamentaux des méthodes existantes
- Conception Technique Rationnelle : L'apprentissage contrastif conscient des entités et le mécanisme d'inférence hybride sont ingénieusement conçus
- Expériences Complètes : Évaluation complète sur plusieurs ensembles de données, incluant la comparaison avec les LLM
- Analyse Approfondie : Fournit des études d'ablation détaillées et une analyse d'efficacité
- Analyse Théorique Insuffisante : Manque d'explications théoriques sur l'efficacité de la méthode
- Analyse de Complexité Computationnelle : Bien que la réduction de complexité soit affirmée, une analyse quantitative fait défaut
- Analyse d'Erreurs Manquante : Pas d'analyse approfondie des cas d'échec du modèle
- Contribution Académique : Fournit une nouvelle perspective de résolution pour la reconnaissance d'entités nommées en contexte few-shot
- Valeur Pratique : La méthode est simple, efficace, facile à implémenter et à déployer
- Reproductibilité : Fournit des détails d'implémentation détaillés et des paramètres d'hyperparamètres
- Environnements aux Ressources Limitées : Plus approprié que les grands modèles de langage pour les scénarios avec des ressources computationnelles limitées
- Besoins de Déploiement Rapide : Capable de s'adapter rapidement à de nouveaux types d'entités
- Applications Spécifiques à un Domaine : Bonnes perspectives d'application dans les domaines verticaux comme la cybersécurité
L'article cite les travaux importants du domaine connexe, notamment :
- Méthodes fondamentales d'apprentissage few-shot (Prototypical Networks, MAML)
- Méthodes classiques de reconnaissance d'entités nommées (approches basées sur BERT)
- Travaux connexes sur l'apprentissage contrastif (Supervised Contrastive Learning)
- Méthodes spécialisées en reconnaissance d'entités nommées few-shot (ProtoBERT, ESD, MAML-ProtoNet, etc.)
Évaluation Globale : Ceci est un excellent article techniquement solide avec des expériences complètes. La stratégie de décomposition en deux étapes proposée par les auteurs résout efficacement les problèmes clés des méthodes existantes, réalisant des améliorations de performance significatives sur plusieurs ensembles de données. La conception de la méthode est rationnelle, sa valeur pratique est élevée, et elle apporte une contribution précieuse au domaine de la reconnaissance d'entités nommées en contexte few-shot.