Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.
- ID del Artículo: 2404.06970
- Título: Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning
- Autores: Congying Liu, Gaosheng Wang, Peipei Liu, Xingyuan Wei, Hongsong Zhu
- Clasificación: cs.CL
- Fecha de Publicación: Abril de 2024 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2404.06970
El reconocimiento de entidades nombradas con pocos ejemplos (Few-shot NER) puede identificar nuevos tipos de entidades nombradas basándose en algunos ejemplos etiquetados. Los métodos anteriores que emplean aprendizaje de métricas a nivel de token o span sufren de carga computacional y un gran número de spans de muestra negativa. En este artículo, proponemos la Decodificación Híbrida Multi-etapa para NER de Pocos Ejemplos con Aprendizaje Contrastivo Consciente de Entidades (MsFNER), que divide el NER general en dos etapas: detección de span de entidad y clasificación de entidad. Hay 3 procesos para introducir MsFNER: entrenamiento, ajuste fino e inferencia. En el proceso de entrenamiento, entrenamos y obtenemos el mejor modelo de detección de span de entidad y el modelo de clasificación de entidad por separado en el dominio fuente utilizando meta-aprendizaje, donde creamos un módulo de aprendizaje contrastivo para mejorar las representaciones de entidades para la clasificación de entidades. Durante el ajuste fino, ajustamos ambos modelos en el conjunto de soporte del dominio objetivo. En el proceso de inferencia, para los datos sin etiquetar, primero detectamos los spans de entidad, luego los spans de entidad se determinan conjuntamente por el modelo de clasificación de entidad y el KNN. Realizamos experimentos en el conjunto de datos FewNERD abierto y los resultados demuestran el avance de MsFNER.
El reconocimiento de entidades nombradas con pocos ejemplos (Few-shot NER) tiene como objetivo identificar rápidamente nuevos tipos de entidades nombradas basándose en una pequeña cantidad de muestras anotadas. Esta tarea es de gran importancia para adaptarse a escenarios de aplicación práctica que cambian dinámicamente, especialmente en situaciones donde el modelo necesita adaptarse rápidamente a nuevos datos o cambios ambientales.
- Métodos a nivel de token: Aunque los métodos basados en la distancia entre tokens y prototipos o tokens del conjunto de soporte son simples e intuitivos, sufren de alto costo computacional y la incapacidad de mantener la integridad semántica de los tokens de entidad, siendo fácilmente interferidos por marcas no relacionadas con entidades.
- Métodos a nivel de span: Aunque pueden aliviar algunos problemas de los métodos a nivel de token evaluando spans completos, enumerar todos los spans posibles resulta en una complejidad O(N²) e incrementa el ruido de un gran número de muestras negativas.
Los autores desean resolver dos problemas centrales:
- Cómo mejorar la eficiencia del reconocimiento Few-shot NER, aumentando la diferencia semántica entre entidades y no-entidades para determinar spans de entidad efectivos
- Cómo mejorar la clasificación de spans de entidad, controlando y coordinando la distancia semántica entre diferentes tipos de entidades, haciendo que las representaciones semánticas de entidades del mismo tipo sean más cercanas y las de diferentes tipos más lejanas
- Se propone el marco MsFNER: Descompone la tarea tradicional de NER en dos etapas: detección de span de entidad y clasificación de entidad, reduciendo efectivamente la complejidad computacional y la influencia de muestras negativas
- Se diseña un módulo de aprendizaje contrastivo consciente de entidades: Mejora el aprendizaje de representaciones de entidades, aumentando la consistencia de entidades del mismo tipo y ampliando la distancia entre entidades de diferentes tipos
- Se construye un mecanismo de inferencia híbrido: Combina el modelo de clasificación de entidades y el método KNN para predicción conjunta, mejorando la precisión de clasificación
- Se logra rendimiento SOTA: Supera significativamente los métodos existentes en los conjuntos de datos FewNERD y FewAPTER, y se realiza una comparación exhaustiva con ChatGPT
La tarea Few-shot NER se define como: el modelo se entrena primero en el conjunto de datos del dominio fuente Dsource=(Ssource,Qsource), luego se transfiere al conjunto de datos del dominio objetivo Dtarget=(Starget,Qtarget) para inferencia. Donde Starget es el conjunto de soporte, que contiene N tipos de entidades (N-way), con K ejemplos anotados para cada tipo (K-shot); Qtarget es el conjunto de consulta, que contiene los mismos tipos de entidades que el conjunto de soporte.
MsFNER contiene tres procesos principales:
Módulo de Detección de Span de Entidad (ESD):
- Considera la detección de span de entidad como una tarea de etiquetado de secuencias, utilizando el esquema de anotación BIOES
- Para la oración de entrada x=(x1,x2,...,xn), utiliza el codificador BERT para obtener representaciones contextuales h=(h1,h2,...,hn)
- Realiza la detección de span de entidad a través de una capa CRF, con la pérdida de entrenamiento:
LESD=−∑logP(y∣x)
donde:
P(y∣x)=∑y′∏i=1∣x∣ϕi(yi−1′,yi′,x)∏i=1∣x∣ϕi(yi−1,yi,x)
- Adopta el método de meta-aprendizaje MAML para el entrenamiento, incluyendo actualizaciones de bucle interno y externo
Módulo de Clasificación de Entidad (EC):
- Para la entidad ek=(xf,...,xf+l), utiliza max-pooling para obtener la representación:
e^k=max(hf,...,hf+l)
- Introduce aprendizaje contrastivo consciente de entidades, con función de pérdida:
LCL=∑j−∣P(j)∣1∑p∈P(j)log∑a∈A(j)exp(sim(zj,za)/τ)exp(sim(zj,zp)/τ)
- Construye representaciones prototípicas y realiza clasificación:
ct(S)=∣St∣1∑em∈Ste^m
psoft(ek)=∑i=1∣ϕ∣exp(−d(ci(S),e^k))exp(−d(ct(S),e^k))
Ajusta el modelo de detección de entidad y clasificación entrenado en el conjunto de soporte del dominio objetivo Starget, adoptando el mismo patrón que el proceso de entrenamiento.
Contiene cuatro etapas:
- Construir almacenamiento de datos clave-valor Dknn, con claves como representaciones de entidades y valores como etiquetas correspondientes
- Utilizar el modelo de detección de entidad para obtener spans de entidad
- Introducir las representaciones de entidad detectadas en el modelo de clasificación y el módulo KNN respectivamente
- Predicción conjunta: p(y∣ek′)=λpknn(y∣ek′)+(1−λ)psoft(y∣ek′)
- Estrategia de descomposición en dos etapas: Descompone la tarea NER en dos subtareas: detección de span y clasificación, evitando el problema de complejidad de enumerar todos los spans posibles en métodos tradicionales
- Aprendizaje contrastivo consciente de entidades: Módulo de aprendizaje contrastivo especialmente diseñado que mejora las representaciones de entidades, aumentando la agregación de entidades del mismo tipo y la discriminación de entidades de diferentes tipos
- Mecanismo de inferencia híbrido: Combina modelos parametrizados y métodos no parametrizados KNN, aprovechando plenamente la información del conjunto de soporte
Conjunto de Datos FewNERD:
- Contiene 8 tipos de entidades de granularidad gruesa y 66 de granularidad fina
- Evalúa dos configuraciones: FewNERD-INTRA y FewNERD-INTER
- Adopta método de muestreo N-way K~2K-shot para construir tareas
Conjunto de Datos FewAPTER:
- Construido basándose en el conjunto de datos de inteligencia de amenazas de ciberseguridad APTER
- Integra los 37 tipos de entidades originales en 21 clases, con un total de 28,250 entidades
- Divide en proporción 7:7:7 para conjuntos de entrenamiento/validación/prueba
- Construye cuatro configuraciones: 4-way 1-shot, 4-way 3-shot, 6-way 1-shot, 6-way 3-shot
Utiliza la puntuación F1 como métrica de evaluación principal, reportando también la desviación estándar.
- ProtoBERT: Método a nivel de token basado en similitud de estados ocultos BERT
- CONTAINER: Método que adopta aprendizaje contrastivo a nivel de token
- NNShot/StructShot: Métodos basados en algoritmos de vecino más cercano
- ESD: Método de coincidencia a nivel de span
- MAML-ProtoNet: Método de meta-aprendizaje que combina MAML y redes prototípicas
- BDCP: Método de discriminación de límites y purificación de relevancia
- ChatGPT: Línea base de modelo de lenguaje grande
- Codificador: BERT-base
- Optimizador: AdamW, tasa de aprendizaje 3e-5
- Tamaño de lote: 32, longitud máxima de secuencia: 128
- K=10 en KNN, λ=0.1
- Entrenamiento durante 1000 pasos, seleccionando el mejor modelo en el conjunto de validación
Conjunto de Datos FewNERD:
- Mejora promedio de F1 del 2.65% en FewNERD-INTRA
- Mejora promedio de F1 del 4.44% en FewNERD-INTER
- Mejora significativa en comparación con el método anterior mejor MAML-ProtoNet
Conjunto de Datos FewAPTER:
- Mejora promedio de puntuación F1 del 11.42%
- Supera a ChatGPT en la mayoría de configuraciones
Comparación con ChatGPT:
- Supera generalmente a ChatGPT en FewNERD
- Ligeramente inferior a ChatGPT en FewAPTER, pero con velocidad de inferencia significativamente más rápida
- Eliminación del módulo de aprendizaje contrastivo:
- Disminución promedio del 0.905% en FewNERD
- Disminución promedio del 0.745% en FewAPTER
- Eliminación del módulo KNN:
- Disminución promedio del 0.524% en FewNERD
- Disminución promedio del 0.635% en FewAPTER
Los resultados demuestran que ambos módulos contribuyen positivamente al rendimiento.
El tiempo de inferencia de MsFNER es significativamente más rápido que el de ChatGPT, demostrando mayor eficiencia en todas las configuraciones, de acuerdo con el principio de la navaja de Occam.
- Impacto de la cantidad K-shot: Aumentar el número de muestras K-shot mejora significativamente el rendimiento
- Impacto de la cantidad N-way: Aumentar N-way reduce el rendimiento, lo cual es intuitivo
- Adaptabilidad de dominio: El modelo muestra buen rendimiento en tareas entre dominios
- Estabilidad de LLM: El rendimiento de ChatGPT es relativamente estable, con menor impacto de cambios de datos y dominio
- Métodos a nivel de token: Como ProtoBERT, CONTAINER, etc., basados en similitud de tokens para predicción
- Métodos a nivel de span: Como ESD, que tratan entidades como spans completos
- Métodos de meta-aprendizaje: Como MAML-ProtoNet, que adoptan marcos de meta-aprendizaje para adaptación rápida a nuevas tareas
En comparación con trabajos existentes, MsFNER resuelve efectivamente los problemas de complejidad computacional y muestras negativas mediante descomposición en dos etapas, mientras introduce aprendizaje contrastivo para mejorar el aprendizaje de representaciones.
- Efectividad: MsFNER logra rendimiento SOTA en múltiples conjuntos de datos, probando la efectividad de la estrategia de descomposición en dos etapas
- Eficiencia: Reduce significativamente la complejidad computacional en comparación con métodos tradicionales a nivel de span
- Generalidad: Muestra buen rendimiento en diferentes dominios y configuraciones
- Limitaciones de adaptación de dominio: La capacidad de generalización en ciertos dominios específicos (como FewAPTER) aún tiene espacio de mejora
- Sensibilidad a hiperparámetros: Hiperparámetros como λ necesitan ajuste para diferentes conjuntos de datos
- Recursos computacionales: Aún requiere el modelo BERT preentrenado como base
- Capacidad de adaptación de dominio más fuerte: Explorar métodos de transferencia entre dominios más efectivos
- Optimización de extremo a extremo: Investigar estrategias de optimización conjunta de dos etapas
- Evaluación a mayor escala: Validar la efectividad del método en más dominios e idiomas
- Innovación metodológica fuerte: La estrategia de descomposición en dos etapas es novedosa, resolviendo efectivamente los problemas centrales de métodos existentes
- Diseño técnico razonable: El aprendizaje contrastivo consciente de entidades y el mecanismo de inferencia híbrido están ingeniosamente diseñados
- Experimentos exhaustivos: Evaluación completa en múltiples conjuntos de datos, incluyendo comparación con LLM
- Análisis profundo: Proporciona experimentos de ablación detallados y análisis de eficiencia
- Análisis teórico insuficiente: Carece de explicación teórica sobre la efectividad del método
- Análisis de complejidad computacional: Aunque afirma reducir complejidad, carece de análisis cuantitativos
- Análisis de errores ausente: No analiza profundamente casos de fallo del modelo
- Contribución académica: Proporciona nuevas perspectivas de solución para Few-shot NER
- Valor práctico: El método es simple, efectivo, fácil de implementar y desplegar
- Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros
- Entornos con recursos limitados: Más adecuado que modelos de lenguaje grandes para escenarios con recursos computacionales limitados
- Necesidades de despliegue rápido: Puede adaptarse rápidamente a nuevos tipos de entidades
- Aplicaciones de dominio específico: Tiene buenas perspectivas de aplicación en dominios verticales como ciberseguridad
El artículo cita trabajos importantes en campos relacionados, incluyendo:
- Métodos fundamentales de aprendizaje Few-shot (Prototypical Networks, MAML)
- Métodos clásicos de reconocimiento de entidades nombradas (enfoques basados en BERT)
- Trabajos relacionados con aprendizaje contrastivo (Supervised Contrastive Learning)
- Métodos especializados en Few-shot NER (ProtoBERT, ESD, MAML-ProtoNet, etc.)
Evaluación General: Este es un artículo excelente con técnicas sólidas y experimentos exhaustivos. La estrategia de descomposición en dos etapas propuesta por los autores resuelve efectivamente los problemas clave de los métodos existentes, logrando mejoras significativas de rendimiento en múltiples conjuntos de datos. El diseño del método es razonable, con alto valor práctico, proporcionando contribuciones valiosas al campo del Few-shot NER.