2025-11-19T20:19:14.203751

Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning

Liu, Wang, Liu et al.

Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.

academic

Decodificación Híbrida Multi-etapa para NER de Pocos Ejemplos con Aprendizaje Contrastivo Consciente de Entidades

Información Básica

ID del Artículo: 2404.06970
Título: Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning
Autores: Congying Liu, Gaosheng Wang, Peipei Liu, Xingyuan Wei, Hongsong Zhu
Clasificación: cs.CL
Fecha de Publicación: Abril de 2024 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2404.06970

Resumen

El reconocimiento de entidades nombradas con pocos ejemplos (Few-shot NER) puede identificar nuevos tipos de entidades nombradas basándose en algunos ejemplos etiquetados. Los métodos anteriores que emplean aprendizaje de métricas a nivel de token o span sufren de carga computacional y un gran número de spans de muestra negativa. En este artículo, proponemos la Decodificación Híbrida Multi-etapa para NER de Pocos Ejemplos con Aprendizaje Contrastivo Consciente de Entidades (MsFNER), que divide el NER general en dos etapas: detección de span de entidad y clasificación de entidad. Hay 3 procesos para introducir MsFNER: entrenamiento, ajuste fino e inferencia. En el proceso de entrenamiento, entrenamos y obtenemos el mejor modelo de detección de span de entidad y el modelo de clasificación de entidad por separado en el dominio fuente utilizando meta-aprendizaje, donde creamos un módulo de aprendizaje contrastivo para mejorar las representaciones de entidades para la clasificación de entidades. Durante el ajuste fino, ajustamos ambos modelos en el conjunto de soporte del dominio objetivo. En el proceso de inferencia, para los datos sin etiquetar, primero detectamos los spans de entidad, luego los spans de entidad se determinan conjuntamente por el modelo de clasificación de entidad y el KNN. Realizamos experimentos en el conjunto de datos FewNERD abierto y los resultados demuestran el avance de MsFNER.

Antecedentes de Investigación y Motivación

Definición del Problema

El reconocimiento de entidades nombradas con pocos ejemplos (Few-shot NER) tiene como objetivo identificar rápidamente nuevos tipos de entidades nombradas basándose en una pequeña cantidad de muestras anotadas. Esta tarea es de gran importancia para adaptarse a escenarios de aplicación práctica que cambian dinámicamente, especialmente en situaciones donde el modelo necesita adaptarse rápidamente a nuevos datos o cambios ambientales.

Limitaciones de los Métodos Existentes

Métodos a nivel de token: Aunque los métodos basados en la distancia entre tokens y prototipos o tokens del conjunto de soporte son simples e intuitivos, sufren de alto costo computacional y la incapacidad de mantener la integridad semántica de los tokens de entidad, siendo fácilmente interferidos por marcas no relacionadas con entidades.
Métodos a nivel de span: Aunque pueden aliviar algunos problemas de los métodos a nivel de token evaluando spans completos, enumerar todos los spans posibles resulta en una complejidad O(N²) e incrementa el ruido de un gran número de muestras negativas.

Motivación de la Investigación

Los autores desean resolver dos problemas centrales:

Cómo mejorar la eficiencia del reconocimiento Few-shot NER, aumentando la diferencia semántica entre entidades y no-entidades para determinar spans de entidad efectivos
Cómo mejorar la clasificación de spans de entidad, controlando y coordinando la distancia semántica entre diferentes tipos de entidades, haciendo que las representaciones semánticas de entidades del mismo tipo sean más cercanas y las de diferentes tipos más lejanas

Contribuciones Principales

Se propone el marco MsFNER: Descompone la tarea tradicional de NER en dos etapas: detección de span de entidad y clasificación de entidad, reduciendo efectivamente la complejidad computacional y la influencia de muestras negativas
Se diseña un módulo de aprendizaje contrastivo consciente de entidades: Mejora el aprendizaje de representaciones de entidades, aumentando la consistencia de entidades del mismo tipo y ampliando la distancia entre entidades de diferentes tipos
Se construye un mecanismo de inferencia híbrido: Combina el modelo de clasificación de entidades y el método KNN para predicción conjunta, mejorando la precisión de clasificación
Se logra rendimiento SOTA: Supera significativamente los métodos existentes en los conjuntos de datos FewNERD y FewAPTER, y se realiza una comparación exhaustiva con ChatGPT

Explicación Detallada del Método

Definición de la Tarea

La tarea Few-shot NER se define como: el modelo se entrena primero en el conjunto de datos del dominio fuente $D_{source} = (S_{source}, Q_{source})$ , luego se transfiere al conjunto de datos del dominio objetivo $D_{target} = (S_{target}, Q_{target})$ para inferencia. Donde $S_{target}$ es el conjunto de soporte, que contiene N tipos de entidades (N-way), con K ejemplos anotados para cada tipo (K-shot); $Q_{target}$ es el conjunto de consulta, que contiene los mismos tipos de entidades que el conjunto de soporte.

Arquitectura del Modelo

MsFNER contiene tres procesos principales:

1. Proceso de Entrenamiento (Training Process)

Módulo de Detección de Span de Entidad (ESD):

Considera la detección de span de entidad como una tarea de etiquetado de secuencias, utilizando el esquema de anotación BIOES
Para la oración de entrada $x = (x_1, x_2, ..., x_n)$ , utiliza el codificador BERT para obtener representaciones contextuales $h = (h_1, h_2, ..., h_n)$
Realiza la detección de span de entidad a través de una capa CRF, con la pérdida de entrenamiento:

$L_{ESD} = -\sum \log P(y|x)$

donde: $P(y|x) = \frac{\prod_{i=1}^{|x|} \phi_i(y_{i-1}, y_i, x)}{\sum_{y'} \prod_{i=1}^{|x|} \phi_i(y'_{i-1}, y'_i, x)}$

Adopta el método de meta-aprendizaje MAML para el entrenamiento, incluyendo actualizaciones de bucle interno y externo

Módulo de Clasificación de Entidad (EC):

Para la entidad $e_k = (x_f, ..., x_{f+l})$ , utiliza max-pooling para obtener la representación: $\hat{e}_k = \max(h_f, ..., h_{f+l})$
Introduce aprendizaje contrastivo consciente de entidades, con función de pérdida: $L_{CL} = \sum_j -\frac{1}{|P(j)|} \sum_{p \in P(j)} \log \frac{\exp(\text{sim}(z_j, z_p)/\tau)}{\sum_{a \in A(j)} \exp(\text{sim}(z_j, z_a)/\tau)}$
Construye representaciones prototípicas y realiza clasificación: $c_t(S) = \frac{1}{|S_t|} \sum_{e_m \in S_t} \hat{e}_m$

$p_{soft}(e_k) = \frac{\exp(-d(c_t(S), \hat{e}_k))}{\sum_{i=1}^{|\phi|} \exp(-d(c_i(S), \hat{e}_k))}$

2. Proceso de Ajuste Fino (Finetuning Process)

Ajusta el modelo de detección de entidad y clasificación entrenado en el conjunto de soporte del dominio objetivo $S_{target}$ , adoptando el mismo patrón que el proceso de entrenamiento.

3. Proceso de Inferencia (Inference Process)

Contiene cuatro etapas:

Construir almacenamiento de datos clave-valor $D_{knn}$ , con claves como representaciones de entidades y valores como etiquetas correspondientes
Utilizar el modelo de detección de entidad para obtener spans de entidad
Introducir las representaciones de entidad detectadas en el modelo de clasificación y el módulo KNN respectivamente
Predicción conjunta: $p(y|e'_k) = \lambda p_{knn}(y|e'_k) + (1-\lambda) p_{soft}(y|e'_k)$

Puntos de Innovación Técnica

Estrategia de descomposición en dos etapas: Descompone la tarea NER en dos subtareas: detección de span y clasificación, evitando el problema de complejidad de enumerar todos los spans posibles en métodos tradicionales
Aprendizaje contrastivo consciente de entidades: Módulo de aprendizaje contrastivo especialmente diseñado que mejora las representaciones de entidades, aumentando la agregación de entidades del mismo tipo y la discriminación de entidades de diferentes tipos
Mecanismo de inferencia híbrido: Combina modelos parametrizados y métodos no parametrizados KNN, aprovechando plenamente la información del conjunto de soporte

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos FewNERD:

Contiene 8 tipos de entidades de granularidad gruesa y 66 de granularidad fina
Evalúa dos configuraciones: FewNERD-INTRA y FewNERD-INTER
Adopta método de muestreo N-way K~2K-shot para construir tareas

Conjunto de Datos FewAPTER:

Construido basándose en el conjunto de datos de inteligencia de amenazas de ciberseguridad APTER
Integra los 37 tipos de entidades originales en 21 clases, con un total de 28,250 entidades
Divide en proporción 7:7:7 para conjuntos de entrenamiento/validación/prueba
Construye cuatro configuraciones: 4-way 1-shot, 4-way 3-shot, 6-way 1-shot, 6-way 3-shot

Métricas de Evaluación

Utiliza la puntuación F1 como métrica de evaluación principal, reportando también la desviación estándar.

Métodos de Comparación

ProtoBERT: Método a nivel de token basado en similitud de estados ocultos BERT
CONTAINER: Método que adopta aprendizaje contrastivo a nivel de token
NNShot/StructShot: Métodos basados en algoritmos de vecino más cercano
ESD: Método de coincidencia a nivel de span
MAML-ProtoNet: Método de meta-aprendizaje que combina MAML y redes prototípicas
BDCP: Método de discriminación de límites y purificación de relevancia
ChatGPT: Línea base de modelo de lenguaje grande

Detalles de Implementación

Codificador: BERT-base
Optimizador: AdamW, tasa de aprendizaje 3e-5
Tamaño de lote: 32, longitud máxima de secuencia: 128
K=10 en KNN, λ=0.1
Entrenamiento durante 1000 pasos, seleccionando el mejor modelo en el conjunto de validación

Resultados Experimentales

Resultados Principales

Conjunto de Datos FewNERD:

Mejora promedio de F1 del 2.65% en FewNERD-INTRA
Mejora promedio de F1 del 4.44% en FewNERD-INTER
Mejora significativa en comparación con el método anterior mejor MAML-ProtoNet

Conjunto de Datos FewAPTER:

Mejora promedio de puntuación F1 del 11.42%
Supera a ChatGPT en la mayoría de configuraciones

Comparación con ChatGPT:

Supera generalmente a ChatGPT en FewNERD
Ligeramente inferior a ChatGPT en FewAPTER, pero con velocidad de inferencia significativamente más rápida

Experimentos de Ablación

Eliminación del módulo de aprendizaje contrastivo:
- Disminución promedio del 0.905% en FewNERD
- Disminución promedio del 0.745% en FewAPTER
Eliminación del módulo KNN:
- Disminución promedio del 0.524% en FewNERD
- Disminución promedio del 0.635% en FewAPTER

Los resultados demuestran que ambos módulos contribuyen positivamente al rendimiento.

Análisis de Eficiencia

El tiempo de inferencia de MsFNER es significativamente más rápido que el de ChatGPT, demostrando mayor eficiencia en todas las configuraciones, de acuerdo con el principio de la navaja de Occam.

Hallazgos Experimentales

Impacto de la cantidad K-shot: Aumentar el número de muestras K-shot mejora significativamente el rendimiento
Impacto de la cantidad N-way: Aumentar N-way reduce el rendimiento, lo cual es intuitivo
Adaptabilidad de dominio: El modelo muestra buen rendimiento en tareas entre dominios
Estabilidad de LLM: El rendimiento de ChatGPT es relativamente estable, con menor impacto de cambios de datos y dominio

Trabajo Relacionado

Direcciones Principales en Few-shot NER

Métodos a nivel de token: Como ProtoBERT, CONTAINER, etc., basados en similitud de tokens para predicción
Métodos a nivel de span: Como ESD, que tratan entidades como spans completos
Métodos de meta-aprendizaje: Como MAML-ProtoNet, que adoptan marcos de meta-aprendizaje para adaptación rápida a nuevas tareas

Ventajas de este Artículo

En comparación con trabajos existentes, MsFNER resuelve efectivamente los problemas de complejidad computacional y muestras negativas mediante descomposición en dos etapas, mientras introduce aprendizaje contrastivo para mejorar el aprendizaje de representaciones.

Conclusiones y Discusión

Conclusiones Principales

Efectividad: MsFNER logra rendimiento SOTA en múltiples conjuntos de datos, probando la efectividad de la estrategia de descomposición en dos etapas
Eficiencia: Reduce significativamente la complejidad computacional en comparación con métodos tradicionales a nivel de span
Generalidad: Muestra buen rendimiento en diferentes dominios y configuraciones

Limitaciones

Limitaciones de adaptación de dominio: La capacidad de generalización en ciertos dominios específicos (como FewAPTER) aún tiene espacio de mejora
Sensibilidad a hiperparámetros: Hiperparámetros como λ necesitan ajuste para diferentes conjuntos de datos
Recursos computacionales: Aún requiere el modelo BERT preentrenado como base

Direcciones Futuras

Capacidad de adaptación de dominio más fuerte: Explorar métodos de transferencia entre dominios más efectivos
Optimización de extremo a extremo: Investigar estrategias de optimización conjunta de dos etapas
Evaluación a mayor escala: Validar la efectividad del método en más dominios e idiomas

Evaluación Profunda

Fortalezas

Innovación metodológica fuerte: La estrategia de descomposición en dos etapas es novedosa, resolviendo efectivamente los problemas centrales de métodos existentes
Diseño técnico razonable: El aprendizaje contrastivo consciente de entidades y el mecanismo de inferencia híbrido están ingeniosamente diseñados
Experimentos exhaustivos: Evaluación completa en múltiples conjuntos de datos, incluyendo comparación con LLM
Análisis profundo: Proporciona experimentos de ablación detallados y análisis de eficiencia

Deficiencias

Análisis teórico insuficiente: Carece de explicación teórica sobre la efectividad del método
Análisis de complejidad computacional: Aunque afirma reducir complejidad, carece de análisis cuantitativos
Análisis de errores ausente: No analiza profundamente casos de fallo del modelo

Impacto

Contribución académica: Proporciona nuevas perspectivas de solución para Few-shot NER
Valor práctico: El método es simple, efectivo, fácil de implementar y desplegar
Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros

Escenarios de Aplicación

Entornos con recursos limitados: Más adecuado que modelos de lenguaje grandes para escenarios con recursos computacionales limitados
Necesidades de despliegue rápido: Puede adaptarse rápidamente a nuevos tipos de entidades
Aplicaciones de dominio específico: Tiene buenas perspectivas de aplicación en dominios verticales como ciberseguridad

Referencias

El artículo cita trabajos importantes en campos relacionados, incluyendo:

Métodos fundamentales de aprendizaje Few-shot (Prototypical Networks, MAML)
Métodos clásicos de reconocimiento de entidades nombradas (enfoques basados en BERT)
Trabajos relacionados con aprendizaje contrastivo (Supervised Contrastive Learning)
Métodos especializados en Few-shot NER (ProtoBERT, ESD, MAML-ProtoNet, etc.)

Evaluación General: Este es un artículo excelente con técnicas sólidas y experimentos exhaustivos. La estrategia de descomposición en dos etapas propuesta por los autores resuelve efectivamente los problemas clave de los métodos existentes, logrando mejoras significativas de rendimiento en múltiples conjuntos de datos. El diseño del método es razonable, con alto valor práctico, proporcionando contribuciones valiosas al campo del Few-shot NER.