Benchmarks are crucial for evaluating machine learning algorithm performance, facilitating comparison and identifying superior solutions. However, biases within datasets can lead models to learn shortcut patterns, resulting in inaccurate assessments and hindering real-world applicability. This paper addresses the issue of entity bias in relation extraction tasks, where models tend to rely on entity mentions rather than context. We propose a debiased relation extraction benchmark DREB that breaks the pseudo-correlation between entity mentions and relation types through entity replacement. DREB utilizes Bias Evaluator and PPL Evaluator to ensure low bias and high naturalness, providing a reliable and accurate assessment of model generalization in entity bias scenarios. To establish a new baseline on DREB, we introduce MixDebias, a debiasing method combining data-level and model training-level techniques. MixDebias effectively improves model performance on DREB while maintaining performance on the original dataset. Extensive experiments demonstrate the effectiveness and robustness of MixDebias compared to existing methods, highlighting its potential for improving the generalization ability of relation extraction models. We will release DREB and MixDebias publicly.
- ID del Artículo: 2501.01349
- Título: Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark
- Autores: Liang He, Yougang Chu, Zhen Wu, Jianbing Zhang, Xinyu Dai, Jiajun Chen (Universidad de Nanjing)
- Clasificación: cs.AI
- Fecha de Publicación: 2 de enero de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2501.01349
Los conjuntos de datos de referencia son cruciales para evaluar el rendimiento de los algoritmos de aprendizaje automático, pero los sesgos en los conjuntos de datos hacen que los modelos aprendan patrones de atajo, lo que resulta en evaluaciones inexactas e impide aplicaciones prácticas. Este artículo aborda el problema del sesgo de entidades en la tarea de extracción de relaciones, es decir, la tendencia de los modelos a depender de menciones de entidades en lugar de contexto. Los autores proponen DREB, un benchmark de extracción de relaciones desesgado, que rompe las pseudocorrelaciones entre menciones de entidades y tipos de relaciones mediante reemplazo de entidades. DREB utiliza un evaluador de sesgo y un evaluador de perplejidad para garantizar bajo sesgo y alta naturalidad. Para establecer nuevas líneas base en DREB, los autores introducen el método MixDebias, que combina técnicas de desesgado a nivel de datos y a nivel de entrenamiento del modelo.
Existe un grave problema de sesgo de entidades en la tarea de extracción de relaciones:
- Pseudocorrelaciones: Existen correlaciones estadísticas falsas entre menciones de entidades y tipos de relaciones
- Aprendizaje de Atajos: Los modelos dependen excesivamente de nombres de entidades en lugar de información contextual para hacer predicciones
- Pobre Capacidad de Generalización: El rendimiento del modelo disminuye significativamente cuando las entidades se reemplazan o se eliminan
- En el conjunto de datos TACRED, más de la mitad de las instancias se pueden predecir correctamente solo mediante menciones de entidades
- Los modelos SOTA como LUKE e IRE experimentan una disminución en la puntuación F1 del 30%-50% después del reemplazo de entidades
- Los modelos de lenguaje grandes ignoran información contextual contradictoria o insuficientemente representada, dependiendo excesivamente del conocimiento parametrizado sesgado
A Nivel de Datos:
- Los métodos de desesgado existentes pueden introducir nuevos sesgos
- El método de Wang et al. causa sesgo de distribución
- El reemplazo de entidades de ENTRED carece de restricciones semánticas
A Nivel de Modelo:
- DFL puede dañar el rendimiento dentro del dominio
- R-Drop carece de control granular sobre el sesgo de entidades
- La naturaleza post-procesamiento de CoRE no puede eliminar completamente el sesgo aprendido durante el entrenamiento
- Propuesta del Benchmark DREB: Primer benchmark de extracción de relaciones desesgado específicamente dirigido al sesgo de entidades, asegurando que los modelos no puedan hacer predicciones basándose únicamente en menciones de entidades
- Diseño de Mecanismo de Evaluación Dual: Evaluador de sesgo y evaluador de perplejidad garantizan bajo sesgo y alta naturalidad
- Desarrollo del Método MixDebias: Nuevo método de línea base que combina desesgado a nivel de datos y a nivel de modelo
- Evaluación Experimental Integral: Validación de la efectividad y robustez del método en múltiples conjuntos de datos
DREB rompe las pseudocorrelaciones entre menciones de entidades y tipos de relaciones mediante una estrategia de reemplazo de entidades:
- Reemplazo de Entidades: Consulta entidades del mismo tipo en Wikidata para realizar el reemplazo
- Evaluación de Sesgo: Utiliza una red neuronal para evaluar el grado de sesgo de muestras reemplazadas
- Garantía de Naturalidad: Asegura la naturalidad de las muestras generadas mediante un evaluador de perplejidad
El evaluador de sesgo modela la pseudocorrelación del sesgo de entidades:
- Función de extracción de características φ(x) extrae características de sesgo de entidades
- Red neuronal F: φ(x) → y modela directamente la correlación
- La salida F(φ(x)) refleja el sesgo inherente de la muestra x
Utiliza GPT-2 para calcular la perplejidad de la muestra, asegurando la naturalidad de las muestras generadas:
logPPL(W)=−n1∑i=1nlogP(wi∣w1,...,wi−1)
Se seleccionan las muestras con la perplejidad más baja como muestras generadas finales.
Genera muestras aumentadas mediante reemplazo de entidades, utilizando restricción de divergencia KL:
LRDA=21(DKL(P∣∣Paug)+DKL(Paug∣∣P))
Donde P y P_aug son las distribuciones de probabilidad de las muestras originales y aumentadas, respectivamente.
Utiliza estimación de efectos causales para identificar y cuantificar el sesgo de entidades:
- Estimación de Probabilidad de Sesgo: Pbias=P−λPcontext
- Pérdida Focal de Desesgado: LCDA=−(1−Pbiasj)logPj
LMixDebias=LCDA+βLRDA
=−(1−(Pj−λPcontextj))logPj+2β(DKL(P∣∣Paug)+DKL(Paug∣∣P))
- Control de Calidad Dual: Considera simultáneamente el grado de sesgo y la naturalidad
- Preservación de Distribución: DREB mantiene la misma distribución de relaciones que el conjunto de datos original
- Desesgado Multinivel: Combinación orgánica de métodos a nivel de datos y a nivel de modelo
- Aumento Dinámico: Generación dinámica de muestras aumentadas durante el entrenamiento
- TACRED: Conjunto de datos ampliamente utilizado para extracción de relaciones
- TACREV: Versión revisada de TACRED que aborda problemas de anotación y ruido
- Re-TACRED: Conjunto de datos con tipos de relaciones rediseñados
- Puntuación F1: Media armónica de precisión y recuperación
- Eficiencia de Mitigación de Sesgo (BME):
BME=α⋅F1~originF1origin+(1−α)⋅F1~DREBF1DREB
Donde α=0.5
Modelos Base:
- LUKE: Modelo consciente de entidades basado en Transformer
- IRE: Línea base mejorada que introduce etiquetas de entidades tipificadas
Métodos de Desesgado:
- Focal Loss: Reduce el impacto de muestras simples
- R-Drop: Mejora la generalización mediante consistencia de dropout
- DFL: Ajusta la función de pérdida basada en modelo de sesgo
- PoE: Modelo de producto de expertos
- CoRE: Método de desesgado de grafo causal
- Hiperparámetros β∈0.0,1.0, λ∈-0.6,0.6
- Configuración óptima: β=0.8, λ=0.2
- Utiliza el flujo de entrenamiento estándar de extracción de relaciones
| Modelo | TACRED | | TACREV | | Re-TACRED | |
|---|
| F1_origin | F1_DREB | F1_origin | F1_DREB | F1_origin | F1_DREB |
| LUKE | 70.82 | 44.40 | 80.16 | 50.60 | 88.92 | 39.40 |
| +MixDebias | 69.93 | 62.44 | 80.91 | 72.93 | 87.95 | 77.71 |
| IRE | 71.27 | 50.94 | 79.36 | 57.20 | 87.43 | 46.25 |
| +MixDebias | 71.99 | 70.02 | 80.97 | 79.15 | 87.27 | 82.17 |
- Mejora Significativa de Rendimiento: MixDebias muestra la mejora de rendimiento más significativa en DREB, con aumentos en la puntuación F1 de 15-40 puntos porcentuales
- Mantenimiento del Rendimiento Original: Mantiene o mejora ligeramente el rendimiento en el conjunto de datos original
- Liderazgo en Métrica BME: Supera significativamente otros métodos en la métrica de evaluación integral BME
- Rendimiento Consistente: Demuestra excelente desempeño en los tres conjuntos de datos
| Componente | TACRED | | TACREV | | Re-TACRED | |
|---|
| F1_origin | F1_DREB | F1_origin | F1_DREB | F1_origin | F1_DREB |
| MixDebias Completo | 69.93 | 62.44 | 80.91 | 72.93 | 87.95 | 77.71 |
| -CDA | 69.66 | 62.06 | 80.63 | 71.99 | 88.45 | 78.26 |
| -RDA | 69.68 | 45.77 | 79.32 | 51.91 | 88.69 | 39.72 |
Perspectivas Clave:
- RDA es el componente más crítico; su eliminación resulta en una disminución significativa del rendimiento
- CDA proporciona un efecto complementario, optimizando aún más el efecto de desesgado
- Los dos componentes se complementan mutuamente, logrando conjuntamente el mejor rendimiento
- Parámetro β: Controla el peso de la divergencia KL; el efecto es óptimo cuando β=0.8
- Parámetro λ: Controla la estimación del efecto causal; se logra lo óptimo cuando λ=0.2
- En conjuntos de datos ruidosos (TACRED, TACREV), valores apropiados de β también pueden mejorar el rendimiento en el conjunto de datos original
La visualización de la distribución de probabilidad de etiquetas mediante la configuración de entrada solo de entidades muestra:
- La distribución de probabilidad del modelo de línea base se concentra cerca de valores cercanos a 1
- Después de MixDebias, la distribución de probabilidad es más uniforme
- La pseudocorrelación entre menciones de entidades y tipos de relaciones se reduce significativamente
- Configuración de evaluación de filtrado de Wang et al.
- Reemplazo de entidades aleatorias y restricciones de tipo de ENTRED
- Problemas de sesgo de distribución y restricciones semánticas insuficientes
- Ajuste de función de pérdida de DFL
- Consistencia de distribución de salida de R-Drop
- Método de grafo causal de CoRE
- Compensación de cada método entre mantener rendimiento original y efecto de desesgado
- Primer benchmark específicamente dedicado al desesgado
- Método integral a nivel de datos y modelo
- Mecanismo riguroso de control de calidad
- Efectividad del Benchmark DREB: Rompe exitosamente las pseudocorrelaciones entre menciones de entidades y tipos de relaciones
- Superioridad del Método MixDebias: Logra el mejor equilibrio entre efecto de desesgado y mantenimiento del rendimiento original
- Universalidad del Sesgo de Entidades: Los modelos SOTA existentes comúnmente presentan problemas graves de sesgo de entidades
- Costo Computacional: La generación dinámica de muestras aumentadas aumenta el tiempo de entrenamiento
- Dependencia de Recursos de Entidades: Requiere soporte de bases de conocimiento externas (Wikidata)
- Limitaciones de Idioma: Validación principalmente en conjuntos de datos en inglés
- Cobertura de Tipos de Relaciones: Pruebas solo en extracción de relaciones a nivel de oración
- Extensión Multilingüe: Extender el método a otros idiomas
- Extracción de Relaciones a Nivel de Documento: Adaptarse a escenarios de extracción de relaciones más complejos
- Optimización de Eficiencia Computacional: Reducir el costo computacional durante el entrenamiento
- Análisis Teórico: Proporcionar garantías teóricas más profundas
- Identificación Precisa del Problema: Identifica y cuantifica con precisión el problema del sesgo de entidades en la extracción de relaciones
- Diseño de Método Razonable: El mecanismo de evaluación dual asegura la calidad del benchmark; la estrategia de desesgado multinivel es científica y efectiva
- Diseño Experimental Riguroso: Experimentos de comparación integral, estudios de ablación y análisis de visualización
- Contribución del Benchmark: DREB llena el vacío en la evaluación de desesgado para extracción de relaciones
- Innovación del Método: MixDebias proporciona un nuevo paradigma de desesgado
- Valor Empírico: Revela las limitaciones de los métodos existentes y proporciona dirección para investigación posterior
- Validación en Múltiples Conjuntos de Datos: Validación en tres conjuntos de datos principales
- Análisis Multidimensional: Comparación de rendimiento, estudios de ablación, análisis de hiperparámetros, visualización, etc.
- Significancia Estadística: Los resultados tienen significancia estadística
- Complejidad Computacional: Requiere generar dinámicamente muestras aumentadas durante el entrenamiento, aumentando el costo computacional
- Dependencia Externa: Depende de recursos externos como Wikidata, lo que puede afectar la generalidad del método
- Sensibilidad de Hiperparámetros: Los parámetros β y λ requieren ajuste cuidadoso
- Singularidad de Idioma: Validación solo en conjuntos de datos en inglés, falta validación multilingüe
- Limitación del Alcance de Tareas: Solo considera extracción de relaciones a nivel de oración
- Selección de Líneas Base: Podría incluir más métodos de desesgado recientes para comparación
- Falta de Garantías Teóricas: Carece de análisis teórico de la efectividad del método
- Análisis de Convergencia: No proporciona garantías de convergencia de la función de pérdida
- Límites de Generalización: Carece de análisis de límites teóricos de capacidad de generalización
- Trabajo Pionero: Tiene significado pionero en el campo del desesgado para extracción de relaciones
- Valor del Benchmark: DREB es probable que se convierta en un benchmark de evaluación estándar en el campo
- Inspiración del Método: Proporciona nuevas perspectivas para investigación posterior de desesgado
- Aplicación Industrial: Tiene importancia significativa para mejorar el efecto de despliegue práctico de sistemas de extracción de relaciones
- Mejora de Equidad: Ayuda a reducir problemas de sesgo en sistemas NLP
- Reproducibilidad: Los autores se comprometen a publicar código y datos
- Evaluación de Sistemas de Extracción de Relaciones: Proporciona evaluación más confiable para modelos de extracción de relaciones
- Desarrollo de Métodos de Desesgado: Proporciona plataforma de prueba para desarrollar nuevos métodos de desesgado
- Investigación de IA Justa: Proporciona casos concretos y herramientas para investigación de IA justa
El artículo cita trabajos importantes en los campos de extracción de relaciones y desesgado, incluyendo:
- Conjuntos de datos de la serie TACRED (Zhang et al., 2017; Alt et al., 2020; Stoica et al., 2021)
- Investigación relacionada con sesgo de entidades (Wang et al., 2022, 2023; Peng et al., 2020)
- Métodos de desesgado (Mahabadi et al., 2020; Liang et al., 2021)
- Modelos fundamentales (Yamada et al., 2020; Zhou & Chen, 2022)
Evaluación General: Este es un artículo de investigación de alta calidad que identifica y resuelve efectivamente un problema importante en la extracción de relaciones. Tanto el benchmark DREB como el método MixDebias poseen una fuerte innovación y valor práctico. Aunque existen algunas limitaciones, sus contribuciones son significativas y es probable que impulsen el desarrollo de la investigación de desesgado en extracción de relaciones.