FrameEOL: Semantic Frame Induction using Causal Language Models
Yano, Yamada, Tsukagoshi et al.
Semantic frame induction is the task of clustering frame-evoking words according to the semantic frames they evoke. In recent years, leveraging embeddings of frame-evoking words that are obtained using masked language models (MLMs) such as BERT has led to high-performance semantic frame induction. Although causal language models (CLMs) such as the GPT and Llama series succeed in a wide range of language comprehension tasks and can engage in dialogue as if they understood frames, they have not yet been applied to semantic frame induction. We propose a new method for semantic frame induction based on CLMs. Specifically, we introduce FrameEOL, a prompt-based method for obtaining Frame Embeddings that outputs One frame-name as a Label representing the given situation. To obtain embeddings more suitable for frame induction, we leverage in-context learning (ICL) and deep metric learning (DML). Frame induction is then performed by clustering the resulting embeddings. Experimental results on the English and Japanese FrameNet datasets demonstrate that the proposed methods outperform existing frame induction methods. In particular, for Japanese, which lacks extensive frame resources, the CLM-based method using only 5 ICL examples achieved comparable performance to the MLM-based method fine-tuned with DML.
academic
FrameEOL: Inducción de Marcos Semánticos Utilizando Modelos de Lenguaje Causal
La inducción de marcos semánticos es la tarea de agrupar palabras que evocan marcos semánticos según los marcos que despiertan. Recientemente, los incrustamientos de palabras que evocan marcos obtenidos mediante modelos de lenguaje enmascarados (MLMs) como BERT han logrado un alto rendimiento en la inducción de marcos semánticos. Aunque los modelos de lenguaje causal (CLMs) como las series GPT y Llama han tenido éxito en una amplia gama de tareas de comprensión del lenguaje y pueden comprender marcos en conversaciones, aún no se han aplicado a la inducción de marcos semánticos. Este artículo propone FrameEOL, un nuevo método de inducción de marcos semánticos basado en CLMs, que es un método basado en indicaciones para obtener incrustamientos de marcos que generan un nombre de marco como etiqueta. Para obtener incrustamientos más adecuados para la inducción de marcos, utilizamos aprendizaje en contexto (ICL) y aprendizaje de métricas profundas (DML). Los resultados experimentales demuestran que el método supera los métodos existentes en los conjuntos de datos de FrameNet en inglés y japonés. Particularmente para el japonés, que carece de recursos de marcos extensos, el método CLM utilizando solo 5 ejemplos de ICL logra un rendimiento comparable al del método MLM ajustado con DML.
La inducción de marcos semánticos tiene como objetivo resolver cómo identificar y agrupar automáticamente instancias de verbos que comparten el mismo marco semántico. Por ejemplo, el verbo "lost" en diferentes contextos puede evocar diferentes marcos semánticos:
"He lost the gold medal by just .02 points" → marco FINISH_COMPETITION
"He lost his gold medal at the restaurant" → marco LOSING
Escasez de Recursos: La construcción manual de recursos de marcos semánticos es enormemente costosa, lo que hace que la construcción automática sea una necesidad urgente
Necesidades Multilingües: Fuera del inglés, los recursos de marcos en otros idiomas son extremadamente limitados
Adaptación de Dominio: Dominios específicos pueden requerir representaciones de marcos con diferentes granularidades
Aunque los CLMs modernos como GPT-4o demuestran la capacidad de comprender marcos semánticos (como se muestra en el ejemplo de ChatGPT en la Figura 1), aún no se han aplicado sistemáticamente a la tarea de inducción de marcos semánticos. Este artículo tiene como objetivo llenar este vacío.
Primera Aplicación de CLMs a la Inducción de Marcos Semánticos: Propone el método FrameEOL, extendiendo PromptEOL para la obtención de incrustamientos de marcos
Optimización Multiestratégica: Combina aprendizaje en contexto (ICL) y aprendizaje de métricas profundas (DML) para mejorar la calidad de los incrustamientos
Superación de Métodos Existentes: Logra el mejor rendimiento en FrameNet en inglés, con una puntuación BcF de 71.9
Avance en Idiomas de Bajos Recursos: En FrameNet en japonés, con solo 5 ejemplos de ICL se logra un rendimiento comparable al del MLM ajustado con DML
Validación Bilingüe: Verifica la efectividad del método en conjuntos de datos en inglés y japonés
Entrada: Conjunto de oraciones que contienen verbos que evocan marcos
Salida: Agrupación de instancias de verbos según los marcos semánticos que despiertan
Restricción: No requiere un conjunto predefinido de etiquetas de marcos
Para abordar los desafíos de idiomas de bajos recursos, se introduce el método ICL:
Construcción de Ejemplos:
The FrameNet frame evoked by "wear" in "On his head he wore a white nightcap..." is Wearing.
The FrameNet frame evoked by "type" in "I typed it out for Diana Morrison." is Text_creation.
The FrameNet frame evoked by "kneel" in "He knelt up and leaned towards Lucien." is Change_posture.
The FrameNet frame evoked by "lost" in "He lost his gold medal at the restaurant." is
Ventajas: Mediante una pequeña cantidad de ejemplos (5-20) se puede mejorar significativamente el rendimiento, siendo particularmente adecuado para escenarios con datos de entrenamiento escasos.
Innovación en Diseño de Indicaciones: Especializa el método de incrustamiento de oraciones genérico de PromptEOL para la tarea de incrustamiento de marcos
Estrategia de Optimización Dual: ICL es adecuado para escenarios de bajos recursos, DML para escenarios supervisados
Entrenamiento Eficiente en Parámetros: Utiliza LoRA para reducir los requisitos de recursos computacionales
Adaptación Multilingüe: Logra soporte multilingüe mediante traducción simple de indicaciones
Se utilizan precisión B-cubed (BCP), recuperación (BCR) y valor F (BCF) como métricas de evaluación principales, siendo BCF el estándar de evaluación principal.
Ventajas de CLM: Con datos de entrenamiento suficientes, CLM+DML supera significativamente a los métodos MLM
Potencial de ICL: Una pequeña cantidad de ejemplos puede lograr un rendimiento competitivo, siendo particularmente adecuado para escenarios de bajos recursos
Estrategia de Agrupación: Después de la optimización con DML/ICL, la agrupación de un paso es suficientemente efectiva
Capacidad Multilingüe: CLM demuestra una buena capacidad de comprensión de marcos multilingües
Primera Aplicación Exitosa: Los CLMs pueden aplicarse efectivamente a la inducción de marcos semánticos, con rendimiento superior a los métodos MLM tradicionales
Ventajas en Bajos Recursos: El método ICL demuestra un enorme potencial en escenarios de escasez de datos
Efectividad Multilingüe: El método logra un rendimiento excelente tanto en inglés como en japonés
Este artículo cita trabajos importantes de múltiples campos incluyendo marcos semánticos, aprendizaje de métricas profundas y aprendizaje basado en indicaciones, proporcionando una base teórica sólida para el diseño del método. Particularmente dignos de atención son los trabajos fundamentales de Yamada et al. (2021, 2023) en inducción de marcos basada en MLM, así como el método PromptEOL propuesto por Jiang et al. (2024).
Evaluación General: Este es un artículo de investigación de alta calidad que introduce exitosamente modelos de lenguaje causal a la tarea de inducción de marcos semánticos, con contribuciones significativas en innovación de métodos, verificación experimental y valor práctico. Particularmente, el rendimiento innovador en escenarios de idiomas de bajos recursos proporciona una referencia importante para el desarrollo del campo relacionado.