FrameEOL: Semantic Frame Induction using Causal Language Models
Yano, Yamada, Tsukagoshi et al.
Semantic frame induction is the task of clustering frame-evoking words according to the semantic frames they evoke. In recent years, leveraging embeddings of frame-evoking words that are obtained using masked language models (MLMs) such as BERT has led to high-performance semantic frame induction. Although causal language models (CLMs) such as the GPT and Llama series succeed in a wide range of language comprehension tasks and can engage in dialogue as if they understood frames, they have not yet been applied to semantic frame induction. We propose a new method for semantic frame induction based on CLMs. Specifically, we introduce FrameEOL, a prompt-based method for obtaining Frame Embeddings that outputs One frame-name as a Label representing the given situation. To obtain embeddings more suitable for frame induction, we leverage in-context learning (ICL) and deep metric learning (DML). Frame induction is then performed by clustering the resulting embeddings. Experimental results on the English and Japanese FrameNet datasets demonstrate that the proposed methods outperform existing frame induction methods. In particular, for Japanese, which lacks extensive frame resources, the CLM-based method using only 5 ICL examples achieved comparable performance to the MLM-based method fine-tuned with DML.
academic
FrameEOL: Индукция семантических фреймов с использованием каузальных языковых моделей
Индукция семантических фреймов — это задача кластеризации слов-активаторов фреймов в соответствии с семантическими фреймами, которые они вызывают. В последние годы встраивания слов-активаторов фреймов, полученные с использованием маскированных языковых моделей (MLM), таких как BERT, достигли высокой производительности при индукции семантических фреймов. Несмотря на то, что каузальные языковые модели (CLM), такие как серии GPT и Llama, добились успеха в широком спектре задач понимания языка и могут вести диалоги, понимая фреймы, они еще не применялись к индукции семантических фреймов. В данной работе предлагается новый метод индукции семантических фреймов на основе CLM — FrameEOL, представляющий собой метод на основе подсказок для получения встраиваний фреймов, выводящих название фрейма в качестве метки. Для получения встраиваний, более подходящих для индукции фреймов, мы используем контекстное обучение (ICL) и глубокое метрическое обучение (DML). Экспериментальные результаты показывают, что метод превосходит существующие подходы на наборах данных FrameNet на английском и японском языках. В частности, для японского языка, в котором отсутствуют обширные ресурсы фреймов, метод CLM с использованием всего 5 примеров ICL достигает производительности, сравнимой с методом MLM с микронастройкой DML.
Индукция семантических фреймов направлена на решение проблемы автоматического выявления и кластеризации экземпляров глаголов с одинаковыми семантическими фреймами. Например, глагол "lost" в разных контекстах может вызывать разные семантические фреймы:
"He lost the gold medal by just .02 points" → фрейм FINISH_COMPETITION
"He lost his gold medal at the restaurant" → фрейм LOSING
Дефицит ресурсов: Ручное построение ресурсов семантических фреймов требует огромных затрат, автоматическое построение становится неотложной необходимостью
Многоязычные требования: За пределами английского языка ресурсы фреймов крайне ограничены
Адаптация к предметной области: Конкретные области могут требовать представления фреймов различной степени детализации
Несмотря на то, что современные CLM, такие как GPT-4o, демонстрируют способность понимать семантические фреймы (как показано в примере ChatGPT на рисунке 1), они еще не были систематически применены к задаче индукции семантических фреймов. Данная работа направлена на заполнение этого пробела.
Первое применение CLM к индукции семантических фреймов: Предложен метод FrameEOL, расширяющий PromptEOL для получения встраиваний фреймов
Многостратегическая оптимизация: Объединение контекстного обучения (ICL) и глубокого метрического обучения (DML) для повышения качества встраиваний
Превосходство над существующими методами: Достижение лучшей производительности на английском FrameNet с показателем BcF 71,9
Прорыв в языках с ограниченными ресурсами: На японском FrameNet с использованием всего 5 примеров ICL достигнута производительность, сравнимая с микронастроенным MLM с DML
Двуязычная верификация: Подтверждение эффективности метода на наборах данных на английском и японском языках
Входные данные: Набор предложений, содержащих глаголы-активаторы фреймов
Выходные данные: Кластеризация экземпляров глаголов в соответствии с вызываемыми ими семантическими фреймами
Ограничения: Не требуется предопределенный набор меток фреймов
Для решения проблемы языков с ограниченными ресурсами вводится метод ICL:
Построение примеров:
The FrameNet frame evoked by "wear" in "On his head he wore a white nightcap..." is Wearing.
The FrameNet frame evoked by "type" in "I typed it out for Diana Morrison." is Text_creation.
The FrameNet frame evoked by "kneel" in "He knelt up and leaned towards Lucien." is Change_posture.
The FrameNet frame evoked by "lost" in "He lost his gold medal at the restaurant." is
Преимущества: Значительное повышение производительности с использованием небольшого количества примеров (5–20), особенно подходит для сценариев с дефицитом обучающих данных.
Преимущества CLM: При наличии достаточных обучающих данных CLM+DML значительно превосходит методы MLM
Потенциал ICL: Небольшое количество примеров обеспечивает конкурентоспособную производительность, особенно подходит для сценариев с ограниченными ресурсами
Стратегия кластеризации: После оптимизации DML/ICL одношаговая кластеризация уже достаточно эффективна
Кроссязычные возможности: CLM демонстрирует хорошие многоязычные способности понимания фреймов
Данная работа цитирует важные работы из нескольких областей, включая семантические фреймы, глубокое метрическое обучение и обучение на основе подсказок, обеспечивая прочную теоретическую основу для проектирования методов. Особого внимания заслуживают основополагающие работы Yamada et al. (2021, 2023) в области индукции фреймов на основе MLM, а также метод PromptEOL, предложенный Jiang et al. (2024).
Общая оценка: Это высококачественная исследовательская работа, которая успешно внедрила каузальные языковые модели в задачу индукции семантических фреймов, внеся значительный вклад в методологические инновации, экспериментальную верификацию и практическую ценность. В частности, прорывные результаты в сценариях с ограниченными ресурсами предоставляют важные ориентиры для развития смежных областей.