2025-11-19T19:10:14.291595

FrameEOL: Semantic Frame Induction using Causal Language Models

Yano, Yamada, Tsukagoshi et al.
Semantic frame induction is the task of clustering frame-evoking words according to the semantic frames they evoke. In recent years, leveraging embeddings of frame-evoking words that are obtained using masked language models (MLMs) such as BERT has led to high-performance semantic frame induction. Although causal language models (CLMs) such as the GPT and Llama series succeed in a wide range of language comprehension tasks and can engage in dialogue as if they understood frames, they have not yet been applied to semantic frame induction. We propose a new method for semantic frame induction based on CLMs. Specifically, we introduce FrameEOL, a prompt-based method for obtaining Frame Embeddings that outputs One frame-name as a Label representing the given situation. To obtain embeddings more suitable for frame induction, we leverage in-context learning (ICL) and deep metric learning (DML). Frame induction is then performed by clustering the resulting embeddings. Experimental results on the English and Japanese FrameNet datasets demonstrate that the proposed methods outperform existing frame induction methods. In particular, for Japanese, which lacks extensive frame resources, the CLM-based method using only 5 ICL examples achieved comparable performance to the MLM-based method fine-tuned with DML.
academic

FrameEOL: Semantic Frame Induction using Causal Language Models

基本信息

  • 论文ID: 2510.09097
  • 标题: FrameEOL: Semantic Frame Induction using Causal Language Models
  • 作者: Chihiro Yano¹, Kosuke Yamada¹'², Hayato Tsukagoshi¹, Ryohei Sasano¹, Koichi Takeda³
  • 机构: ¹名古屋大学, ²CyberAgent, ³国立情报学研究所
  • 分类: cs.CL (计算语言学)
  • 发表时间: 2025年10月10日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.09097

摘要

语义框架归纳是根据框架激发词所唤起的语义框架对其进行聚类的任务。近年来,利用BERT等掩码语言模型(MLMs)获得的框架激发词嵌入在语义框架归纳中取得了高性能。尽管GPT和Llama系列等因果语言模型(CLMs)在广泛的语言理解任务中取得成功,并能像理解框架一样进行对话,但尚未应用于语义框架归纳。本文提出了一种基于CLMs的语义框架归纳新方法FrameEOL,这是一种基于提示的方法,用于获取输出一个框架名称作为标签的框架嵌入。为了获得更适合框架归纳的嵌入,我们利用了上下文学习(ICL)和深度度量学习(DML)。实验结果表明,该方法在英语和日语FrameNet数据集上优于现有方法。特别是对于缺乏广泛框架资源的日语,仅使用5个ICL示例的CLM方法就达到了与使用DML微调的MLM方法相当的性能。

研究背景与动机

问题定义

语义框架归纳旨在解决如何自动识别和聚类具有相同语义框架的动词实例。例如,动词"lost"在不同上下文中可能唤起不同的语义框架:

  • "He lost the gold medal by just .02 points" → FINISH_COMPETITION框架
  • "He lost his gold medal at the restaurant" → LOSING框架

研究重要性

  1. 资源稀缺性: 手工构建语义框架资源成本巨大,自动构建成为迫切需求
  2. 多语言需求: 除英语外,其他语言的框架资源极其有限
  3. 领域适应性: 特定领域可能需要不同粒度的框架表示

现有方法局限性

  1. 依赖MLMs: 现有方法主要基于BERT等掩码语言模型
  2. 资源依赖: 需要大量标注数据进行有效训练
  3. 语言局限: 在低资源语言上表现不佳

研究动机

尽管GPT-4o等现代CLMs展现出理解语义框架的能力(如图1所示的ChatGPT示例),但尚未被系统性地应用于语义框架归纳任务。本文旨在填补这一空白。

核心贡献

  1. 首次将CLMs应用于语义框架归纳: 提出FrameEOL方法,扩展PromptEOL用于框架嵌入获取
  2. 多策略优化: 结合上下文学习(ICL)和深度度量学习(DML)提升嵌入质量
  3. 超越现有方法: 在英语FrameNet上取得最佳性能,BcF分数达到71.9
  4. 低资源语言突破: 在日语FrameNet上,仅用5个ICL示例就达到与DML微调MLM相当的性能
  5. 双语言验证: 在英语和日语数据集上均验证了方法的有效性

方法详解

任务定义

输入: 包含框架激发动词的句子集合 输出: 根据所唤起的语义框架对动词实例进行聚类 约束: 无需预定义的框架标签集合

模型架构

3.1 FrameEOL核心方法

FrameEOL受PromptEOL启发,通过专门设计的提示模板获取框架嵌入:

提示模板:

The FrameNet frame evoked by "[verb]" in "[sentence]" is

关键设计:

  • [verb]: 框架激发动词占位符
  • [sentence]: 包含该动词的句子占位符
  • 使用最后一个token "is"的最终层嵌入作为框架嵌入

3.2 上下文学习优化(ICL)

为应对低资源语言挑战,引入ICL方法:

示例构建:

The FrameNet frame evoked by "wear" in "On his head he wore a white nightcap..." is Wearing.
The FrameNet frame evoked by "type" in "I typed it out for Diana Morrison." is Text_creation.
The FrameNet frame evoked by "kneel" in "He knelt up and leaned towards Lucien." is Change_posture.

The FrameNet frame evoked by "lost" in "He lost his gold medal at the restaurant." is

优势: 通过少量示例(5-20个)即可显著提升性能,特别适用于训练数据稀缺的场景。

3.3 深度度量学习优化(DML)

采用三元组损失函数优化嵌入空间:

Ltri=max(D(xa,xp)D(xa,xn)+m,0)L_{tri} = \max(D(x_a, x_p) - D(x_a, x_n) + m, 0)

其中:

  • xa,xp,xnx_a, x_p, x_n: 锚点、正样本、负样本的框架嵌入
  • D(,)D(\cdot, \cdot): 归一化嵌入的欧几里得距离
  • mm: 边际参数

实现细节:

  • 使用LoRA进行参数高效微调
  • LoRA rank r=8, α=32
  • 训练20个epoch,批大小32

技术创新点

  1. 提示设计创新: 将PromptEOL的通用句子嵌入方法专门化为框架嵌入任务
  2. 双重优化策略: ICL适用于低资源场景,DML适用于有监督场景
  3. 参数高效训练: 使用LoRA减少计算资源需求
  4. 跨语言适应: 通过简单的提示翻译实现多语言支持

实验设置

数据集

英语FrameNet 1.7

  • 规模: 82,610个实例,642个框架,2,492个动词
  • 划分: 三折交叉验证,平均27,537个训练实例
  • 特点: 测试集包含训练时未见的框架(平均135.3/434.3)

日语FrameNet

  • 规模: 3,130个实例,344个框架,766个动词
  • 划分: 三折交叉验证,平均1,043个训练实例
  • 挑战: 仅为英语数据集的3.2%

评价指标

使用B-cubed精确率(BCP)、召回率(BCR)和F值(BCF)作为主要评价指标,BCF为主要评价标准。

对比方法

  • MLM基线: BERTbase/large, ModernBERTbase/large, RoBERTalarge
  • 聚类方法: 一步聚类(群平均)和两步聚类(X-means + 群平均)
  • 训练设置: 无微调和DML微调两种配置

实现细节

  • 模型: Gemma 3-12B, Llama 3.1-8B等
  • ICL设置: 5/10/20个示例,最大序列长度2048
  • 超参数: 学习率{3e-5, 5e-5, 1e-4}, 边际{0.1, 0.2, 0.5, 1.0}

实验结果

主要结果

英语FrameNet表现

模型训练方法一步聚类BCF两步聚类BCF
RoBERTalarge + DMLDML67.969.6
Gemma 3 + DMLDML71.970.6
Llama 3.1 + DMLDML70.870.9

关键发现:

  • CLM+DML方法显著超越最佳MLM方法
  • Gemma 3在一步聚类中达到最高71.9 BCF
  • ICL方法随示例数增加性能提升

日语FrameNet表现

模型训练方法一步聚类BCF两步聚类BCF
Japanese ModernBERTbase + DMLDML60.058.4
LLM-jp-3 + DMLDML61.359.2
Llama 3.1 + ICL(5-shot)ICL59.957.4

重要发现:

  • 仅5个ICL示例就达到与DML相当的性能
  • 证明了CLM在低资源语言上的优势

消融实验

"FrameNet"术语影响分析

移除提示中的"FrameNet"术语对性能影响有限:

  • ICL和DML设置下性能降幅小于1%
  • 证明模型不是简单依赖预训练中的FrameNet知识

实验发现

  1. CLM优势: 在有充分训练数据时,CLM+DML显著优于MLM方法
  2. ICL潜力: 少量示例即可获得竞争性性能,特别适合低资源场景
  3. 聚类策略: DML/ICL优化后,一步聚类已足够有效
  4. 跨语言能力: CLM展现出良好的多语言框架理解能力

相关工作

语义框架归纳研究

  • 无监督方法: 利用BERT等MLM的上下文化嵌入进行聚类
  • 有监督方法: 通过深度度量学习优化嵌入空间
  • 两步聚类: 解决传统方法过度分散的问题

提示式文本嵌入

  • PromptBERT: 利用掩码预测获取句子嵌入
  • PromptEOL: 使用CLM的下一词预测能力获取嵌入
  • 本文贡献: 将通用嵌入方法专门化为框架嵌入任务

结论与讨论

主要结论

  1. 首次成功应用: CLMs可以有效用于语义框架归纳,性能超越传统MLM方法
  2. 低资源优势: ICL方法在数据稀缺场景下展现出巨大潜力
  3. 跨语言有效性: 方法在英语和日语上均取得优异表现

局限性

  1. 计算资源: 大规模CLM需要显著的计算资源
  2. 语言覆盖: 仅在英语和日语上验证,其他语言泛化性未知
  3. 领域适应: 特定领域的适用性有待进一步验证

未来方向

  1. 多语言扩展: 在更多语言上验证方法有效性
  2. 领域适应: 探索在特定领域的应用效果
  3. 效率优化: 开发更高效的训练和推理方法

深度评价

优点

  1. 创新性强: 首次系统性地将CLM应用于语义框架归纳
  2. 方法完善: 提供ICL和DML两种优化策略,适应不同资源条件
  3. 实验充分: 在两种语言、多个模型上进行了全面评估
  4. 实用价值: 为低资源语言的框架构建提供了可行方案

不足

  1. 理论分析: 缺乏对CLM为何在此任务上表现更好的深入理论解释
  2. 计算成本: 未充分讨论与MLM方法的计算成本对比
  3. 错误分析: 缺乏对失败案例的详细分析
  4. 泛化性: 仅在FrameNet数据上验证,其他框架资源的适用性未知

影响力

  1. 学术贡献: 为语义框架研究开辟了新的技术路径
  2. 实用价值: 为多语言框架资源构建提供了实用工具
  3. 可复现性: 提供了详细的实验设置和超参数配置

适用场景

  1. 低资源语言: 框架资源稀缺的语言
  2. 领域适应: 需要构建特定领域框架的场景
  3. 快速原型: 需要快速构建框架系统的应用

参考文献

本文引用了语义框架、深度度量学习、提示式学习等多个领域的重要工作,为方法设计提供了坚实的理论基础。特别值得关注的是Yamada et al. (2021, 2023)在MLM-based框架归纳方面的奠基性工作,以及Jiang et al. (2024)提出的PromptEOL方法。


总体评价: 这是一篇高质量的研究论文,成功地将因果语言模型引入语义框架归纳任务,在方法创新、实验验证和实用价值方面都有显著贡献。特别是在低资源语言场景下的突破性表现,为相关领域的发展提供了重要参考。