2025-11-19T19:10:14.291595

FrameEOL: Semantic Frame Induction using Causal Language Models

Yano, Yamada, Tsukagoshi et al.

Semantic frame induction is the task of clustering frame-evoking words according to the semantic frames they evoke. In recent years, leveraging embeddings of frame-evoking words that are obtained using masked language models (MLMs) such as BERT has led to high-performance semantic frame induction. Although causal language models (CLMs) such as the GPT and Llama series succeed in a wide range of language comprehension tasks and can engage in dialogue as if they understood frames, they have not yet been applied to semantic frame induction. We propose a new method for semantic frame induction based on CLMs. Specifically, we introduce FrameEOL, a prompt-based method for obtaining Frame Embeddings that outputs One frame-name as a Label representing the given situation. To obtain embeddings more suitable for frame induction, we leverage in-context learning (ICL) and deep metric learning (DML). Frame induction is then performed by clustering the resulting embeddings. Experimental results on the English and Japanese FrameNet datasets demonstrate that the proposed methods outperform existing frame induction methods. In particular, for Japanese, which lacks extensive frame resources, the CLM-based method using only 5 ICL examples achieved comparable performance to the MLM-based method fine-tuned with DML.

academic

FrameEOL : Induction de cadres sémantiques utilisant des modèles de langage causaux

Informations de base

ID de l'article: 2510.09097
Titre: FrameEOL: Semantic Frame Induction using Causal Language Models
Auteurs: Chihiro Yano¹, Kosuke Yamada¹'², Hayato Tsukagoshi¹, Ryohei Sasano¹, Koichi Takeda³
Institutions: ¹Université de Nagoya, ²CyberAgent, ³Institut national d'informatique
Classification: cs.CL (Linguistique informatique)
Date de publication: 10 octobre 2025 (préimpression arXiv)
Lien de l'article: https://arxiv.org/abs/2510.09097

Résumé

L'induction de cadres sémantiques est la tâche de regrouper les cadres sémantiques évoqués par les mots déclencheurs de cadres. Récemment, les plongements de mots déclencheurs de cadres obtenus à partir de modèles de langage masqués (MLMs) tels que BERT ont atteint des performances élevées dans l'induction de cadres sémantiques. Bien que les modèles de langage causaux (CLMs) tels que les séries GPT et Llama aient connu du succès dans un large éventail de tâches de compréhension du langage et soient capables de discuter de la compréhension des cadres, ils n'ont pas encore été appliqués à l'induction de cadres sémantiques. Cet article propose FrameEOL, une nouvelle approche d'induction de cadres sémantiques basée sur les CLMs, qui est une méthode basée sur des invites pour obtenir des plongements de cadres qui produisent un nom de cadre comme étiquette. Pour obtenir des plongements mieux adaptés à l'induction de cadres, nous exploitons l'apprentissage en contexte (ICL) et l'apprentissage métrique profond (DML). Les résultats expérimentaux montrent que cette approche surpasse les méthodes existantes sur les ensembles de données FrameNet en anglais et en japonais. En particulier, pour le japonais, qui manque de ressources de cadres étendues, la méthode CLM utilisant seulement 5 exemples ICL atteint des performances comparables à la méthode MLM affinée avec DML.

Contexte et motivation de la recherche

Définition du problème

L'induction de cadres sémantiques vise à résoudre comment identifier et regrouper automatiquement les instances de verbes qui évoquent le même cadre sémantique. Par exemple, le verbe « lost » peut évoquer différents cadres sémantiques dans différents contextes :

« He lost the gold medal by just .02 points » → cadre FINISH_COMPETITION
« He lost his gold medal at the restaurant » → cadre LOSING

Importance de la recherche

Rareté des ressources: La construction manuelle de ressources de cadres sémantiques est extrêmement coûteuse, ce qui rend la construction automatique impérative
Besoins multilingues: Les ressources de cadres pour les langues autres que l'anglais sont extrêmement limitées
Adaptation au domaine: Les domaines spécifiques peuvent nécessiter différentes granularités de représentation des cadres

Limitations des approches existantes

Dépendance aux MLMs: Les méthodes existantes sont principalement basées sur des modèles de langage masqués tels que BERT
Dépendance aux ressources: Nécessite une grande quantité de données annotées pour un entraînement efficace
Limitations linguistiques: Performance insuffisante sur les langues à faibles ressources

Motivation de la recherche

Bien que les CLMs modernes tels que GPT-4o démontrent la capacité à comprendre les cadres sémantiques (comme le montre l'exemple ChatGPT à la figure 1), ils n'ont pas encore été appliqués systématiquement à la tâche d'induction de cadres sémantiques. Cet article vise à combler cette lacune.

Contributions principales

Première application des CLMs à l'induction de cadres sémantiques: Propose la méthode FrameEOL, extension de PromptEOL pour l'acquisition de plongements de cadres
Optimisation multi-stratégies: Combine l'apprentissage en contexte (ICL) et l'apprentissage métrique profond (DML) pour améliorer la qualité des plongements
Dépassement des méthodes existantes: Atteint les meilleures performances sur FrameNet en anglais, avec un score BcF de 71,9
Percée pour les langues à faibles ressources: Sur FrameNet en japonais, atteint des performances comparables à MLM affiné avec DML en utilisant seulement 5 exemples ICL
Validation bilingue: Valide l'efficacité de la méthode sur les ensembles de données en anglais et en japonais

Détails de la méthode

Définition de la tâche

Entrée: Ensemble de phrases contenant des verbes déclencheurs de cadres Sortie: Regroupement des instances de verbes selon les cadres sémantiques évoqués Contrainte: Aucun ensemble de labels de cadres prédéfini requis

Architecture du modèle

3.1 Méthode principale de FrameEOL

FrameEOL s'inspire de PromptEOL et acquiert les plongements de cadres via des modèles d'invites spécialement conçus :

Modèle d'invite:

The FrameNet frame evoked by "[verb]" in "[sentence]" is

Caractéristiques clés:

[verb]: Espace réservé pour le verbe déclencheur de cadre
[sentence]: Espace réservé pour la phrase contenant le verbe
Utilise le plongement de la dernière couche du dernier token « is » comme plongement de cadre

3.2 Optimisation par apprentissage en contexte (ICL)

Introduit la méthode ICL pour relever les défis des langues à faibles ressources :

Construction d'exemples:

The FrameNet frame evoked by "wear" in "On his head he wore a white nightcap..." is Wearing.
The FrameNet frame evoked by "type" in "I typed it out for Diana Morrison." is Text_creation.
The FrameNet frame evoked by "kneel" in "He knelt up and leaned towards Lucien." is Change_posture.

The FrameNet frame evoked by "lost" in "He lost his gold medal at the restaurant." is

Avantages: Améliore significativement les performances avec peu d'exemples (5-20), particulièrement adapté aux scénarios où les données d'entraînement sont rares.

3.3 Optimisation par apprentissage métrique profond (DML)

Utilise la fonction de perte triplet pour optimiser l'espace des plongements :

$L_{tri} = \max(D(x_a, x_p) - D(x_a, x_n) + m, 0)$

Où :

$x_a, x_p, x_n$ : Plongements de cadres pour l'ancre, l'exemple positif et l'exemple négatif
$D(\cdot, \cdot)$ : Distance euclidienne des plongements normalisés
$m$ : Paramètre de marge

Détails d'implémentation:

Utilise LoRA pour l'ajustement fin efficace en paramètres
Rang LoRA r=8, α=32
Entraînement sur 20 epochs, taille de lot 32

Points d'innovation technique

Innovation dans la conception d'invites: Spécialise la méthode générale de plongement de phrases de PromptEOL pour la tâche de plongement de cadres
Stratégie d'optimisation double: ICL pour les scénarios à faibles ressources, DML pour les scénarios supervisés
Entraînement efficace en paramètres: Utilise LoRA pour réduire les besoins en ressources informatiques
Adaptation multilingue: Réalise le support multilingue par simple traduction d'invites

Configuration expérimentale

Ensembles de données

FrameNet anglais 1.7

Échelle: 82 610 instances, 642 cadres, 2 492 verbes
Partition: Validation croisée triple, moyenne de 27 537 instances d'entraînement
Caractéristiques: L'ensemble de test contient des cadres non vus pendant l'entraînement (moyenne 135,3/434,3)

FrameNet japonais

Échelle: 3 130 instances, 344 cadres, 766 verbes
Partition: Validation croisée triple, moyenne de 1 043 instances d'entraînement
Défi: Seulement 3,2% de la taille de l'ensemble de données anglais

Métriques d'évaluation

Utilise la précision B-cubed (BCP), le rappel (BCR) et la mesure F (BCF) comme métriques d'évaluation principales, avec BCF comme critère d'évaluation principal.

Méthodes de comparaison

Lignes de base MLM: BERTbase/large, ModernBERTbase/large, RoBERTalarge
Méthodes de regroupement: Regroupement en une étape (moyenne de groupe) et regroupement en deux étapes (X-means + moyenne de groupe)
Configurations d'entraînement: Sans ajustement fin et avec ajustement fin DML

Détails d'implémentation

Modèles: Gemma 3-12B, Llama 3.1-8B, etc.
Configuration ICL: 5/10/20 exemples, longueur de séquence maximale 2048
Hyperparamètres: Taux d'apprentissage {3e-5, 5e-5, 1e-4}, marges {0,1, 0,2, 0,5, 1,0}

Résultats expérimentaux

Résultats principaux

Performance sur FrameNet anglais

Modèle	Méthode d'entraînement	BCF regroupement en une étape	BCF regroupement en deux étapes
RoBERTalarge + DML	DML	67,9	69,6
Gemma 3 + DML	DML	71,9	70,6
Llama 3.1 + DML	DML	70,8	70,9

Découvertes clés:

La méthode CLM+DML surpasse significativement la meilleure méthode MLM
Gemma 3 atteint le plus haut BCF de 71,9 en regroupement en une étape
La méthode ICL améliore les performances avec l'augmentation du nombre d'exemples

Performance sur FrameNet japonais

Modèle	Méthode d'entraînement	BCF regroupement en une étape	BCF regroupement en deux étapes
ModernBERT japonais + DML	DML	60,0	58,4
LLM-jp-3 + DML	DML	61,3	59,2
Llama 3.1 + ICL(5-shot)	ICL	59,9	57,4

Découvertes importantes:

Atteint des performances comparables à DML avec seulement 5 exemples ICL
Démontre les avantages des CLMs sur les langues à faibles ressources

Études d'ablation

Analyse de l'impact du terme « FrameNet »

La suppression du terme « FrameNet » dans l'invite a un impact limité sur les performances :

Dégradation des performances inférieure à 1% dans les configurations ICL et DML
Prouve que le modèle ne dépend pas simplement de la connaissance de FrameNet dans le préentraînement

Découvertes expérimentales

Avantages des CLMs: Avec des données d'entraînement suffisantes, CLM+DML surpasse significativement les méthodes MLM
Potentiel de l'ICL: Peu d'exemples suffisent pour obtenir des performances compétitives, particulièrement adapté aux scénarios à faibles ressources
Stratégie de regroupement: Après optimisation DML/ICL, le regroupement en une étape est déjà suffisamment efficace
Capacité multilingue: Les CLMs démontrent une bonne capacité de compréhension des cadres multilingues

Travaux connexes

Recherche sur l'induction de cadres sémantiques

Méthodes non supervisées: Utilise les plongements contextualisés de MLMs tels que BERT pour le regroupement
Méthodes supervisées: Optimise l'espace des plongements par apprentissage métrique profond
Regroupement en deux étapes: Résout le problème de dispersion excessive des méthodes traditionnelles

Plongement de texte basé sur des invites

PromptBERT: Utilise la prédiction masquée pour obtenir les plongements de phrases
PromptEOL: Utilise la capacité de prédiction du prochain mot des CLMs pour obtenir les plongements
Contribution de cet article: Spécialise les méthodes de plongement générales pour la tâche de plongement de cadres

Conclusion et discussion

Conclusions principales

Application réussie pour la première fois: Les CLMs peuvent être efficacement utilisés pour l'induction de cadres sémantiques, surpassant les méthodes MLM traditionnelles
Avantages pour les faibles ressources: La méthode ICL démontre un potentiel énorme dans les scénarios de données rares
Efficacité multilingue: La méthode atteint d'excellentes performances en anglais et en japonais

Limitations

Ressources informatiques: Les CLMs à grande échelle nécessitent des ressources informatiques significatives
Couverture linguistique: Validée seulement en anglais et en japonais, la généralisation à d'autres langues est inconnue
Adaptation au domaine: L'applicabilité dans des domaines spécifiques nécessite une validation supplémentaire

Directions futures

Extension multilingue: Valider l'efficacité de la méthode sur plus de langues
Adaptation au domaine: Explorer les effets d'application dans des domaines spécifiques
Optimisation de l'efficacité: Développer des méthodes d'entraînement et d'inférence plus efficaces

Évaluation approfondie

Points forts

Innovation forte: Première application systématique des CLMs à l'induction de cadres sémantiques
Méthode complète: Fournit deux stratégies d'optimisation ICL et DML, adaptées à différentes conditions de ressources
Évaluation complète: Évaluation complète sur deux langues et plusieurs modèles
Valeur pratique: Fournit une solution viable pour la construction de cadres dans les langues à faibles ressources

Insuffisances

Analyse théorique: Manque d'explication théorique approfondie sur pourquoi les CLMs surpassent les MLMs dans cette tâche
Coût informatique: Discussion insuffisante de la comparaison des coûts informatiques avec les méthodes MLM
Analyse des erreurs: Manque d'analyse détaillée des cas d'échec
Généralisation: Validée seulement sur les données FrameNet, l'applicabilité à d'autres ressources de cadres est inconnue

Impact

Contribution académique: Ouvre une nouvelle voie technologique pour la recherche sur les cadres sémantiques
Valeur pratique: Fournit un outil pratique pour la construction de ressources de cadres multilingues
Reproductibilité: Fournit des configurations expérimentales détaillées et des paramètres de configuration

Scénarios d'application

Langues à faibles ressources: Langues où les ressources de cadres sont rares
Adaptation au domaine: Scénarios nécessitant la construction de cadres spécifiques au domaine
Prototypage rapide: Applications nécessitant une construction rapide de systèmes de cadres

Références

Cet article cite des travaux importants dans plusieurs domaines incluant les cadres sémantiques, l'apprentissage métrique profond et l'apprentissage basé sur des invites, fournissant une base théorique solide pour la conception de la méthode. Particulièrement dignes d'attention sont les travaux fondateurs de Yamada et al. (2021, 2023) sur l'induction de cadres basée sur MLM, ainsi que la méthode PromptEOL proposée par Jiang et al. (2024).

Évaluation générale: Ceci est un article de recherche de haute qualité qui introduit avec succès les modèles de langage causaux dans la tâche d'induction de cadres sémantiques, avec des contributions significatives en innovation méthodologique, validation expérimentale et valeur pratique. En particulier, la performance révolutionnaire dans les scénarios de langues à faibles ressources fournit une référence importante pour le développement du domaine connexe.