2025-11-19T20:19:14.203751

Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning

Liu, Wang, Liu et al.

Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.

academic

ハイブリッド多段階デコーディングによる少数ショット固有表現認識と実体認識対比学習

基本情報

論文ID: 2404.06970
タイトル: Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning
著者: Congying Liu, Gaosheng Wang, Peipei Liu, Xingyuan Wei, Hongsong Zhu
分類: cs.CL
発表時期: 2024年4月 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2404.06970

要約

少数ショット固有表現認識(Few-shot NER)は、少数の標注例に基づいて新しい種類の固有表現を識別できます。トークンレベルまたはスパンレベルのメトリック学習を採用する従来の方法は、計算負荷が大きく、負のサンプルスパンが多数存在するという問題があります。本論文では、実体認識対比学習を用いたハイブリッド多段階デコーディング少数ショットNER(MsFNER)を提案します。これは一般的なNERを2つの段階に分割します:実体スパン検出と実体分類です。MsFNERの導入には3つのプロセスがあります:訓練、微調整、推論です。訓練プロセスでは、メタ学習を使用してソースドメイン上で最適な実体スパン検出モデルと実体分類モデルをそれぞれ訓練し、実体分類用の実体表現を強化するための対比学習モジュールを作成します。微調整では、両モデルをターゲットドメインのサポートデータセット上で微調整します。推論プロセスでは、ラベルなしデータに対して、まず実体スパンを検出し、その後、実体スパンは実体分類モデルとKNNによって共同で決定されます。オープンなFewNERDデータセット上で実験を実施し、MsFNERの優位性を示す結果が得られました。

研究背景と動機

問題定義

少数ショット固有表現認識(Few-shot NER)は、少数の標注サンプルに基づいて新しい種類の固有表現を迅速に認識することを目的としています。このタスクは、動的に変化する実世界のアプリケーションシナリオへの適応に重要な意義があります。特に、モデルが新しいデータや環境変化に迅速に適応する必要がある場合に有効です。

既存方法の限界

トークンレベルの方法:トークンとプロトタイプまたはサポートセットトークン間の距離に基づく方法は単純で直感的ですが、計算コストが高く、実体トークンのセマンティック完全性を保持できず、非実体マーカーの干渉を受けやすいという問題があります。
スパンレベルの方法:スパン全体を評価することで、トークンレベル方法の一部の問題を緩和できますが、すべての可能なスパンを列挙するとO(N²)の複雑度が生じ、多数の負のサンプルノイズが増加します。

研究動機

著者は2つの核心的な問題を解決することを目指しています:

実体と非実体間のセマンティック差異を強化することで、有効な実体スパンを決定し、少数ショットNER認識効率を向上させる方法
異なる実体タイプ間のセマンティック距離を制御・調整することで、同一クラスの実体セマンティック表現をより接近させ、異なるクラスの実体をより遠ざける方法

核心的な貢献

MsFNERフレームワークの提案:従来のNERタスクを実体スパン検出と実体分類の2つの段階に分解し、計算複雑度を効果的に低減し、負のサンプルの影響を減らします
実体認識対比学習モジュールの設計:実体表現学習を強化し、同一クラス実体の一貫性を向上させ、異なるクラス実体間の距離を拡大します
ハイブリッド推論メカニズムの構築:実体分類モデルとKNN方法を組み合わせた共同予測により、分類精度を向上させます
SOTA性能の達成およびFewAPTERデータセット上で既存方法を大幅に上回り、ChatGPTとの包括的な比較を実施しました

方法の詳細説明

タスク定義

少数ショットNERタスクは以下のように定義されます:モデルはまずソースドメインデータセット $D_{source} = (S_{source}, Q_{source})$ 上で訓練され、その後、ターゲットドメインデータセット $D_{target} = (S_{target}, Q_{target})$ に転移して推論を行います。ここで $S_{target}$ はサポートセットであり、N個の実体タイプ(N-way)を含み、各タイプはK個の標注例(K-shot)を持ちます。 $Q_{target}$ はクエリセットであり、サポートセットと同じ実体タイプを含みます。

モデルアーキテクチャ

MsFNERは3つの主要なプロセスを含みます:

1. 訓練プロセス(Training Process)

実体スパン検出(ESD)モジュール:

実体スパン検出をシーケンスラベリングタスクとして扱い、BIOESタグ付けスキームを使用します
入力文 $x = (x_1, x_2, ..., x_n)$ に対して、BERTエンコーダを使用してコンテキスト表現 $h = (h_1, h_2, ..., h_n)$ を取得します
CRF層を通じて実体スパン検出を行い、訓練損失は以下の通りです:

$L_{ESD} = -\sum \log P(y|x)$

ここで: $P(y|x) = \frac{\prod_{i=1}^{|x|} \phi_i(y_{i-1}, y_i, x)}{\sum_{y'} \prod_{i=1}^{|x|} \phi_i(y'_{i-1}, y'_i, x)}$

MAML メタ学習方法を採用して訓練し、内部ループ更新と外部ループ更新を含みます

実体分類(EC)モジュール:

実体 $e_k = (x_f, ..., x_{f+l})$ に対して、最大プーリングを使用して表現を取得します: $\hat{e}_k = \max(h_f, ..., h_{f+l})$
実体認識対比学習を導入し、損失関数は以下の通りです: $L_{CL} = \sum_j -\frac{1}{|P(j)|} \sum_{p \in P(j)} \log \frac{\exp(\text{sim}(z_j, z_p)/\tau)}{\sum_{a \in A(j)} \exp(\text{sim}(z_j, z_a)/\tau)}$
プロトタイプ表現を構築し、分類を実施します: $c_t(S) = \frac{1}{|S_t|} \sum_{e_m \in S_t} \hat{e}_m$

$p_{soft}(e_k) = \frac{\exp(-d(c_t(S), \hat{e}_k))}{\sum_{i=1}^{|\phi|} \exp(-d(c_i(S), \hat{e}_k))}$

2. 微調整プロセス(Finetuning Process)

ターゲットドメインサポートセット $S_{target}$ 上で訓練済みの実体検出および分類モデルを微調整し、訓練プロセスと同じパターンを採用します。

3. 推論プロセス(Inference Process)

4つの段階を含みます:

キー値データストア $D_{knn}$ を構築し、キーは実体表現、値は対応するラベルです
実体検出モデルを使用して実体スパンを取得します
検出された実体表現を分類モデルとKNNモジュールにそれぞれ入力します
共同予測: $p(y|e'_k) = \lambda p_{knn}(y|e'_k) + (1-\lambda) p_{soft}(y|e'_k)$

技術的な革新点

2段階分解戦略タスクをスパン検出と分類の2つのサブタスクに分解し、従来の方法で生じるすべての可能なスパンを列挙する複雑度の問題を回避します
実体認識対比学習:実体表現を強化するために特別に設計された対比学習モジュールにより、同一クラス実体の凝集度を向上させ、異なるクラス実体の区別度を高めます
ハイブリッド推論メカニズム:パラメータ化モデルと非パラメータ化KNN方法を組み合わせ、サポートセット情報を十分に活用します