High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
論文ID : 2309.12871タイトル : AnglE-optimized Text Embeddings著者 : Xianming Li, Jing Li (香港理工大学計算学部)分類 : cs.CL cs.AI cs.LG発表時期/会議 : ACL 2024 (会議版タイトル: AoE: Angle-optimized Embeddings for Semantic Textual Similarity)論文リンク : https://arxiv.org/abs/2309.12871 高品質なテキスト埋め込みは、意味的テキスト類似性(STS)タスクの改善に不可欠であり、STSタスクは大規模言語モデル(LLM)アプリケーションの中核コンポーネントです。しかし、既存のテキスト埋め込みモデルが直面する共通の課題は勾配消失問題であり、これは主に最適化目標でのコサイン関数への依存に起因しており、コサイン関数は飽和領域を有しています。この問題を解決するため、本論文は新規な角度最適化テキスト埋め込みモデルAnglEを提案しています。AnglEの核心的な考え方は、複素数空間における角度最適化の導入です。この新しい手法は、勾配を阻害し最適化プロセスを妨害するコサイン関数の飽和領域の悪影響を効果的に緩和します。包括的なSTS評価を確立するため、著者は既存の短テキストSTSデータセットと新たに収集されたGitHub Issues長テキストSTSデータセット上で実験を実施しました。さらに、ラベル付きデータが限定的な領域特定STSシナリオと、AnglEがLLMラベル付きデータとどのように連携するかについても探索しました。
テキスト埋め込みモデルは意味的テキスト類似性タスクにおいて普遍的に勾配消失問題に直面しており、これは主に最適化目標で広く使用されているコサイン関数の飽和領域に由来しています。
LLMアプリケーション需要 : 高品質なテキスト埋め込みはChatGPT、LLaMAなどの大規模言語モデルアプリケーションの基礎であり、特にベクトル検索と質問応答システムにおいて重要です最適化の困難性 : コサイン関数の飽和領域は勾配をほぼゼロにし、ネットワークがテキスト間の微妙な違いを学習することを困難にしますデータラベル問題 : 多くのSTSデータセット(MRPC、QQPなど)が提供する二値ラベル(0は非類似、1は類似)は自然にコサイン関数の飽和領域内に落ちます教師なし手法 : SimCSEなどの対比学習モデルはデータ拡張に依存して正サンプルを生成し、バッチ内負サンプルの正確性を保証することが困難です教師あり手法 : ほとんどの手法はコサイン類似度のみを最適化し、コサイン関数の飽和領域の負の影響を無視しています評価の限界 : 既存のSTSベンチマークは主に短テキストに焦点を当てており、長テキスト評価データセットが不足していますAnglEモデルの提案 : コサイン関数の飽和領域がSTSタスクに与える負の影響を初めて体系的に研究し、角度最適化テキスト埋め込みモデルを提案しました長テキストデータセットの構築 : GitHub Issuesから約21Kサンプルを含む長テキストSTSデータセットを収集し、長テキストSTS評価の空白を埋めました性能の大幅な向上 : 短テキスト、長テキスト、および領域特定STSタスクにおいて既存のSOTA(最先端)モデルを上回りましたLLM監督学習 : LLMをデータアノテーターとして使用する監督学習手法を提案し、領域ラベル付きデータの不足問題を解決しました2つのテキストシーケンスが与えられたとき、意味的に類似したテキストペアがベクトル空間でより近く、意味的に類似していないテキストペアがより遠くなるようなベクトル表現を学習します。
入力文を長さlにパディングして一貫性を確保します 各単語をd次元連続空間にマッピングして単語埋め込み e i ∈ R d e_i \in \mathbb{R}^d e i ∈ R d を得ます 単語埋め込みを連結してモデル入力を形成します: E = [ e 1 , e 2 , . . . , e l ] ∈ R l × d E = [e_1, e_2, ..., e_l] \in \mathbb{R}^{l \times d} E = [ e 1 , e 2 , ... , e l ] ∈ R l × d エンコーダ(BERT、RoBERTa、LLaMAなど)を通じてコンテキスト表現Xを取得します エンドツーエンドのコサイン類似度最適化を採用します:
L_cos = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(cos(X_m,X_n)-cos(X_i,X_j))/τ})
監督正サンプルを利用して、バッチ内の重複文を識別し、それらを正サンプルとして設定します:
L_ibn = -Σ_b Σ_{i=1}^m log(e^{cos(X_{bi},X_{bi}^+)/τ} / Σ_{j=1}^N e^{cos(X_{bi},X_{bj}^+)/τ})
複素数空間における角度差異を最適化してコサイン飽和領域の問題を緩和します:
複素数表現 :
z = a + b i ∈ C z = a + bi \in \mathbb{C} z = a + bi ∈ C (ここで a = X i r e , b = X i i m a = X_i^{re}, b = X_i^{im} a = X i re , b = X i im )w = c + d i ∈ C w = c + di \in \mathbb{C} w = c + d i ∈ C (ここで c = X j r e , d = X j i m c = X_j^{re}, d = X_j^{im} c = X j re , d = X j im )複素数除法 :
z/w = (ac + bd) + (bc - ad)i / (c² + d²)
正規化角度差異 :
Δθ_{zw} = abs([z/w × 1/γ]) = abs([(ac + bd) + (bc - ad)i] / √[(c² + d²)(a² + b²)])
角度最適化目的 :
L_angle = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(Δθ_{ij}-Δθ_{mn})/τ})
L = w₁ × L_cos + w₂ × L_ibn + w₃ × L_angle
複素数空間における角度最適化 : テキスト埋め込みに複素数空間の角度最適化を初めて導入し、コサイン関数の飽和領域問題を効果的に解決しました複数目的の統合訓練 : コサイン類似度、バッチ内負サンプル、角度最適化の3つの目的を組み合わせます飽和領域の緩和 : コサイン値の変化が非常に小さい(Δy≈0)飽和領域においても、複素数空間の角度差異は依然として顕著であり、最適化に利用できます短テキストデータセット : MRPC、QQP、QNLI、STS 2012-2016、SICK-R、STS-B評価方法 : 転移学習と非転移学習の2つの設定出典 : 55個の人気オープンソースプロジェクトのGitHub Issues規模 : 訓練セット18,565ペア、検証セット1,547ペア、テストセット1,548ペア特徴 : 60%以上が長テキスト(トークン長>512)ラベル : 重複Issuesを正サンプル、非重複Issuesを負サンプルとしますSentEvalツールキットを使用してSpearman相関係数を計算し、「all」設定を採用して公平な比較を確保します。
GloVe、BERT-flow、BERT-whitening、LLaMA2 対比学習モデル: IS-BERT、CT-BERT、SimCSE、ConSERT、DiffCSE InferSent、USE、SBERT、CoSENT SimCSEとConSERTの教師あり版 バックボーンモデル: BERT-base (1億1000万パラメータ) 温度パラメータ: コサインおよびバッチ内負サンプル目的τ=0.05、角度目的τ=1.0 重み設定: グリッドサーチにより最適な組み合わせを決定 NLIデータセット(MNLI+SNLI)で訓練し、7つのSTSベンチマークに転移:
AnglE-BERT : 平均スコア82.37%、従来のSOTA SimCSE-BERT(81.57%)から0.80%向上AnglE-LLaMA2-7B : 平均スコア85.96%、SimCSE-LLaMA2-7B(85.24%)から0.72%向上各データセットの訓練セットで訓練し、テストセットで評価:
AnglE-BERT : 平均スコア73.55%、SBERT(68.03%)から5.52%向上すべての5つのデータセットで基線モデルを上回ります 長テキスト優位性 : AnglE-RANはGitHub Issuesデータセット上でAnglE-BERTを上回りますモデル変種 STS-Bスコア AnglE-BERT-all 86.26 - w/o ibn 86.00 - w/o angle 85.30 only cosine 85.28 only angle 85.15
主要な発見 :
角度最適化はバッチ内負サンプルより重要です(角度最適化を除去すると低下幅が大きい) 角度最適化のみの性能はコサイン最適化のみに近いです 「cls」プーリング戦略が最良の性能を示します LLM(ChatGPT、LLaMA、ChatGLM)を使用して疑似監督データにラベル付け:
AnglE + ChatGPT: 81.52% AnglE + アンサンブル: 82.01% いずれも教師なし対比学習基線(SimCSE: 76.85%)を上回ります flickr30kデータセット上の厳密な精度:
AnglE: 12.9% SimCSE(教師あり): 10.4% SBERT: 5.2% STS-Bテストセットのコサイン類似度密度図による分析:
AnglEの分布は真のラベル分布により近いです コサイン関数飽和領域(0-1および4-5範囲)で優れた性能を示します AnglEがコサイン飽和領域の負の影響を効果的に緩和したことを証明しています 初期研究 : word2vec + n-gramの埋め込みBERT改善 : BERT-flow(フロー手法)、BERT-whitening(白色化操作)対比学習 : SimCSE、ConSERT、DiffCSEなど対比目的を利用したテキスト埋め込みの改善NLI利用 : InferSentは自然言語推論タスクを利用アーキテクチャ革新 : SBERTはBERTとシャムアーキテクチャを組み合わせプロンプトエンジニアリング : 最近の研究はプロンプトエンジニアリングを利用してテキスト埋め込みを改善既存手法のほとんどはコサイン類似度を最適化しますがコサイン関数の飽和領域の負の影響を無視しており、本論文はこの問題を体系的に解決する初めての研究です。
飽和領域問題 : コサイン関数の飽和領域は確かにテキスト埋め込みモデルの最適化を阻害します角度最適化の有効性 : 複素数空間の角度最適化は飽和領域問題を効果的に緩和できます性能の全面的向上 : AnglEは短テキスト、長テキスト、および領域特定STSタスクにおいてSOTA性能を達成しましたLLMとの協調 : AnglEとLLMラベル付きデータの組み合わせは領域適応のための新しい思考を提供します計算複雑性 : 複素数空間計算はモデルの計算オーバーヘッドを増加させますハイパーパラメータ感度 : 3つの目的関数の重みは慎重に調整する必要があります理論分析不足 : 角度最適化の理論的収束性分析が不足しています評価範囲 : 主に英語データセット上で評価され、多言語性能は未知です実際のアプリケーションシナリオにおけるAnglEの性能を探索 より深い理論分析と洞察を提供 多言語および言語間設定への拡張 計算効率の最適化 問題識別の正確性 : 見落とされていたが重要なコサイン関数の飽和領域問題を正確に識別しました解決策の革新性 : 複素数空間における角度最適化のアプローチは新規で有効です実験の包括性 : 短テキスト、長テキスト、転移学習など複数のシナリオをカバーしていますデータセット貢献 : GitHub Issuesデータセットは長テキストSTS評価の空白を埋めます実用的価値 : LLM監督学習手法は強い実用的応用価値を有しています理論的基礎の弱さ : 角度最適化がなぜ飽和領域問題を解決できるのかについての深い理論分析が不足しています計算オーバーヘッド : 複素数演算は訓練と推論の計算コストを増加させますハイパーパラメータの複雑性 : 3つの損失関数の重みのバランスは大量の調整が必要です比較の不十分性 : 最新のテキスト埋め込み手法との比較が十分ではありません汎化性の検証待ち : より多くの領域と言語における汎化能力の検証が必要です学術的貢献 : テキスト埋め込み最適化に新しい視点と手法を提供しました実用的価値 : 実際のSTSタスクにおいて明らかな優位性を示しています啓発的意義 : 最適化目的関数設計に関するより多くの研究を啓発する可能性があります再現性 : コードがオープンソース化され、再現と今後の研究が容易です意味的類似度計算 : 各種意味的テキスト類似性タスクに直接適用可能情報検索 : 文書検索と類似文書推奨に使用可能質問応答システム : 検索ベースの質問応答システムに適用可能テキストクラスタリング : 文書クラスタリングとトピック発見に使用可能LLMアプリケーション : 大規模言語モデルアプリケーションの埋め込みコンポーネントとして適切総合評価 : これは高品質な研究論文であり、既存手法の主要な問題を正確に識別し、革新的な解決策を提案しています。理論分析の面ではさらなる改善の余地がありますが、複数の実験設定における一貫した改善は手法の有効性を証明しています。本研究はテキスト埋め込み分野に重要な学術的および実用的価値を有しています。