2025-11-18T13:10:21.183335

AnglE-optimized Text Embeddings

Li, Li
High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
academic

AnglE-optimized Text Embeddings

基本信息

  • 论文ID: 2309.12871
  • 标题: AnglE-optimized Text Embeddings
  • 作者: Xianming Li, Jing Li (香港理工大学计算学系)
  • 分类: cs.CL cs.AI cs.LG
  • 发表时间/会议: ACL 2024 (会议版本标题: AoE: Angle-optimized Embeddings for Semantic Textual Similarity)
  • 论文链接: https://arxiv.org/abs/2309.12871

摘要

高质量的文本嵌入对于改进语义文本相似性(STS)任务至关重要,而STS任务是大语言模型应用的核心组件。然而,现有文本嵌入模型面临的一个共同挑战是梯度消失问题,主要由于它们在优化目标中依赖余弦函数,而余弦函数存在饱和区域。为解决这一问题,本文提出了一种新颖的角度优化文本嵌入模型AnglE。AnglE的核心思想是在复数空间中引入角度优化。这种新方法有效缓解了余弦函数饱和区域的不良影响,该饱和区域会阻碍梯度并妨碍优化过程。为建立全面的STS评估,作者在现有短文本STS数据集和新收集的GitHub Issues长文本STS数据集上进行了实验。此外,还探讨了标注数据有限的领域特定STS场景,以及AnglE如何与LLM标注数据配合使用。

研究背景与动机

问题定义

文本嵌入模型在语义文本相似性任务中普遍存在梯度消失问题,这主要源于优化目标中广泛使用的余弦函数存在饱和区域。

问题重要性

  1. LLM应用需求: 高质量文本嵌入是ChatGPT、LLaMA等大语言模型应用的基础,特别是在向量搜索和问答系统中
  2. 优化困难: 余弦函数的饱和区域导致梯度接近零,使网络难以学习文本间的细微差别
  3. 数据标签问题: 许多STS数据集(如MRPC、QQP)提供的二元标签(0表示不相似,1表示相似)天然落在余弦函数的饱和区域内

现有方法局限性

  1. 无监督方法: 如SimCSE等对比学习模型依赖数据增强生成正样本,难以保证批内负样本的正确性
  2. 监督方法: 大多数方法仅优化余弦相似度,忽视了余弦函数饱和区域的负面影响
  3. 评估局限: 现有STS基准主要关注短文本,缺乏长文本评估数据集

核心贡献

  1. 提出AnglE模型: 首次系统性地研究余弦函数饱和区域对STS任务的负面影响,并提出角度优化的文本嵌入模型
  2. 构建长文本数据集: 从GitHub Issues收集了包含约21K样本的长文本STS数据集,填补了长文本STS评估的空白
  3. 性能显著提升: 在短文本、长文本和领域特定STS任务上均超越现有SOTA模型
  4. LLM监督学习: 提出使用LLM作为数据标注器的监督学习方法,解决领域标注数据稀缺问题

方法详解

任务定义

给定两个文本序列,学习它们的向量表示,使得语义相似的文本对在向量空间中距离更近,语义不相似的文本对距离更远。

模型架构

1. 输入层

  • 对输入句子进行padding确保长度一致为l
  • 将每个词映射到d维连续空间得到词嵌入 eiRde_i \in \mathbb{R}^d
  • 连接词嵌入形成模型输入: E=[e1,e2,...,el]Rl×dE = [e_1, e_2, ..., e_l] \in \mathbb{R}^{l \times d}
  • 通过编码器(BERT、RoBERTa、LLaMA等)获得上下文表示X

2. 余弦目标函数

采用端到端优化余弦相似度:

L_cos = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(cos(X_m,X_n)-cos(X_i,X_j))/τ})

3. 批内负样本目标函数

利用监督正样本,识别批内重复句子并将其设为正样本:

L_ibn = -Σ_b Σ_{i=1}^m log(e^{cos(X_{bi},X_{bi}^+)/τ} / Σ_{j=1}^N e^{cos(X_{bi},X_{bj}^+)/τ})

4. 角度目标函数(核心创新)

在复数空间中优化角度差异以缓解余弦饱和区域问题:

复数表示:

  • z=a+biCz = a + bi \in \mathbb{C} (其中 a=Xire,b=Xiima = X_i^{re}, b = X_i^{im})
  • w=c+diCw = c + di \in \mathbb{C} (其中 c=Xjre,d=Xjimc = X_j^{re}, d = X_j^{im})

复数除法:

z/w = (ac + bd) + (bc - ad)i / (c² + d²)

归一化角度差异:

Δθ_{zw} = abs([z/w × 1/γ]) = abs([(ac + bd) + (bc - ad)i] / √[(c² + d²)(a² + b²)])

角度优化目标:

L_angle = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(Δθ_{ij}-Δθ_{mn})/τ})

5. 联合目标函数

L = w₁ × L_cos + w₂ × L_ibn + w₃ × L_angle

技术创新点

  1. 复数空间角度优化: 首次在文本嵌入中引入复数空间的角度优化,有效解决余弦函数饱和区域问题
  2. 多目标联合训练: 结合余弦相似度、批内负样本和角度优化三个目标
  3. 饱和区域缓解: 即使在余弦值变化很小(Δy≈0)的饱和区域,复数空间中的角度差异仍然明显,可用于优化

实验设置

数据集

现有STS基准

  • 短文本数据集: MRPC, QQP, QNLI, STS 2012-2016, SICK-R, STS-B
  • 评估方式: 迁移学习和非迁移学习两种设置

GitHub Issues相似性数据集(新贡献)

  • 来源: 55个热门开源项目的GitHub Issues
  • 规模: 训练集18,565对,验证集1,547对,测试集1,548对
  • 特点: 60%以上为长文本(token长度>512)
  • 标签: 重复issues作为正样本,非重复issues作为负样本

评价指标

使用Spearman相关系数,通过SentEval工具包计算,采用"all"设置确保公平比较。

对比方法

无监督模型

  • GloVe, BERT-flow, BERT-whitening, LLaMA2
  • 对比学习模型: IS-BERT, CT-BERT, SimCSE, ConSERT, DiffCSE

监督模型

  • InferSent, USE, SBERT, CoSENT
  • 监督版本的SimCSE和ConSERT

实现细节

  • 骨干模型: BERT-base (110M参数)
  • 温度参数: 余弦和批内负样本目标τ=0.05,角度目标τ=1.0
  • 权重设置: 通过网格搜索确定最优组合

实验结果

主要结果

迁移STS任务

在NLI数据集(MNLI+SNLI)上训练,迁移到7个STS基准:

  • AnglE-BERT: 平均得分82.37%,比之前SOTA的SimCSE-BERT(81.57%)提升0.80%
  • AnglE-LLaMA2-7B: 平均得分85.96%,比SimCSE-LLaMA2-7B(85.24%)提升0.72%

非迁移STS任务

在各数据集的训练集上训练,在测试集评估:

  • AnglE-BERT: 平均得分73.55%,比SBERT(68.03%)提升5.52%
  • 在所有5个数据集上均超越基线模型
  • 长文本优势: AnglE-RAN在GitHub Issues数据集上超越AnglE-BERT

消融实验

模型变体STS-B得分
AnglE-BERT-all86.26
- w/o ibn86.00
- w/o angle85.30
only cosine85.28
only angle85.15

关键发现:

  1. 角度优化比批内负样本更重要(去除角度优化降幅更大)
  2. 仅使用角度优化的性能接近仅使用余弦优化
  3. "cls"池化策略表现最佳

LLM监督学习实验

使用LLM(ChatGPT、LLaMA、ChatGLM)标注伪监督数据:

  • AnglE + ChatGPT: 81.52%
  • AnglE + 集成: 82.01%
  • 均超越无监督对比学习基线(SimCSE: 76.85%)

案例分析

文本检索任务

在flickr30k数据集上的严格准确率:

  • AnglE: 12.9%
  • SimCSE(监督): 10.4%
  • SBERT: 5.2%

嵌入分布分析

通过STS-B测试集的余弦相似度密度图分析:

  • AnglE的分布更接近真实标签分布
  • 在余弦函数饱和区域(0-1和4-5范围)表现更佳
  • 证明AnglE有效缓解了饱和区域的负面影响

相关工作

无监督方法

  • 早期研究: word2vec + n-gram嵌入
  • BERT改进: BERT-flow(流式方法)、BERT-whitening(白化操作)
  • 对比学习: SimCSE、ConSERT、DiffCSE等利用对比目标改进文本嵌入

监督方法

  • NLI利用: InferSent利用自然语言推理任务
  • 架构创新: SBERT结合BERT和孪生架构
  • 提示工程: 近期研究利用提示工程改进文本嵌入

本文定位

现有方法大多优化余弦相似度但忽视余弦函数饱和区域的负面影响,本文是首个系统性解决这一问题的工作。

结论与讨论

主要结论

  1. 饱和区域问题: 余弦函数的饱和区域确实会阻碍文本嵌入模型的优化
  2. 角度优化有效: 复数空间的角度优化能有效缓解饱和区域问题
  3. 性能全面提升: AnglE在短文本、长文本和领域特定STS任务上均达到SOTA性能
  4. LLM协同: AnglE与LLM标注数据的结合为领域适应提供了新思路

局限性

  1. 计算复杂度: 复数空间计算增加了模型的计算开销
  2. 超参数敏感: 三个目标函数的权重需要仔细调节
  3. 理论分析不足: 缺乏对角度优化的理论收敛性分析
  4. 评估范围: 主要在英文数据集上评估,多语言性能未知

未来方向

  • 探索AnglE在实际应用场景中的表现
  • 提供更深入的理论分析和洞察
  • 扩展到多语言和跨语言设置
  • 优化计算效率

深度评价

优点

  1. 问题识别准确: 准确识别了余弦函数饱和区域这一被忽视但重要的问题
  2. 解决方案创新: 复数空间角度优化的思路新颖且有效
  3. 实验全面: 涵盖短文本、长文本、迁移学习等多个场景
  4. 数据集贡献: GitHub Issues数据集填补了长文本STS评估的空白
  5. 实用价值: LLM监督学习方法具有很强的实际应用价值

不足

  1. 理论基础薄弱: 缺乏对为什么角度优化能解决饱和区域问题的深入理论分析
  2. 计算开销: 复数运算增加了训练和推理的计算成本
  3. 超参数复杂: 三个损失函数的权重平衡需要大量调参
  4. 对比不充分: 与一些最新的文本嵌入方法对比不够全面
  5. 泛化性待验证: 在更多领域和语言上的泛化能力需要进一步验证

影响力

  1. 学术贡献: 为文本嵌入优化提供了新的视角和方法
  2. 实用价值: 在实际的STS任务中展现出明显优势
  3. 启发意义: 可能启发更多关于优化目标函数设计的研究
  4. 可复现性: 代码开源,便于复现和进一步研究

适用场景

  1. 语义相似度计算: 直接适用于各种语义文本相似性任务
  2. 信息检索: 可用于文档检索和相似文档推荐
  3. 问答系统: 适用于基于检索的问答系统
  4. 文本聚类: 可用于文档聚类和主题发现
  5. LLM应用: 适合作为大语言模型应用中的嵌入组件

总体评价: 这是一篇高质量的研究论文,准确识别了现有方法的关键问题并提出了创新的解决方案。虽然在理论分析方面还有提升空间,但其在多个实验设置下的一致性改进证明了方法的有效性。该工作对文本嵌入领域具有重要的学术和实用价值。