2025-11-18T13:10:21.183335

AnglE-optimized Text Embeddings

Li, Li
High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
academic

Plongements de Texte Optimisés par AnglE

Informations Fondamentales

  • ID de l'article: 2309.12871
  • Titre: AnglE-optimized Text Embeddings
  • Auteurs: Xianming Li, Jing Li (Département d'Informatique, Université Polytechnique de Hong Kong)
  • Classification: cs.CL cs.AI cs.LG
  • Date de Publication/Conférence: ACL 2024 (Titre de la version conférence: AoE: Angle-optimized Embeddings for Semantic Textual Similarity)
  • Lien de l'article: https://arxiv.org/abs/2309.12871

Résumé

Les plongements de texte de haute qualité sont essentiels pour améliorer les tâches de similarité textuelle sémantique (STS), qui constituent un composant fondamental des applications de modèles de langage volumineux. Cependant, les modèles de plongement de texte existants font face à un défi commun : le problème de la disparition du gradient, principalement dû à leur dépendance envers la fonction cosinus dans les objectifs d'optimisation, laquelle présente des régions de saturation. Pour résoudre ce problème, cet article propose un nouveau modèle de plongement de texte optimisé par angle appelé AnglE. L'idée centrale d'AnglE est d'introduire l'optimisation d'angle dans l'espace complexe. Cette nouvelle approche atténue efficacement les effets négatifs des régions de saturation de la fonction cosinus, qui entravent le gradient et entravent le processus d'optimisation. Pour établir une évaluation complète de STS, les auteurs ont mené des expériences sur les ensembles de données STS de texte court existants et un nouvel ensemble de données STS de texte long collecté à partir de GitHub Issues. De plus, des scénarios STS spécifiques à un domaine avec des données annotées limitées ont été explorés, ainsi que la manière dont AnglE peut être utilisé en conjonction avec les données annotées par LLM.

Contexte de Recherche et Motivation

Définition du Problème

Les modèles de plongement de texte souffrent universellement du problème de disparition du gradient dans les tâches de similarité textuelle sémantique, principalement en raison des régions de saturation de la fonction cosinus largement utilisée dans les objectifs d'optimisation.

Importance du Problème

  1. Besoins des applications LLM: Les plongements de texte de haute qualité constituent la base des applications de modèles de langage volumineux tels que ChatGPT et LLaMA, en particulier dans la recherche vectorielle et les systèmes de questions-réponses
  2. Difficultés d'optimisation: Les régions de saturation de la fonction cosinus entraînent un gradient proche de zéro, ce qui rend difficile pour le réseau d'apprendre les différences subtiles entre les textes
  3. Problèmes d'étiquetage des données: De nombreux ensembles de données STS (tels que MRPC, QQP) fournissent des étiquettes binaires (0 pour non similaire, 1 pour similaire) qui se situent naturellement dans les régions de saturation de la fonction cosinus

Limitations des Méthodes Existantes

  1. Méthodes non supervisées: Les modèles d'apprentissage contrastif tels que SimCSE dépendent de l'augmentation des données pour générer des échantillons positifs, ce qui rend difficile de garantir l'exactitude des échantillons négatifs intra-batch
  2. Méthodes supervisées: La plupart des méthodes optimisent uniquement la similarité cosinus, ignorant les effets négatifs des régions de saturation de la fonction cosinus
  3. Limitations d'évaluation: Les repères STS existants se concentrent principalement sur les textes courts, manquant d'ensembles de données d'évaluation pour les textes longs

Contributions Principales

  1. Proposition du modèle AnglE: Première étude systématique des effets négatifs des régions de saturation de la fonction cosinus sur les tâches STS, avec proposition d'un modèle de plongement de texte optimisé par angle
  2. Construction d'un ensemble de données de texte long: Collecte d'un ensemble de données STS de texte long contenant environ 21 000 échantillons à partir de GitHub Issues, comblant le vide dans l'évaluation STS de texte long
  3. Amélioration significative des performances: Surpasse les modèles SOTA existants sur les tâches STS de texte court, texte long et spécifiques à un domaine
  4. Apprentissage supervisé par LLM: Proposition d'une méthode d'apprentissage supervisé utilisant LLM comme annotateur de données, résolvant le problème de rareté des données annotées dans les domaines

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné deux séquences de texte, apprendre leurs représentations vectorielles de sorte que les paires de texte sémantiquement similaires soient plus proches dans l'espace vectoriel, tandis que les paires sémantiquement dissimilaires soient plus éloignées.

Architecture du Modèle

1. Couche d'Entrée

  • Remplissage des phrases d'entrée pour assurer une longueur uniforme de l
  • Mappage de chaque mot à un espace continu de dimension d pour obtenir l'incorporation de mots eiRde_i \in \mathbb{R}^d
  • Concaténation des incorporations de mots formant l'entrée du modèle: E=[e1,e2,...,el]Rl×dE = [e_1, e_2, ..., e_l] \in \mathbb{R}^{l \times d}
  • Obtention de représentations contextuelles X via un encodeur (BERT, RoBERTa, LLaMA, etc.)

2. Fonction Objectif Cosinus

Optimisation end-to-end de la similarité cosinus:

L_cos = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(cos(X_m,X_n)-cos(X_i,X_j))/τ})

3. Fonction Objectif d'Échantillons Négatifs Intra-Batch

Utilisation d'échantillons positifs supervisés, identification des phrases dupliquées intra-batch et leur définition comme échantillons positifs:

L_ibn = -Σ_b Σ_{i=1}^m log(e^{cos(X_{bi},X_{bi}^+)/τ} / Σ_{j=1}^N e^{cos(X_{bi},X_{bj}^+)/τ})

4. Fonction Objectif d'Angle (Innovation Centrale)

Optimisation des différences d'angle dans l'espace complexe pour atténuer le problème des régions de saturation cosinus:

Représentation Complexe:

  • z=a+biCz = a + bi \in \mathbb{C} (où a=Xire,b=Xiima = X_i^{re}, b = X_i^{im})
  • w=c+diCw = c + di \in \mathbb{C} (où c=Xjre,d=Xjimc = X_j^{re}, d = X_j^{im})

Division Complexe:

z/w = (ac + bd) + (bc - ad)i / (c² + d²)

Différence d'Angle Normalisée:

Δθ_{zw} = abs([z/w × 1/γ]) = abs([(ac + bd) + (bc - ad)i] / √[(c² + d²)(a² + b²)])

Objectif d'Optimisation d'Angle:

L_angle = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(Δθ_{ij}-Δθ_{mn})/τ})

5. Fonction Objectif Conjointe

L = w₁ × L_cos + w₂ × L_ibn + w₃ × L_angle

Points d'Innovation Technique

  1. Optimisation d'Angle dans l'Espace Complexe: Introduction pour la première fois de l'optimisation d'angle dans l'espace complexe pour les plongements de texte, résolvant efficacement le problème des régions de saturation cosinus
  2. Entraînement Multi-Objectif Conjoint: Combinaison de trois objectifs : similarité cosinus, échantillons négatifs intra-batch et optimisation d'angle
  3. Atténuation des Régions de Saturation: Même dans les régions de saturation où le changement de cosinus est minime (Δy≈0), les différences d'angle dans l'espace complexe restent évidentes et peuvent être utilisées pour l'optimisation

Configuration Expérimentale

Ensembles de Données

Repères STS Existants

  • Ensembles de données de texte court: MRPC, QQP, QNLI, STS 2012-2016, SICK-R, STS-B
  • Méthode d'évaluation: Deux paramètres d'apprentissage par transfert et non-transfert

Ensemble de Données de Similarité GitHub Issues (Nouvelle Contribution)

  • Source: GitHub Issues de 55 projets open-source populaires
  • Échelle: 18 565 paires d'entraînement, 1 547 paires de validation, 1 548 paires de test
  • Caractéristiques: Plus de 60% sont des textes longs (longueur de token > 512)
  • Étiquettes: Issues dupliquées comme échantillons positifs, issues non dupliquées comme échantillons négatifs

Métriques d'Évaluation

Utilisation du coefficient de corrélation de Spearman, calculé via la boîte à outils SentEval, en utilisant le paramètre "all" pour assurer une comparaison équitable.

Méthodes de Comparaison

Modèles Non Supervisés

  • GloVe, BERT-flow, BERT-whitening, LLaMA2
  • Modèles d'apprentissage contrastif: IS-BERT, CT-BERT, SimCSE, ConSERT, DiffCSE

Modèles Supervisés

  • InferSent, USE, SBERT, CoSENT
  • Versions supervisées de SimCSE et ConSERT

Détails d'Implémentation

  • Modèle de base: BERT-base (110M paramètres)
  • Paramètre de température: τ=0,05 pour les objectifs cosinus et échantillons négatifs intra-batch, τ=1,0 pour l'objectif d'angle
  • Configuration des poids: Combinaison optimale déterminée par recherche en grille

Résultats Expérimentaux

Résultats Principaux

Tâches STS d'Apprentissage par Transfert

Entraînement sur l'ensemble de données NLI (MNLI+SNLI), transfert vers 7 repères STS:

  • AnglE-BERT: Score moyen de 82,37%, surpassant le SOTA précédent SimCSE-BERT (81,57%) de 0,80%
  • AnglE-LLaMA2-7B: Score moyen de 85,96%, surpassant SimCSE-LLaMA2-7B (85,24%) de 0,72%

Tâches STS Sans Apprentissage par Transfert

Entraînement sur l'ensemble d'entraînement de chaque ensemble de données, évaluation sur l'ensemble de test:

  • AnglE-BERT: Score moyen de 73,55%, surpassant SBERT (68,03%) de 5,52%
  • Surpasse les modèles de base sur les 5 ensembles de données
  • Avantage de texte long: AnglE-RAN surpasse AnglE-BERT sur l'ensemble de données GitHub Issues

Expériences d'Ablation

Variante du ModèleScore STS-B
AnglE-BERT-all86,26
- w/o ibn86,00
- w/o angle85,30
only cosine85,28
only angle85,15

Découvertes Clés:

  1. L'optimisation d'angle est plus importante que les échantillons négatifs intra-batch (la suppression de l'optimisation d'angle entraîne une baisse plus importante)
  2. Les performances utilisant uniquement l'optimisation d'angle sont proches de celles utilisant uniquement l'optimisation cosinus
  3. La stratégie de pooling "cls" offre les meilleures performances

Expériences d'Apprentissage Supervisé par LLM

Utilisation de LLM (ChatGPT, LLaMA, ChatGLM) pour annoter les données pseudo-supervisées:

  • AnglE + ChatGPT: 81,52%
  • AnglE + Ensemble: 82,01%
  • Surpassent tous les deux les lignes de base d'apprentissage contrastif non supervisé (SimCSE: 76,85%)

Analyse de Cas

Tâche de Récupération de Texte

Précision stricte sur l'ensemble de données flickr30k:

  • AnglE: 12,9%
  • SimCSE (supervisé): 10,4%
  • SBERT: 5,2%

Analyse de la Distribution des Plongements

Analyse via graphique de densité de similarité cosinus de l'ensemble de test STS-B:

  • La distribution d'AnglE est plus proche de la distribution d'étiquettes réelles
  • Performances supérieures dans les régions de saturation cosinus (plages 0-1 et 4-5)
  • Prouve qu'AnglE atténue efficacement les effets négatifs des régions de saturation

Travaux Connexes

Méthodes Non Supervisées

  • Recherches Antérieures: Incorporations word2vec + n-gram
  • Améliorations BERT: BERT-flow (méthode de flux), BERT-whitening (opération de blanchiment)
  • Apprentissage Contrastif: SimCSE, ConSERT, DiffCSE, etc., utilisant des objectifs contrastifs pour améliorer les plongements de texte

Méthodes Supervisées

  • Utilisation de NLI: InferSent utilisant les tâches d'inférence en langage naturel
  • Innovations Architecturales: SBERT combinant BERT et l'architecture siamoise
  • Ingénierie des Invites: Recherches récentes utilisant l'ingénierie des invites pour améliorer les plongements de texte

Positionnement de cet Article

La plupart des méthodes existantes optimisent la similarité cosinus mais ignorent les effets négatifs des régions de saturation de la fonction cosinus. Cet article est le premier travail abordant systématiquement ce problème.

Conclusions et Discussion

Conclusions Principales

  1. Problème des Régions de Saturation: Les régions de saturation de la fonction cosinus entravent effectivement l'optimisation des modèles de plongement de texte
  2. Efficacité de l'Optimisation d'Angle: L'optimisation d'angle dans l'espace complexe atténue efficacement le problème des régions de saturation
  3. Amélioration Complète des Performances: AnglE atteint des performances SOTA sur les tâches STS de texte court, texte long et spécifiques à un domaine
  4. Synergie avec LLM: La combinaison d'AnglE avec les données annotées par LLM offre de nouvelles perspectives pour l'adaptation de domaine

Limitations

  1. Complexité Computationnelle: Les calculs dans l'espace complexe augmentent les frais de calcul du modèle
  2. Sensibilité aux Hyperparamètres: Les poids des trois fonctions objectif nécessitent un ajustement minutieux
  3. Analyse Théorique Insuffisante: Manque d'analyse théorique de la convergence de l'optimisation d'angle
  4. Portée d'Évaluation: Évaluation principalement sur des ensembles de données en anglais, performances multilingues inconnues

Directions Futures

  • Explorer les performances d'AnglE dans les scénarios d'application réels
  • Fournir une analyse théorique et des perspectives plus approfondies
  • Étendre aux paramètres multilingues et cross-lingues
  • Optimiser l'efficacité computationnelle

Évaluation Approfondie

Avantages

  1. Identification Précise du Problème: Identification précise des régions de saturation de la fonction cosinus, un problème négligé mais important
  2. Solution Innovante: L'approche d'optimisation d'angle dans l'espace complexe est novatrice et efficace
  3. Expériences Complètes: Couvre plusieurs scénarios incluant texte court, texte long, apprentissage par transfert
  4. Contribution d'Ensemble de Données: L'ensemble de données GitHub Issues comble le vide dans l'évaluation STS de texte long
  5. Valeur Pratique: La méthode d'apprentissage supervisé par LLM possède une forte valeur d'application pratique

Insuffisances

  1. Fondations Théoriques Faibles: Manque d'analyse théorique approfondie sur pourquoi l'optimisation d'angle résout le problème des régions de saturation
  2. Frais de Calcul: Les opérations complexes augmentent les coûts de formation et d'inférence
  3. Complexité des Hyperparamètres: L'équilibre des poids des trois fonctions de perte nécessite un ajustement extensif
  4. Comparaisons Insuffisantes: Les comparaisons avec certaines méthodes récentes de plongement de texte ne sont pas suffisamment complètes
  5. Généralisation à Vérifier: La capacité de généralisation sur plus de domaines et de langues nécessite une vérification supplémentaire

Impact

  1. Contribution Académique: Offre une nouvelle perspective et une nouvelle méthode pour l'optimisation des plongements de texte
  2. Valeur Pratique: Démontre des avantages évidents dans les tâches STS pratiques
  3. Signification Inspirante: Peut inspirer davantage de recherches sur la conception des fonctions objectif d'optimisation
  4. Reproductibilité: Code open-source, facilitant la reproduction et la recherche ultérieure

Scénarios d'Application

  1. Calcul de Similarité Sémantique: Directement applicable aux diverses tâches de similarité textuelle sémantique
  2. Récupération d'Informations: Utilisable pour la récupération de documents et la recommandation de documents similaires
  3. Systèmes de Questions-Réponses: Applicable aux systèmes de questions-réponses basés sur la récupération
  4. Clustering de Texte: Utilisable pour le clustering de documents et la découverte de sujets
  5. Applications LLM: Convient comme composant d'incorporation dans les applications de modèles de langage volumineux

Évaluation Globale: Cet article est un travail de recherche de haute qualité qui identifie avec précision les problèmes clés des méthodes existantes et propose une solution innovante. Bien qu'il y ait de la place pour l'amélioration dans l'analyse théorique, les améliorations cohérentes dans plusieurs configurations expérimentales prouvent l'efficacité de la méthode. Ce travail possède une valeur académique et pratique importante pour le domaine des plongements de texte.