2025-11-18T13:10:21.183335

AnglE-optimized Text Embeddings

Li, Li

High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.

academic

Plongements de Texte Optimisés par AnglE

Informations Fondamentales

ID de l'article: 2309.12871
Titre: AnglE-optimized Text Embeddings
Auteurs: Xianming Li, Jing Li (Département d'Informatique, Université Polytechnique de Hong Kong)
Classification: cs.CL cs.AI cs.LG
Date de Publication/Conférence: ACL 2024 (Titre de la version conférence: AoE: Angle-optimized Embeddings for Semantic Textual Similarity)
Lien de l'article: https://arxiv.org/abs/2309.12871

Résumé

Les plongements de texte de haute qualité sont essentiels pour améliorer les tâches de similarité textuelle sémantique (STS), qui constituent un composant fondamental des applications de modèles de langage volumineux. Cependant, les modèles de plongement de texte existants font face à un défi commun : le problème de la disparition du gradient, principalement dû à leur dépendance envers la fonction cosinus dans les objectifs d'optimisation, laquelle présente des régions de saturation. Pour résoudre ce problème, cet article propose un nouveau modèle de plongement de texte optimisé par angle appelé AnglE. L'idée centrale d'AnglE est d'introduire l'optimisation d'angle dans l'espace complexe. Cette nouvelle approche atténue efficacement les effets négatifs des régions de saturation de la fonction cosinus, qui entravent le gradient et entravent le processus d'optimisation. Pour établir une évaluation complète de STS, les auteurs ont mené des expériences sur les ensembles de données STS de texte court existants et un nouvel ensemble de données STS de texte long collecté à partir de GitHub Issues. De plus, des scénarios STS spécifiques à un domaine avec des données annotées limitées ont été explorés, ainsi que la manière dont AnglE peut être utilisé en conjonction avec les données annotées par LLM.

Contexte de Recherche et Motivation

Définition du Problème

Les modèles de plongement de texte souffrent universellement du problème de disparition du gradient dans les tâches de similarité textuelle sémantique, principalement en raison des régions de saturation de la fonction cosinus largement utilisée dans les objectifs d'optimisation.

Importance du Problème

Besoins des applications LLM: Les plongements de texte de haute qualité constituent la base des applications de modèles de langage volumineux tels que ChatGPT et LLaMA, en particulier dans la recherche vectorielle et les systèmes de questions-réponses
Difficultés d'optimisation: Les régions de saturation de la fonction cosinus entraînent un gradient proche de zéro, ce qui rend difficile pour le réseau d'apprendre les différences subtiles entre les textes
Problèmes d'étiquetage des données: De nombreux ensembles de données STS (tels que MRPC, QQP) fournissent des étiquettes binaires (0 pour non similaire, 1 pour similaire) qui se situent naturellement dans les régions de saturation de la fonction cosinus

Limitations des Méthodes Existantes

Méthodes non supervisées: Les modèles d'apprentissage contrastif tels que SimCSE dépendent de l'augmentation des données pour générer des échantillons positifs, ce qui rend difficile de garantir l'exactitude des échantillons négatifs intra-batch
Méthodes supervisées: La plupart des méthodes optimisent uniquement la similarité cosinus, ignorant les effets négatifs des régions de saturation de la fonction cosinus
Limitations d'évaluation: Les repères STS existants se concentrent principalement sur les textes courts, manquant d'ensembles de données d'évaluation pour les textes longs

Contributions Principales

Proposition du modèle AnglE: Première étude systématique des effets négatifs des régions de saturation de la fonction cosinus sur les tâches STS, avec proposition d'un modèle de plongement de texte optimisé par angle
Construction d'un ensemble de données de texte long: Collecte d'un ensemble de données STS de texte long contenant environ 21 000 échantillons à partir de GitHub Issues, comblant le vide dans l'évaluation STS de texte long
Amélioration significative des performances: Surpasse les modèles SOTA existants sur les tâches STS de texte court, texte long et spécifiques à un domaine
Apprentissage supervisé par LLM: Proposition d'une méthode d'apprentissage supervisé utilisant LLM comme annotateur de données, résolvant le problème de rareté des données annotées dans les domaines

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné deux séquences de texte, apprendre leurs représentations vectorielles de sorte que les paires de texte sémantiquement similaires soient plus proches dans l'espace vectoriel, tandis que les paires sémantiquement dissimilaires soient plus éloignées.

Architecture du Modèle

1. Couche d'Entrée

Remplissage des phrases d'entrée pour assurer une longueur uniforme de l
Mappage de chaque mot à un espace continu de dimension d pour obtenir l'incorporation de mots $e_i \in \mathbb{R}^d$
Concaténation des incorporations de mots formant l'entrée du modèle: $E = [e_1, e_2, ..., e_l] \in \mathbb{R}^{l \times d}$
Obtention de représentations contextuelles X via un encodeur (BERT, RoBERTa, LLaMA, etc.)

2. Fonction Objectif Cosinus

Optimisation end-to-end de la similarité cosinus:

L_cos = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(cos(X_m,X_n)-cos(X_i,X_j))/τ})

3. Fonction Objectif d'Échantillons Négatifs Intra-Batch

Utilisation d'échantillons positifs supervisés, identification des phrases dupliquées intra-batch et leur définition comme échantillons positifs:

L_ibn = -Σ_b Σ_{i=1}^m log(e^{cos(X_{bi},X_{bi}^+)/τ} / Σ_{j=1}^N e^{cos(X_{bi},X_{bj}^+)/τ})

4. Fonction Objectif d'Angle (Innovation Centrale)

Optimisation des différences d'angle dans l'espace complexe pour atténuer le problème des régions de saturation cosinus:

Représentation Complexe:

$z = a + bi \in \mathbb{C}$ (où $a = X_i^{re}, b = X_i^{im}$ )
$w = c + di \in \mathbb{C}$ (où $c = X_j^{re}, d = X_j^{im}$ )

Division Complexe:

z/w = (ac + bd) + (bc - ad)i / (c² + d²)

Différence d'Angle Normalisée:

Δθ_{zw} = abs([z/w × 1/γ]) = abs([(ac + bd) + (bc - ad)i] / √[(c² + d²)(a² + b²)])

Objectif d'Optimisation d'Angle:

L_angle = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(Δθ_{ij}-Δθ_{mn})/τ})

5. Fonction Objectif Conjointe

L = w₁ × L_cos + w₂ × L_ibn + w₃ × L_angle

Points d'Innovation Technique

Optimisation d'Angle dans l'Espace Complexe: Introduction pour la première fois de l'optimisation d'angle dans l'espace complexe pour les plongements de texte, résolvant efficacement le problème des régions de saturation cosinus
Entraînement Multi-Objectif Conjoint: Combinaison de trois objectifs : similarité cosinus, échantillons négatifs intra-batch et optimisation d'angle
Atténuation des Régions de Saturation: Même dans les régions de saturation où le changement de cosinus est minime (Δy≈0), les différences d'angle dans l'espace complexe restent évidentes et peuvent être utilisées pour l'optimisation

Configuration Expérimentale

Ensembles de Données

Repères STS Existants

Ensembles de données de texte court: MRPC, QQP, QNLI, STS 2012-2016, SICK-R, STS-B
Méthode d'évaluation: Deux paramètres d'apprentissage par transfert et non-transfert

Ensemble de Données de Similarité GitHub Issues (Nouvelle Contribution)

Source: GitHub Issues de 55 projets open-source populaires
Échelle: 18 565 paires d'entraînement, 1 547 paires de validation, 1 548 paires de test
Caractéristiques: Plus de 60% sont des textes longs (longueur de token > 512)
Étiquettes: Issues dupliquées comme échantillons positifs, issues non dupliquées comme échantillons négatifs

Métriques d'Évaluation

Utilisation du coefficient de corrélation de Spearman, calculé via la boîte à outils SentEval, en utilisant le paramètre "all" pour assurer une comparaison équitable.

Méthodes de Comparaison

Modèles Non Supervisés

GloVe, BERT-flow, BERT-whitening, LLaMA2
Modèles d'apprentissage contrastif: IS-BERT, CT-BERT, SimCSE, ConSERT, DiffCSE

Modèles Supervisés

InferSent, USE, SBERT, CoSENT
Versions supervisées de SimCSE et ConSERT

Détails d'Implémentation

Modèle de base: BERT-base (110M paramètres)
Paramètre de température: τ=0,05 pour les objectifs cosinus et échantillons négatifs intra-batch, τ=1,0 pour l'objectif d'angle
Configuration des poids: Combinaison optimale déterminée par recherche en grille

Résultats Expérimentaux

Résultats Principaux

Tâches STS d'Apprentissage par Transfert

Entraînement sur l'ensemble de données NLI (MNLI+SNLI), transfert vers 7 repères STS:

AnglE-BERT: Score moyen de 82,37%, surpassant le SOTA précédent SimCSE-BERT (81,57%) de 0,80%
AnglE-LLaMA2-7B: Score moyen de 85,96%, surpassant SimCSE-LLaMA2-7B (85,24%) de 0,72%

Tâches STS Sans Apprentissage par Transfert

Entraînement sur l'ensemble d'entraînement de chaque ensemble de données, évaluation sur l'ensemble de test:

AnglE-BERT: Score moyen de 73,55%, surpassant SBERT (68,03%) de 5,52%
Surpasse les modèles de base sur les 5 ensembles de données
Avantage de texte long: AnglE-RAN surpasse AnglE-BERT sur l'ensemble de données GitHub Issues

Expériences d'Ablation

Variante du Modèle	Score STS-B
AnglE-BERT-all	86,26
- w/o ibn	86,00
- w/o angle	85,30
only cosine	85,28
only angle	85,15

Découvertes Clés:

L'optimisation d'angle est plus importante que les échantillons négatifs intra-batch (la suppression de l'optimisation d'angle entraîne une baisse plus importante)
Les performances utilisant uniquement l'optimisation d'angle sont proches de celles utilisant uniquement l'optimisation cosinus
La stratégie de pooling "cls" offre les meilleures performances

Expériences d'Apprentissage Supervisé par LLM

Utilisation de LLM (ChatGPT, LLaMA, ChatGLM) pour annoter les données pseudo-supervisées:

AnglE + ChatGPT: 81,52%
AnglE + Ensemble: 82,01%
Surpassent tous les deux les lignes de base d'apprentissage contrastif non supervisé (SimCSE: 76,85%)

Analyse de Cas

Tâche de Récupération de Texte

Précision stricte sur l'ensemble de données flickr30k:

AnglE: 12,9%
SimCSE (supervisé): 10,4%
SBERT: 5,2%

Analyse de la Distribution des Plongements

Analyse via graphique de densité de similarité cosinus de l'ensemble de test STS-B:

La distribution d'AnglE est plus proche de la distribution d'étiquettes réelles
Performances supérieures dans les régions de saturation cosinus (plages 0-1 et 4-5)
Prouve qu'AnglE atténue efficacement les effets négatifs des régions de saturation

Travaux Connexes

Méthodes Non Supervisées

Recherches Antérieures: Incorporations word2vec + n-gram
Améliorations BERT: BERT-flow (méthode de flux), BERT-whitening (opération de blanchiment)
Apprentissage Contrastif: SimCSE, ConSERT, DiffCSE, etc., utilisant des objectifs contrastifs pour améliorer les plongements de texte

Méthodes Supervisées

Utilisation de NLI: InferSent utilisant les tâches d'inférence en langage naturel
Innovations Architecturales: SBERT combinant BERT et l'architecture siamoise
Ingénierie des Invites: Recherches récentes utilisant l'ingénierie des invites pour améliorer les plongements de texte

Positionnement de cet Article

La plupart des méthodes existantes optimisent la similarité cosinus mais ignorent les effets négatifs des régions de saturation de la fonction cosinus. Cet article est le premier travail abordant systématiquement ce problème.

Conclusions et Discussion

Conclusions Principales

Problème des Régions de Saturation: Les régions de saturation de la fonction cosinus entravent effectivement l'optimisation des modèles de plongement de texte
Efficacité de l'Optimisation d'Angle: L'optimisation d'angle dans l'espace complexe atténue efficacement le problème des régions de saturation
Amélioration Complète des Performances: AnglE atteint des performances SOTA sur les tâches STS de texte court, texte long et spécifiques à un domaine
Synergie avec LLM: La combinaison d'AnglE avec les données annotées par LLM offre de nouvelles perspectives pour l'adaptation de domaine

Limitations

Complexité Computationnelle: Les calculs dans l'espace complexe augmentent les frais de calcul du modèle
Sensibilité aux Hyperparamètres: Les poids des trois fonctions objectif nécessitent un ajustement minutieux
Analyse Théorique Insuffisante: Manque d'analyse théorique de la convergence de l'optimisation d'angle
Portée d'Évaluation: Évaluation principalement sur des ensembles de données en anglais, performances multilingues inconnues

Directions Futures

Explorer les performances d'AnglE dans les scénarios d'application réels
Fournir une analyse théorique et des perspectives plus approfondies
Étendre aux paramètres multilingues et cross-lingues
Optimiser l'efficacité computationnelle

Évaluation Approfondie

Avantages

Identification Précise du Problème: Identification précise des régions de saturation de la fonction cosinus, un problème négligé mais important
Solution Innovante: L'approche d'optimisation d'angle dans l'espace complexe est novatrice et efficace
Expériences Complètes: Couvre plusieurs scénarios incluant texte court, texte long, apprentissage par transfert
Contribution d'Ensemble de Données: L'ensemble de données GitHub Issues comble le vide dans l'évaluation STS de texte long
Valeur Pratique: La méthode d'apprentissage supervisé par LLM possède une forte valeur d'application pratique

Insuffisances

Fondations Théoriques Faibles: Manque d'analyse théorique approfondie sur pourquoi l'optimisation d'angle résout le problème des régions de saturation
Frais de Calcul: Les opérations complexes augmentent les coûts de formation et d'inférence
Complexité des Hyperparamètres: L'équilibre des poids des trois fonctions de perte nécessite un ajustement extensif
Comparaisons Insuffisantes: Les comparaisons avec certaines méthodes récentes de plongement de texte ne sont pas suffisamment complètes
Généralisation à Vérifier: La capacité de généralisation sur plus de domaines et de langues nécessite une vérification supplémentaire

Impact

Contribution Académique: Offre une nouvelle perspective et une nouvelle méthode pour l'optimisation des plongements de texte
Valeur Pratique: Démontre des avantages évidents dans les tâches STS pratiques
Signification Inspirante: Peut inspirer davantage de recherches sur la conception des fonctions objectif d'optimisation
Reproductibilité: Code open-source, facilitant la reproduction et la recherche ultérieure

Scénarios d'Application

Calcul de Similarité Sémantique: Directement applicable aux diverses tâches de similarité textuelle sémantique
Récupération d'Informations: Utilisable pour la récupération de documents et la recommandation de documents similaires
Systèmes de Questions-Réponses: Applicable aux systèmes de questions-réponses basés sur la récupération
Clustering de Texte: Utilisable pour le clustering de documents et la découverte de sujets
Applications LLM: Convient comme composant d'incorporation dans les applications de modèles de langage volumineux

Évaluation Globale: Cet article est un travail de recherche de haute qualité qui identifie avec précision les problèmes clés des méthodes existantes et propose une solution innovante. Bien qu'il y ait de la place pour l'amélioration dans l'analyse théorique, les améliorations cohérentes dans plusieurs configurations expérimentales prouvent l'efficacité de la méthode. Ce travail possède une valeur académique et pratique importante pour le domaine des plongements de texte.