2025-11-18T13:10:21.183335

AnglE-optimized Text Embeddings

Li, Li

High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.

academic

AnglE-optimierte Texteinbettungen

Grundinformationen

Papier-ID: 2309.12871
Titel: AnglE-optimized Text Embeddings
Autoren: Xianming Li, Jing Li (Fachbereich Informatik, Hongkong Polytechnic University)
Klassifizierung: cs.CL cs.AI cs.LG
Veröffentlichungszeitpunkt/Konferenz: ACL 2024 (Konferenzversionstitel: AoE: Angle-optimized Embeddings for Semantic Textual Similarity)
Papierlink: https://arxiv.org/abs/2309.12871

Zusammenfassung

Hochwertige Texteinbettungen sind entscheidend für die Verbesserung von Aufgaben zur semantischen Textähnlichkeit (STS), die eine Kernkomponente von Anwendungen großer Sprachmodelle darstellen. Ein häufiges Problem bei bestehenden Texteinbettungsmodellen ist jedoch das Vanishing-Gradient-Problem, das hauptsächlich dadurch verursacht wird, dass sie sich bei Optimierungszielen auf die Kosinusfunktion verlassen, die Sättigungsbereiche aufweist. Um dieses Problem zu lösen, wird in diesem Papier ein neuartiges winkeloptimiertes Texteinbettungsmodell namens AnglE vorgestellt. Die Kernidee von AnglE besteht darin, die Winkeloptimierung im komplexen Raum einzuführen. Dieser neue Ansatz lindert wirksam die negativen Auswirkungen der Sättigungsbereiche der Kosinusfunktion, die Gradienten blockieren und den Optimierungsprozess behindern. Um eine umfassende STS-Bewertung zu etablieren, führen die Autoren Experimente sowohl auf bestehenden Kurztexte-STS-Datensätzen als auch auf einem neu gesammelten GitHub-Issues-Langtext-STS-Datensatz durch. Darüber hinaus werden domänenspezifische STS-Szenarien mit begrenzten annotierten Daten untersucht sowie die Verwendung von AnglE mit von LLM annotierten Daten.

Forschungshintergrund und Motivation

Problemdefinition

Texteinbettungsmodelle weisen bei Aufgaben zur semantischen Textähnlichkeit allgemein ein Vanishing-Gradient-Problem auf, das hauptsächlich aus den Sättigungsbereichen der in Optimierungszielen weit verbreiteten Kosinusfunktion herrührt.

Bedeutung des Problems

LLM-Anwendungsanforderungen: Hochwertige Texteinbettungen bilden die Grundlage für Anwendungen großer Sprachmodelle wie ChatGPT und LLaMA, insbesondere in der Vektorsuche und in Frage-Antwort-Systemen
Optimierungsschwierigkeiten: Die Sättigungsbereiche der Kosinusfunktion führen dazu, dass Gradienten nahe Null sind, was es dem Netzwerk schwer macht, subtile Unterschiede zwischen Texten zu lernen
Datenkennzeichnungsprobleme: Viele STS-Datensätze (wie MRPC, QQP) bieten binäre Kennzeichnungen (0 für unähnlich, 1 für ähnlich), die natürlicherweise in den Sättigungsbereichen der Kosinusfunktion liegen

Einschränkungen bestehender Methoden

Unüberwachte Methoden: Kontrastive Lernmodelle wie SimCSE verlassen sich auf Datenerweiterung zur Generierung positiver Stichproben und können die Korrektheit von Negativstichproben innerhalb von Batches nicht garantieren
Überwachte Methoden: Die meisten Methoden optimieren nur die Kosinusähnlichkeit und ignorieren die negativen Auswirkungen der Sättigungsbereiche der Kosinusfunktion
Bewertungseinschränkungen: Bestehende STS-Benchmarks konzentrieren sich hauptsächlich auf Kurztexte und es fehlen Bewertungsdatensätze für Langtexte

Kernbeiträge

Vorstellung des AnglE-Modells: Erste systematische Untersuchung der negativen Auswirkungen der Sättigungsbereiche der Kosinusfunktion auf STS-Aufgaben und Vorschlag eines winkeloptimiertes Texteinbettungsmodells
Konstruktion eines Langtext-Datensatzes: Sammlung eines Langtext-STS-Datensatzes mit etwa 21.000 Stichproben aus GitHub Issues, was die Lücke bei der Bewertung von Langtext-STS schließt
Signifikante Leistungsverbesserung: Übertreffung bestehender SOTA-Modelle bei Kurztexte-, Langtext- und domänenspezifischen STS-Aufgaben
LLM-überwachtes Lernen: Vorschlag einer überwachten Lernmethode unter Verwendung von LLM als Datenannotatoren zur Lösung des Problems der Knappheit von Domänenannotationsdaten

Methodische Details

Aufgabendefinition

Gegeben zwei Textsequenzen, erlernen Sie ihre Vektordarstellungen so, dass semantisch ähnliche Textpaare im Vektorraum näher beieinander liegen und semantisch unähnliche Textpaare weiter auseinander liegen.

Modellarchitektur

1. Eingabeschicht

Padding der Eingabesätze, um eine einheitliche Länge l zu gewährleisten
Abbildung jedes Wortes auf einen d-dimensionalen kontinuierlichen Raum zur Erlangung von Worteinbettungen $e_i \in \mathbb{R}^d$
Verkettung von Worteinbettungen zur Bildung der Modelleingabe: $E = [e_1, e_2, ..., e_l] \in \mathbb{R}^{l \times d}$
Erlangung von kontextabhängigen Darstellungen X durch einen Encoder (BERT, RoBERTa, LLaMA usw.)

2. Kosinus-Zielfunktion

End-to-End-Optimierung der Kosinusähnlichkeit:

L_cos = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(cos(X_m,X_n)-cos(X_i,X_j))/τ})

3. Zielfunktion für Negativstichproben innerhalb von Batches

Nutzung überwachter positiver Stichproben, Identifikation doppelter Sätze innerhalb von Batches und deren Festlegung als positive Stichproben:

L_ibn = -Σ_b Σ_{i=1}^m log(e^{cos(X_{bi},X_{bi}^+)/τ} / Σ_{j=1}^N e^{cos(X_{bi},X_{bj}^+)/τ})

4. Winkel-Zielfunktion (Kerninnnovation)

Optimierung von Winkeldifferenzen im komplexen Raum zur Linderung des Sättigungsbereichsproblems der Kosinusfunktion:

Komplexe Darstellung:

$z = a + bi \in \mathbb{C}$ (wobei $a = X_i^{re}, b = X_i^{im}$ )
$w = c + di \in \mathbb{C}$ (wobei $c = X_j^{re}, d = X_j^{im}$ )

Komplexe Division:

z/w = (ac + bd) + (bc - ad)i / (c² + d²)

Normalisierte Winkeldifferenz:

Δθ_{zw} = abs([z/w × 1/γ]) = abs([(ac + bd) + (bc - ad)i] / √[(c² + d²)(a² + b²)])

Winkel-Optimierungsziel:

L_angle = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(Δθ_{ij}-Δθ_{mn})/τ})

5. Kombinierte Zielfunktion

L = w₁ × L_cos + w₂ × L_ibn + w₃ × L_angle

Technische Innovationspunkte

Winkeloptimierung im komplexen Raum: Erstmalige Einführung der Winkeloptimierung im komplexen Raum in Texteinbettungen, die das Sättigungsbereichsproblem der Kosinusfunktion wirksam löst
Kombiniertes Multi-Ziel-Training: Kombination von Kosinusähnlichkeit, Negativstichproben innerhalb von Batches und Winkeloptimierung
Linderung des Sättigungsbereichs: Selbst in Sättigungsbereichen, in denen sich der Kosinuswert kaum ändert (Δy≈0), sind Winkeldifferenzen im komplexen Raum immer noch deutlich und können zur Optimierung verwendet werden

Experimentelle Einrichtung

Datensätze

Bestehende STS-Benchmarks

Kurztexte-Datensätze: MRPC, QQP, QNLI, STS 2012-2016, SICK-R, STS-B
Bewertungsmethode: Sowohl Transferlern- als auch Nicht-Transferlern-Einstellungen

GitHub-Issues-Ähnlichkeitsdatensatz (neuer Beitrag)

Quelle: GitHub Issues aus 55 beliebten Open-Source-Projekten
Umfang: Trainingssatz 18.565 Paare, Validierungssatz 1.547 Paare, Testsatz 1.548 Paare
Merkmale: Über 60% sind Langtexte (Token-Länge > 512)
Kennzeichnungen: Doppelte Issues als positive Stichproben, nicht-doppelte Issues als negative Stichproben

Bewertungsmetriken

Verwendung des Spearman-Korrelationskoeffizienten, berechnet durch das SentEval-Toolkit mit der "all"-Einstellung zur Gewährleistung eines fairen Vergleichs.

Vergleichsmethoden

Unüberwachte Modelle

GloVe, BERT-flow, BERT-whitening, LLaMA2
Kontrastive Lernmodelle: IS-BERT, CT-BERT, SimCSE, ConSERT, DiffCSE

Überwachte Modelle

InferSent, USE, SBERT, CoSENT
Überwachte Versionen von SimCSE und ConSERT

Implementierungsdetails

Backbone-Modell: BERT-base (110M Parameter)
Temperaturparameter: τ=0,05 für Kosinus- und Batch-Negativstichproben-Ziele, τ=1,0 für Winkel-Ziel
Gewichtungseinstellung: Optimale Kombinationen durch Gittersuche bestimmt

Experimentelle Ergebnisse

Hauptergebnisse

Transferlern-STS-Aufgaben

Training auf NLI-Datensätzen (MNLI+SNLI), Transfer zu 7 STS-Benchmarks:

AnglE-BERT: Durchschnittliche Punktzahl 82,37%, Verbesserung von 0,80% gegenüber dem bisherigen SOTA SimCSE-BERT (81,57%)
AnglE-LLaMA2-7B: Durchschnittliche Punktzahl 85,96%, Verbesserung von 0,72% gegenüber SimCSE-LLaMA2-7B (85,24%)

Nicht-Transferlern-STS-Aufgaben

Training auf Trainingssätzen einzelner Datensätze, Bewertung auf Testsätzen:

AnglE-BERT: Durchschnittliche Punktzahl 73,55%, Verbesserung von 5,52% gegenüber SBERT (68,03%)
Übertreffung von Baseline-Modellen auf allen 5 Datensätzen
Langtext-Vorteil: AnglE-RAN übertreffend AnglE-BERT auf dem GitHub-Issues-Datensatz

Ablationsstudien

Modellvariante	STS-B-Punktzahl
AnglE-BERT-all	86,26
- ohne ibn	86,00
- ohne angle	85,30
nur cosine	85,28
nur angle	85,15

Wichtige Erkenntnisse:

Winkeloptimierung ist wichtiger als Negativstichproben innerhalb von Batches (größerer Rückgang bei Entfernung der Winkeloptimierung)
Die Leistung bei ausschließlicher Verwendung der Winkeloptimierung ist ähnlich wie bei ausschließlicher Verwendung der Kosinusoptimierung
Die "cls"-Pooling-Strategie zeigt die beste Leistung

LLM-überwachte Lernexperimente

Verwendung von LLM (ChatGPT, LLaMA, ChatGLM) zur Annotation von Pseudo-Überwachungsdaten:

AnglE + ChatGPT: 81,52%
AnglE + Ensemble: 82,01%
Beide übertreffend unüberwachte Kontrastlern-Baselines (SimCSE: 76,85%)

Fallstudienanalyse

Textabruf-Aufgabe

Strenge Genauigkeit auf dem flickr30k-Datensatz:

AnglE: 12,9%
SimCSE (überwacht): 10,4%
SBERT: 5,2%

Analyse der Einbettungsverteilung

Durch Dichtediagramme der Kosinusähnlichkeit des STS-B-Testsatzes:

Die Verteilung von AnglE entspricht besser der echten Kennzeichnungsverteilung
Bessere Leistung in Sättigungsbereichen der Kosinusfunktion (0-1 und 4-5 Bereich)
Beweist, dass AnglE die negativen Auswirkungen des Sättigungsbereichs wirksam lindert

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Sättigungsbereichsproblem: Die Sättigungsbereiche der Kosinusfunktion behindern tatsächlich die Optimierung von Texteinbettungsmodellen
Winkeloptimierung ist wirksam: Die Winkeloptimierung im komplexen Raum kann die Sättigungsbereichsprobleme wirksam lindern
Umfassende Leistungsverbesserung: AnglE erreicht SOTA-Leistung bei Kurztexte-, Langtext- und domänenspezifischen STS-Aufgaben
LLM-Zusammenarbeit: Die Kombination von AnglE mit von LLM annotierten Daten bietet neue Perspektiven für Domänenanpassung

Einschränkungen

Rechenkomplexität: Komplexe Raumberechnungen erhöhen den Rechenaufwand des Modells
Hyperparameter-Empfindlichkeit: Die Gewichte der drei Zielfunktionen erfordern sorgfältige Abstimmung
Unzureichende theoretische Analyse: Mangel an theoretischer Konvergenzanalyse der Winkeloptimierung
Bewertungsumfang: Hauptsächlich auf englischen Datensätzen bewertet, mehrsprachige Leistung unbekannt

Zukünftige Richtungen

Erforschung der Leistung von AnglE in praktischen Anwendungsszenarien
Bereitstellung tieferer theoretischer Analyse und Erkenntnisse
Erweiterung auf mehrsprachige und sprachübergreifende Einstellungen
Optimierung der Recheneffizienz

Tiefgreifende Bewertung

Stärken

Genaue Problemidentifikation: Genaue Identifikation des Sättigungsbereichsproblems der Kosinusfunktion, das übersehen, aber wichtig ist
Innovative Lösungsansätze: Der Ansatz der Winkeloptimierung im komplexen Raum ist neuartig und wirksam
Umfassende Experimente: Abdeckung von Kurztexten, Langtexten, Transferlernen und anderen Szenarien
Datensatzbeitrag: Der GitHub-Issues-Datensatz schließt die Lücke bei der Bewertung von Langtext-STS
Praktischer Wert: Die LLM-überwachte Lernmethode hat starken praktischen Anwendungswert

Mängel

Schwache theoretische Grundlagen: Mangel an tiefgreifender theoretischer Analyse, warum Winkeloptimierung Sättigungsbereichsprobleme lösen kann
Rechenlast: Komplexe Operationen erhöhen die Trainings- und Inferenzkosten
Hyperparameter-Komplexität: Die Gewichtsausgleichung der drei Verlustfunktionen erfordert umfangreiche Abstimmung
Unzureichender Vergleich: Vergleich mit einigen neuesten Texteinbettungsmethoden nicht umfassend genug
Generalisierbarkeit zu validieren: Die Generalisierungsfähigkeit auf mehr Domänen und Sprachen muss weiter überprüft werden

Einfluss

Akademischer Beitrag: Bietet neue Perspektiven und Methoden für die Texteinbettungsoptimierung
Praktischer Wert: Zeigt deutliche Vorteile bei praktischen STS-Aufgaben
Inspirationswert: Kann mehr Forschung zur Gestaltung von Optimierungszielfunktionen inspirieren
Reproduzierbarkeit: Open-Source-Code erleichtert Reproduktion und weitere Forschung

Anwendungsszenarien

Semantische Ähnlichkeitsberechnung: Direkt anwendbar auf verschiedene Aufgaben zur semantischen Textähnlichkeit
Informationsabruf: Kann für Dokumentabruf und ähnliche Dokumentempfehlungen verwendet werden
Frage-Antwort-Systeme: Geeignet für abrufbasierte Frage-Antwort-Systeme
Textclustering: Kann für Dokumentclustering und Themenerkennung verwendet werden
LLM-Anwendungen: Geeignet als Einbettungskomponente in LLM-Anwendungen

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das Schlüsselprobleme bestehender Methoden genau identifiziert und innovative Lösungen vorschlägt. Obwohl es noch Raum für Verbesserungen in der theoretischen Analyse gibt, beweisen die konsistenten Verbesserungen über mehrere experimentelle Einstellungen hinweg die Wirksamkeit der Methode. Diese Arbeit hat wichtigen akademischen und praktischen Wert für das Feld der Texteinbettungen.