2025-11-18T13:10:21.183335

AnglE-optimized Text Embeddings

Li, Li
High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
academic

AnglE-optimierte Texteinbettungen

Grundinformationen

  • Papier-ID: 2309.12871
  • Titel: AnglE-optimized Text Embeddings
  • Autoren: Xianming Li, Jing Li (Fachbereich Informatik, Hongkong Polytechnic University)
  • Klassifizierung: cs.CL cs.AI cs.LG
  • Veröffentlichungszeitpunkt/Konferenz: ACL 2024 (Konferenzversionstitel: AoE: Angle-optimized Embeddings for Semantic Textual Similarity)
  • Papierlink: https://arxiv.org/abs/2309.12871

Zusammenfassung

Hochwertige Texteinbettungen sind entscheidend für die Verbesserung von Aufgaben zur semantischen Textähnlichkeit (STS), die eine Kernkomponente von Anwendungen großer Sprachmodelle darstellen. Ein häufiges Problem bei bestehenden Texteinbettungsmodellen ist jedoch das Vanishing-Gradient-Problem, das hauptsächlich dadurch verursacht wird, dass sie sich bei Optimierungszielen auf die Kosinusfunktion verlassen, die Sättigungsbereiche aufweist. Um dieses Problem zu lösen, wird in diesem Papier ein neuartiges winkeloptimiertes Texteinbettungsmodell namens AnglE vorgestellt. Die Kernidee von AnglE besteht darin, die Winkeloptimierung im komplexen Raum einzuführen. Dieser neue Ansatz lindert wirksam die negativen Auswirkungen der Sättigungsbereiche der Kosinusfunktion, die Gradienten blockieren und den Optimierungsprozess behindern. Um eine umfassende STS-Bewertung zu etablieren, führen die Autoren Experimente sowohl auf bestehenden Kurztexte-STS-Datensätzen als auch auf einem neu gesammelten GitHub-Issues-Langtext-STS-Datensatz durch. Darüber hinaus werden domänenspezifische STS-Szenarien mit begrenzten annotierten Daten untersucht sowie die Verwendung von AnglE mit von LLM annotierten Daten.

Forschungshintergrund und Motivation

Problemdefinition

Texteinbettungsmodelle weisen bei Aufgaben zur semantischen Textähnlichkeit allgemein ein Vanishing-Gradient-Problem auf, das hauptsächlich aus den Sättigungsbereichen der in Optimierungszielen weit verbreiteten Kosinusfunktion herrührt.

Bedeutung des Problems

  1. LLM-Anwendungsanforderungen: Hochwertige Texteinbettungen bilden die Grundlage für Anwendungen großer Sprachmodelle wie ChatGPT und LLaMA, insbesondere in der Vektorsuche und in Frage-Antwort-Systemen
  2. Optimierungsschwierigkeiten: Die Sättigungsbereiche der Kosinusfunktion führen dazu, dass Gradienten nahe Null sind, was es dem Netzwerk schwer macht, subtile Unterschiede zwischen Texten zu lernen
  3. Datenkennzeichnungsprobleme: Viele STS-Datensätze (wie MRPC, QQP) bieten binäre Kennzeichnungen (0 für unähnlich, 1 für ähnlich), die natürlicherweise in den Sättigungsbereichen der Kosinusfunktion liegen

Einschränkungen bestehender Methoden

  1. Unüberwachte Methoden: Kontrastive Lernmodelle wie SimCSE verlassen sich auf Datenerweiterung zur Generierung positiver Stichproben und können die Korrektheit von Negativstichproben innerhalb von Batches nicht garantieren
  2. Überwachte Methoden: Die meisten Methoden optimieren nur die Kosinusähnlichkeit und ignorieren die negativen Auswirkungen der Sättigungsbereiche der Kosinusfunktion
  3. Bewertungseinschränkungen: Bestehende STS-Benchmarks konzentrieren sich hauptsächlich auf Kurztexte und es fehlen Bewertungsdatensätze für Langtexte

Kernbeiträge

  1. Vorstellung des AnglE-Modells: Erste systematische Untersuchung der negativen Auswirkungen der Sättigungsbereiche der Kosinusfunktion auf STS-Aufgaben und Vorschlag eines winkeloptimiertes Texteinbettungsmodells
  2. Konstruktion eines Langtext-Datensatzes: Sammlung eines Langtext-STS-Datensatzes mit etwa 21.000 Stichproben aus GitHub Issues, was die Lücke bei der Bewertung von Langtext-STS schließt
  3. Signifikante Leistungsverbesserung: Übertreffung bestehender SOTA-Modelle bei Kurztexte-, Langtext- und domänenspezifischen STS-Aufgaben
  4. LLM-überwachtes Lernen: Vorschlag einer überwachten Lernmethode unter Verwendung von LLM als Datenannotatoren zur Lösung des Problems der Knappheit von Domänenannotationsdaten

Methodische Details

Aufgabendefinition

Gegeben zwei Textsequenzen, erlernen Sie ihre Vektordarstellungen so, dass semantisch ähnliche Textpaare im Vektorraum näher beieinander liegen und semantisch unähnliche Textpaare weiter auseinander liegen.

Modellarchitektur

1. Eingabeschicht

  • Padding der Eingabesätze, um eine einheitliche Länge l zu gewährleisten
  • Abbildung jedes Wortes auf einen d-dimensionalen kontinuierlichen Raum zur Erlangung von Worteinbettungen eiRde_i \in \mathbb{R}^d
  • Verkettung von Worteinbettungen zur Bildung der Modelleingabe: E=[e1,e2,...,el]Rl×dE = [e_1, e_2, ..., e_l] \in \mathbb{R}^{l \times d}
  • Erlangung von kontextabhängigen Darstellungen X durch einen Encoder (BERT, RoBERTa, LLaMA usw.)

2. Kosinus-Zielfunktion

End-to-End-Optimierung der Kosinusähnlichkeit:

L_cos = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(cos(X_m,X_n)-cos(X_i,X_j))/τ})

3. Zielfunktion für Negativstichproben innerhalb von Batches

Nutzung überwachter positiver Stichproben, Identifikation doppelter Sätze innerhalb von Batches und deren Festlegung als positive Stichproben:

L_ibn = -Σ_b Σ_{i=1}^m log(e^{cos(X_{bi},X_{bi}^+)/τ} / Σ_{j=1}^N e^{cos(X_{bi},X_{bj}^+)/τ})

4. Winkel-Zielfunktion (Kerninnnovation)

Optimierung von Winkeldifferenzen im komplexen Raum zur Linderung des Sättigungsbereichsproblems der Kosinusfunktion:

Komplexe Darstellung:

  • z=a+biCz = a + bi \in \mathbb{C} (wobei a=Xire,b=Xiima = X_i^{re}, b = X_i^{im})
  • w=c+diCw = c + di \in \mathbb{C} (wobei c=Xjre,d=Xjimc = X_j^{re}, d = X_j^{im})

Komplexe Division:

z/w = (ac + bd) + (bc - ad)i / (c² + d²)

Normalisierte Winkeldifferenz:

Δθ_{zw} = abs([z/w × 1/γ]) = abs([(ac + bd) + (bc - ad)i] / √[(c² + d²)(a² + b²)])

Winkel-Optimierungsziel:

L_angle = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(Δθ_{ij}-Δθ_{mn})/τ})

5. Kombinierte Zielfunktion

L = w₁ × L_cos + w₂ × L_ibn + w₃ × L_angle

Technische Innovationspunkte

  1. Winkeloptimierung im komplexen Raum: Erstmalige Einführung der Winkeloptimierung im komplexen Raum in Texteinbettungen, die das Sättigungsbereichsproblem der Kosinusfunktion wirksam löst
  2. Kombiniertes Multi-Ziel-Training: Kombination von Kosinusähnlichkeit, Negativstichproben innerhalb von Batches und Winkeloptimierung
  3. Linderung des Sättigungsbereichs: Selbst in Sättigungsbereichen, in denen sich der Kosinuswert kaum ändert (Δy≈0), sind Winkeldifferenzen im komplexen Raum immer noch deutlich und können zur Optimierung verwendet werden

Experimentelle Einrichtung

Datensätze

Bestehende STS-Benchmarks

  • Kurztexte-Datensätze: MRPC, QQP, QNLI, STS 2012-2016, SICK-R, STS-B
  • Bewertungsmethode: Sowohl Transferlern- als auch Nicht-Transferlern-Einstellungen

GitHub-Issues-Ähnlichkeitsdatensatz (neuer Beitrag)

  • Quelle: GitHub Issues aus 55 beliebten Open-Source-Projekten
  • Umfang: Trainingssatz 18.565 Paare, Validierungssatz 1.547 Paare, Testsatz 1.548 Paare
  • Merkmale: Über 60% sind Langtexte (Token-Länge > 512)
  • Kennzeichnungen: Doppelte Issues als positive Stichproben, nicht-doppelte Issues als negative Stichproben

Bewertungsmetriken

Verwendung des Spearman-Korrelationskoeffizienten, berechnet durch das SentEval-Toolkit mit der "all"-Einstellung zur Gewährleistung eines fairen Vergleichs.

Vergleichsmethoden

Unüberwachte Modelle

  • GloVe, BERT-flow, BERT-whitening, LLaMA2
  • Kontrastive Lernmodelle: IS-BERT, CT-BERT, SimCSE, ConSERT, DiffCSE

Überwachte Modelle

  • InferSent, USE, SBERT, CoSENT
  • Überwachte Versionen von SimCSE und ConSERT

Implementierungsdetails

  • Backbone-Modell: BERT-base (110M Parameter)
  • Temperaturparameter: τ=0,05 für Kosinus- und Batch-Negativstichproben-Ziele, τ=1,0 für Winkel-Ziel
  • Gewichtungseinstellung: Optimale Kombinationen durch Gittersuche bestimmt

Experimentelle Ergebnisse

Hauptergebnisse

Transferlern-STS-Aufgaben

Training auf NLI-Datensätzen (MNLI+SNLI), Transfer zu 7 STS-Benchmarks:

  • AnglE-BERT: Durchschnittliche Punktzahl 82,37%, Verbesserung von 0,80% gegenüber dem bisherigen SOTA SimCSE-BERT (81,57%)
  • AnglE-LLaMA2-7B: Durchschnittliche Punktzahl 85,96%, Verbesserung von 0,72% gegenüber SimCSE-LLaMA2-7B (85,24%)

Nicht-Transferlern-STS-Aufgaben

Training auf Trainingssätzen einzelner Datensätze, Bewertung auf Testsätzen:

  • AnglE-BERT: Durchschnittliche Punktzahl 73,55%, Verbesserung von 5,52% gegenüber SBERT (68,03%)
  • Übertreffung von Baseline-Modellen auf allen 5 Datensätzen
  • Langtext-Vorteil: AnglE-RAN übertreffend AnglE-BERT auf dem GitHub-Issues-Datensatz

Ablationsstudien

ModellvarianteSTS-B-Punktzahl
AnglE-BERT-all86,26
- ohne ibn86,00
- ohne angle85,30
nur cosine85,28
nur angle85,15

Wichtige Erkenntnisse:

  1. Winkeloptimierung ist wichtiger als Negativstichproben innerhalb von Batches (größerer Rückgang bei Entfernung der Winkeloptimierung)
  2. Die Leistung bei ausschließlicher Verwendung der Winkeloptimierung ist ähnlich wie bei ausschließlicher Verwendung der Kosinusoptimierung
  3. Die "cls"-Pooling-Strategie zeigt die beste Leistung

LLM-überwachte Lernexperimente

Verwendung von LLM (ChatGPT, LLaMA, ChatGLM) zur Annotation von Pseudo-Überwachungsdaten:

  • AnglE + ChatGPT: 81,52%
  • AnglE + Ensemble: 82,01%
  • Beide übertreffend unüberwachte Kontrastlern-Baselines (SimCSE: 76,85%)

Fallstudienanalyse

Textabruf-Aufgabe

Strenge Genauigkeit auf dem flickr30k-Datensatz:

  • AnglE: 12,9%
  • SimCSE (überwacht): 10,4%
  • SBERT: 5,2%

Analyse der Einbettungsverteilung

Durch Dichtediagramme der Kosinusähnlichkeit des STS-B-Testsatzes:

  • Die Verteilung von AnglE entspricht besser der echten Kennzeichnungsverteilung
  • Bessere Leistung in Sättigungsbereichen der Kosinusfunktion (0-1 und 4-5 Bereich)
  • Beweist, dass AnglE die negativen Auswirkungen des Sättigungsbereichs wirksam lindert

Verwandte Arbeiten

Unüberwachte Methoden

  • Frühe Forschung: word2vec + n-gram-Einbettungen
  • BERT-Verbesserungen: BERT-flow (Flussmethode), BERT-whitening (Whitening-Operation)
  • Kontrastives Lernen: SimCSE, ConSERT, DiffCSE usw. nutzen Kontrastziele zur Verbesserung von Texteinbettungen

Überwachte Methoden

  • NLI-Nutzung: InferSent nutzt Aufgaben zur natürlichen Sprachinferenz
  • Architektur-Innovation: SBERT kombiniert BERT und Siamese-Architektur
  • Prompt-Engineering: Neuere Forschung nutzt Prompt-Engineering zur Verbesserung von Texteinbettungen

Positionierung dieses Papiers

Die meisten bestehenden Methoden optimieren die Kosinusähnlichkeit, ignorieren aber die negativen Auswirkungen der Sättigungsbereiche der Kosinusfunktion. Dieses Papier ist die erste systematische Behandlung dieses Problems.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Sättigungsbereichsproblem: Die Sättigungsbereiche der Kosinusfunktion behindern tatsächlich die Optimierung von Texteinbettungsmodellen
  2. Winkeloptimierung ist wirksam: Die Winkeloptimierung im komplexen Raum kann die Sättigungsbereichsprobleme wirksam lindern
  3. Umfassende Leistungsverbesserung: AnglE erreicht SOTA-Leistung bei Kurztexte-, Langtext- und domänenspezifischen STS-Aufgaben
  4. LLM-Zusammenarbeit: Die Kombination von AnglE mit von LLM annotierten Daten bietet neue Perspektiven für Domänenanpassung

Einschränkungen

  1. Rechenkomplexität: Komplexe Raumberechnungen erhöhen den Rechenaufwand des Modells
  2. Hyperparameter-Empfindlichkeit: Die Gewichte der drei Zielfunktionen erfordern sorgfältige Abstimmung
  3. Unzureichende theoretische Analyse: Mangel an theoretischer Konvergenzanalyse der Winkeloptimierung
  4. Bewertungsumfang: Hauptsächlich auf englischen Datensätzen bewertet, mehrsprachige Leistung unbekannt

Zukünftige Richtungen

  • Erforschung der Leistung von AnglE in praktischen Anwendungsszenarien
  • Bereitstellung tieferer theoretischer Analyse und Erkenntnisse
  • Erweiterung auf mehrsprachige und sprachübergreifende Einstellungen
  • Optimierung der Recheneffizienz

Tiefgreifende Bewertung

Stärken

  1. Genaue Problemidentifikation: Genaue Identifikation des Sättigungsbereichsproblems der Kosinusfunktion, das übersehen, aber wichtig ist
  2. Innovative Lösungsansätze: Der Ansatz der Winkeloptimierung im komplexen Raum ist neuartig und wirksam
  3. Umfassende Experimente: Abdeckung von Kurztexten, Langtexten, Transferlernen und anderen Szenarien
  4. Datensatzbeitrag: Der GitHub-Issues-Datensatz schließt die Lücke bei der Bewertung von Langtext-STS
  5. Praktischer Wert: Die LLM-überwachte Lernmethode hat starken praktischen Anwendungswert

Mängel

  1. Schwache theoretische Grundlagen: Mangel an tiefgreifender theoretischer Analyse, warum Winkeloptimierung Sättigungsbereichsprobleme lösen kann
  2. Rechenlast: Komplexe Operationen erhöhen die Trainings- und Inferenzkosten
  3. Hyperparameter-Komplexität: Die Gewichtsausgleichung der drei Verlustfunktionen erfordert umfangreiche Abstimmung
  4. Unzureichender Vergleich: Vergleich mit einigen neuesten Texteinbettungsmethoden nicht umfassend genug
  5. Generalisierbarkeit zu validieren: Die Generalisierungsfähigkeit auf mehr Domänen und Sprachen muss weiter überprüft werden

Einfluss

  1. Akademischer Beitrag: Bietet neue Perspektiven und Methoden für die Texteinbettungsoptimierung
  2. Praktischer Wert: Zeigt deutliche Vorteile bei praktischen STS-Aufgaben
  3. Inspirationswert: Kann mehr Forschung zur Gestaltung von Optimierungszielfunktionen inspirieren
  4. Reproduzierbarkeit: Open-Source-Code erleichtert Reproduktion und weitere Forschung

Anwendungsszenarien

  1. Semantische Ähnlichkeitsberechnung: Direkt anwendbar auf verschiedene Aufgaben zur semantischen Textähnlichkeit
  2. Informationsabruf: Kann für Dokumentabruf und ähnliche Dokumentempfehlungen verwendet werden
  3. Frage-Antwort-Systeme: Geeignet für abrufbasierte Frage-Antwort-Systeme
  4. Textclustering: Kann für Dokumentclustering und Themenerkennung verwendet werden
  5. LLM-Anwendungen: Geeignet als Einbettungskomponente in LLM-Anwendungen

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das Schlüsselprobleme bestehender Methoden genau identifiziert und innovative Lösungen vorschlägt. Obwohl es noch Raum für Verbesserungen in der theoretischen Analyse gibt, beweisen die konsistenten Verbesserungen über mehrere experimentelle Einstellungen hinweg die Wirksamkeit der Methode. Diese Arbeit hat wichtigen akademischen und praktischen Wert für das Feld der Texteinbettungen.