2025-11-18T13:10:21.183335

AnglE-optimized Text Embeddings

Li, Li
High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
academic

Incorporamenti di Testo Ottimizzati con AnglE

Informazioni Fondamentali

  • ID Articolo: 2309.12871
  • Titolo: AnglE-optimized Text Embeddings
  • Autori: Xianming Li, Jing Li (Dipartimento di Informatica, Politecnico di Hong Kong)
  • Classificazione: cs.CL cs.AI cs.LG
  • Data di Pubblicazione/Conferenza: ACL 2024 (Titolo della versione conferenza: AoE: Angle-optimized Embeddings for Semantic Textual Similarity)
  • Link Articolo: https://arxiv.org/abs/2309.12871

Riassunto

Gli incorporamenti di testo di alta qualità sono cruciali per migliorare i compiti di somiglianza testuale semantica (STS), che rappresentano un componente fondamentale delle applicazioni di modelli linguistici di grandi dimensioni. Tuttavia, i modelli di incorporamento di testo esistenti affrontano una sfida comune: il problema della scomparsa del gradiente, principalmente dovuto alla loro dipendenza dalla funzione coseno negli obiettivi di ottimizzazione, che presenta regioni di saturazione. Per affrontare questo problema, il presente articolo propone un innovativo modello di incorporamento di testo ottimizzato per angoli denominato AnglE. L'idea centrale di AnglE consiste nell'introdurre l'ottimizzazione degli angoli nello spazio complesso. Questo nuovo approccio mitiga efficacemente gli effetti negativi delle regioni di saturazione della funzione coseno, che ostacolano i gradienti e impediscono il processo di ottimizzazione. Per stabilire una valutazione completa di STS, gli autori hanno condotto esperimenti su dataset STS di testo breve esistenti e su un nuovo dataset STS di testo lungo raccolto da GitHub Issues. Inoltre, sono stati esplorati scenari STS specifici del dominio con dati annotati limitati e come AnglE può essere utilizzato in combinazione con dati annotati da LLM.

Contesto di Ricerca e Motivazione

Definizione del Problema

I modelli di incorporamento di testo soffrono universalmente del problema della scomparsa del gradiente nei compiti di somiglianza testuale semantica, principalmente dovuto alle regioni di saturazione della funzione coseno ampiamente utilizzata negli obiettivi di ottimizzazione.

Importanza del Problema

  1. Esigenze delle Applicazioni LLM: Gli incorporamenti di testo di alta qualità costituiscono la base per le applicazioni di modelli linguistici di grandi dimensioni come ChatGPT e LLaMA, in particolare nella ricerca vettoriale e nei sistemi di domande e risposte
  2. Difficoltà di Ottimizzazione: Le regioni di saturazione della funzione coseno causano gradienti prossimi a zero, rendendo difficile per la rete imparare le sfumature tra i testi
  3. Problemi di Etichettatura dei Dati: Molti dataset STS (come MRPC e QQP) forniscono etichette binarie (0 per non simile, 1 per simile) che naturalmente ricadono nelle regioni di saturazione della funzione coseno

Limitazioni dei Metodi Esistenti

  1. Metodi Non Supervisionati: Modelli di apprendimento contrastivo come SimCSE dipendono dall'aumento dei dati per generare campioni positivi, rendendo difficile garantire la correttezza dei campioni negativi all'interno del batch
  2. Metodi Supervisionati: La maggior parte dei metodi ottimizza solo la somiglianza coseno, ignorando gli effetti negativi delle regioni di saturazione della funzione coseno
  3. Limitazioni di Valutazione: I benchmark STS esistenti si concentrano principalmente su testi brevi, mancando di dataset di valutazione per testi lunghi

Contributi Principali

  1. Propone il Modello AnglE: Primo studio sistematico degli effetti negativi delle regioni di saturazione della funzione coseno sui compiti STS, con proposta di un modello di incorporamento di testo ottimizzato per angoli
  2. Costruisce Dataset di Testo Lungo: Raccolta da GitHub Issues di un dataset STS di testo lungo contenente circa 21K campioni, colmando il vuoto nella valutazione STS di testo lungo
  3. Miglioramento Significativo delle Prestazioni: Supera i modelli SOTA esistenti su compiti STS di testo breve, testo lungo e specifici del dominio
  4. Apprendimento Supervisionato con LLM: Propone un metodo di apprendimento supervisionato utilizzando LLM come annotatore di dati, risolvendo il problema della scarsità di dati annotati nel dominio

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un paio di sequenze di testo, imparare le loro rappresentazioni vettoriali in modo che i testi semanticamente simili siano più vicini nello spazio vettoriale e i testi semanticamente dissimili siano più lontani.

Architettura del Modello

1. Strato di Input

  • Applicare padding alle sequenze di input per garantire una lunghezza coerente di l
  • Mappare ogni parola in uno spazio continuo d-dimensionale per ottenere l'incorporamento di parole eiRde_i \in \mathbb{R}^d
  • Concatenare gli incorporamenti di parole per formare l'input del modello: E=[e1,e2,...,el]Rl×dE = [e_1, e_2, ..., e_l] \in \mathbb{R}^{l \times d}
  • Ottenere rappresentazioni contestuali X attraverso un codificatore (BERT, RoBERTa, LLaMA, ecc.)

2. Funzione Obiettivo Coseno

Ottimizzazione end-to-end della somiglianza coseno:

L_cos = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(cos(X_m,X_n)-cos(X_i,X_j))/τ})

3. Funzione Obiettivo di Campioni Negativi all'Interno del Batch

Utilizzo di campioni positivi supervisionati, identificazione di frasi duplicate all'interno del batch e impostazione come campioni positivi:

L_ibn = -Σ_b Σ_{i=1}^m log(e^{cos(X_{bi},X_{bi}^+)/τ} / Σ_{j=1}^N e^{cos(X_{bi},X_{bj}^+)/τ})

4. Funzione Obiettivo degli Angoli (Innovazione Principale)

Ottimizzazione della differenza angolare nello spazio complesso per mitigare il problema della saturazione della funzione coseno:

Rappresentazione Complessa:

  • z=a+biCz = a + bi \in \mathbb{C} (dove a=Xire,b=Xiima = X_i^{re}, b = X_i^{im})
  • w=c+diCw = c + di \in \mathbb{C} (dove c=Xjre,d=Xjimc = X_j^{re}, d = X_j^{im})

Divisione Complessa:

z/w = (ac + bd) + (bc - ad)i / (c² + d²)

Differenza Angolare Normalizzata:

Δθ_{zw} = abs([z/w × 1/γ]) = abs([(ac + bd) + (bc - ad)i] / √[(c² + d²)(a² + b²)])

Obiettivo di Ottimizzazione degli Angoli:

L_angle = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(Δθ_{ij}-Δθ_{mn})/τ})

5. Funzione Obiettivo Congiunta

L = w₁ × L_cos + w₂ × L_ibn + w₃ × L_angle

Punti di Innovazione Tecnica

  1. Ottimizzazione degli Angoli nello Spazio Complesso: Prima introduzione dell'ottimizzazione degli angoli nello spazio complesso negli incorporamenti di testo, risolvendo efficacemente il problema della saturazione della funzione coseno
  2. Addestramento Multi-Obiettivo Congiunto: Combinazione di tre obiettivi: somiglianza coseno, campioni negativi all'interno del batch e ottimizzazione degli angoli
  3. Mitigazione della Regione di Saturazione: Anche nelle regioni di saturazione dove la variazione del coseno è minima (Δy≈0), la differenza angolare nello spazio complesso rimane evidente e può essere utilizzata per l'ottimizzazione

Configurazione Sperimentale

Dataset

Benchmark STS Esistenti

  • Dataset di Testo Breve: MRPC, QQP, QNLI, STS 2012-2016, SICK-R, STS-B
  • Modalità di Valutazione: Impostazioni di apprendimento per trasferimento e non per trasferimento

Dataset di Somiglianza GitHub Issues (Nuovo Contributo)

  • Fonte: GitHub Issues da 55 progetti open-source popolari
  • Scala: 18.565 coppie nel set di addestramento, 1.547 nel set di validazione, 1.548 nel set di test
  • Caratteristiche: Oltre il 60% sono testi lunghi (lunghezza token > 512)
  • Etichette: Issues duplicate come campioni positivi, issues non duplicate come campioni negativi

Metriche di Valutazione

Utilizzo del coefficiente di correlazione di Spearman, calcolato tramite il toolkit SentEval, con impostazione "all" per garantire un confronto equo.

Metodi di Confronto

Modelli Non Supervisionati

  • GloVe, BERT-flow, BERT-whitening, LLaMA2
  • Modelli di apprendimento contrastivo: IS-BERT, CT-BERT, SimCSE, ConSERT, DiffCSE

Modelli Supervisionati

  • InferSent, USE, SBERT, CoSENT
  • Versioni supervisionate di SimCSE e ConSERT

Dettagli di Implementazione

  • Modello backbone: BERT-base (110M parametri)
  • Parametro di temperatura: τ=0.05 per obiettivi coseno e campioni negativi all'interno del batch, τ=1.0 per obiettivo angolare
  • Impostazione dei pesi: Combinazione ottimale determinata tramite ricerca in griglia

Risultati Sperimentali

Risultati Principali

Compiti STS per Trasferimento

Addestramento su dataset NLI (MNLI+SNLI), trasferimento a 7 benchmark STS:

  • AnglE-BERT: Punteggio medio 82,37%, miglioramento di 0,80% rispetto al precedente SOTA SimCSE-BERT (81,57%)
  • AnglE-LLaMA2-7B: Punteggio medio 85,96%, miglioramento di 0,72% rispetto a SimCSE-LLaMA2-7B (85,24%)

Compiti STS Non per Trasferimento

Addestramento sul set di addestramento di ciascun dataset, valutazione sul set di test:

  • AnglE-BERT: Punteggio medio 73,55%, miglioramento di 5,52% rispetto a SBERT (68,03%)
  • Supera i modelli baseline su tutti e 5 i dataset
  • Vantaggio su Testo Lungo: AnglE-RAN supera AnglE-BERT sul dataset GitHub Issues

Esperimenti di Ablazione

Variante del ModelloPunteggio STS-B
AnglE-BERT-all86,26
- w/o ibn86,00
- w/o angle85,30
solo coseno85,28
solo angolo85,15

Scoperte Chiave:

  1. L'ottimizzazione degli angoli è più importante dei campioni negativi all'interno del batch (la rimozione dell'ottimizzazione degli angoli causa un calo maggiore)
  2. Le prestazioni utilizzando solo l'ottimizzazione degli angoli sono simili a quelle utilizzando solo l'ottimizzazione coseno
  3. La strategia di pooling "cls" mostra le migliori prestazioni

Esperimenti di Apprendimento Supervisionato con LLM

Utilizzo di LLM (ChatGPT, LLaMA, ChatGLM) per annotare dati pseudo-supervisionati:

  • AnglE + ChatGPT: 81,52%
  • AnglE + Ensemble: 82,01%
  • Entrambi superano il baseline di apprendimento contrastivo non supervisionato (SimCSE: 76,85%)

Analisi di Casi

Compito di Recupero di Testo

Accuratezza ristretta sul dataset flickr30k:

  • AnglE: 12,9%
  • SimCSE (supervisionato): 10,4%
  • SBERT: 5,2%

Analisi della Distribuzione degli Incorporamenti

Attraverso l'analisi del grafico di densità della somiglianza coseno del set di test STS-B:

  • La distribuzione di AnglE è più vicina alla distribuzione delle etichette reali
  • Prestazioni migliori nelle regioni di saturazione della funzione coseno (intervalli 0-1 e 4-5)
  • Dimostra che AnglE mitiga efficacemente gli effetti negativi della regione di saturazione

Lavori Correlati

Metodi Non Supervisionati

  • Ricerca Iniziale: Incorporamenti word2vec + n-gram
  • Miglioramenti BERT: BERT-flow (metodo di flusso), BERT-whitening (operazione di sbiancamento)
  • Apprendimento Contrastivo: SimCSE, ConSERT, DiffCSE e altri che utilizzano obiettivi contrastivi per migliorare gli incorporamenti di testo

Metodi Supervisionati

  • Utilizzo di NLI: InferSent utilizza compiti di inferenza del linguaggio naturale
  • Innovazione Architettonica: SBERT combina BERT e architettura siamese
  • Ingegneria dei Prompt: Ricerche recenti utilizzano l'ingegneria dei prompt per migliorare gli incorporamenti di testo

Posizionamento di Questo Articolo

La maggior parte dei metodi esistenti ottimizza la somiglianza coseno ma ignora gli effetti negativi delle regioni di saturazione della funzione coseno; questo articolo è il primo a affrontare sistematicamente questo problema.

Conclusioni e Discussione

Conclusioni Principali

  1. Problema della Regione di Saturazione: Le regioni di saturazione della funzione coseno ostacolano effettivamente l'ottimizzazione dei modelli di incorporamento di testo
  2. Efficacia dell'Ottimizzazione degli Angoli: L'ottimizzazione degli angoli nello spazio complesso mitiga efficacemente il problema della saturazione
  3. Miglioramento Completo delle Prestazioni: AnglE raggiunge prestazioni SOTA su compiti STS di testo breve, testo lungo e specifici del dominio
  4. Sinergia con LLM: La combinazione di AnglE con dati annotati da LLM fornisce nuovi approcci per l'adattamento al dominio

Limitazioni

  1. Complessità Computazionale: I calcoli nello spazio complesso aumentano il carico computazionale del modello
  2. Sensibilità ai Iperparametri: I pesi dei tre obiettivi di funzione richiedono un'attenta sintonizzazione
  3. Analisi Teorica Insufficiente: Manca un'analisi teorica della convergenza dell'ottimizzazione degli angoli
  4. Portata di Valutazione: La valutazione si concentra principalmente su dataset in lingua inglese; le prestazioni multilingue rimangono sconosciute

Direzioni Future

  • Esplorare le prestazioni di AnglE in scenari di applicazione pratica
  • Fornire analisi teoriche e intuizioni più approfondite
  • Estendere a impostazioni multilingue e cross-lingue
  • Ottimizzare l'efficienza computazionale

Valutazione Approfondita

Punti di Forza

  1. Identificazione Accurata del Problema: Identifica accuratamente il problema della regione di saturazione della funzione coseno, precedentemente trascurato ma importante
  2. Soluzione Innovativa: L'approccio dell'ottimizzazione degli angoli nello spazio complesso è innovativo ed efficace
  3. Esperimenti Completi: Copre molteplici scenari inclusi testo breve, testo lungo, apprendimento per trasferimento
  4. Contributo del Dataset: Il dataset GitHub Issues colma il vuoto nella valutazione STS di testo lungo
  5. Valore Pratico: Il metodo di apprendimento supervisionato con LLM ha un forte valore di applicazione pratica

Insufficienze

  1. Fondamenti Teorici Deboli: Manca un'analisi teorica approfondita del perché l'ottimizzazione degli angoli risolva il problema della saturazione
  2. Carico Computazionale: Le operazioni complesse aumentano i costi di addestramento e inferenza
  3. Complessità dei Iperparametri: L'equilibrio dei pesi delle tre funzioni di perdita richiede un'ampia sintonizzazione
  4. Confronto Insufficiente: Il confronto con alcuni metodi di incorporamento di testo più recenti non è sufficientemente completo
  5. Generalizzazione da Verificare: La capacità di generalizzazione su più domini e lingue richiede ulteriore verifica

Impatto

  1. Contributo Accademico: Fornisce una nuova prospettiva e metodo per l'ottimizzazione degli incorporamenti di testo
  2. Valore Pratico: Dimostra chiari vantaggi nei compiti STS pratici
  3. Significato Ispiratore: Può ispirare ulteriori ricerche sulla progettazione di funzioni obiettivo di ottimizzazione
  4. Riproducibilità: Il codice è open-source, facilitando la riproduzione e la ricerca ulteriore

Scenari Applicabili

  1. Calcolo della Somiglianza Semantica: Direttamente applicabile a vari compiti di somiglianza testuale semantica
  2. Recupero di Informazioni: Utilizzabile per il recupero di documenti e la raccomandazione di documenti simili
  3. Sistemi di Domande e Risposte: Adatto ai sistemi di domande e risposte basati su recupero
  4. Clustering di Testo: Utilizzabile per il clustering di documenti e la scoperta di argomenti
  5. Applicazioni LLM: Adatto come componente di incorporamento nelle applicazioni di modelli linguistici di grandi dimensioni

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che identifica accuratamente i problemi chiave dei metodi esistenti e propone una soluzione innovativa. Sebbene vi sia spazio per il miglioramento nell'analisi teorica, il miglioramento coerente in più impostazioni sperimentali dimostra l'efficacia del metodo. Questo lavoro ha un importante valore accademico e pratico per il campo degli incorporamenti di testo.