2025-11-18T13:10:21.183335

AnglE-optimized Text Embeddings

Li, Li
High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
academic

AnglE-अनुकूलित पाठ एम्बेडिंग

मूल जानकारी

  • पेपर ID: 2309.12871
  • शीर्षक: AnglE-अनुकूलित पाठ एम्बेडिंग
  • लेखक: Xianming Li, Jing Li (हांगकांग पॉलिटेक्निक विश्वविद्यालय, कंप्यूटिंग विभाग)
  • वर्गीकरण: cs.CL cs.AI cs.LG
  • प्रकाशन समय/सम्मेलन: ACL 2024 (सम्मेलन संस्करण शीर्षक: AoE: कोण-अनुकूलित एम्बेडिंग सिमेंटिक पाठ समानता के लिए)
  • पेपर लिंक: https://arxiv.org/abs/2309.12871

सारांश

उच्च गुणवत्ता वाली पाठ एम्बेडिंग सिमेंटिक पाठ समानता (STS) कार्यों में सुधार के लिए महत्वपूर्ण है, जो बड़े भाषा मॉडल अनुप्रयोगों का मूल घटक है। हालांकि, मौजूदा पाठ एम्बेडिंग मॉडल को एक सामान्य चुनौती का सामना करना पड़ता है - ग्रेडिएंट लुप्त होने की समस्या, जो मुख्य रूप से अनुकूलन उद्देश्य में कोसाइन फ़ंक्शन पर निर्भरता के कारण होती है, जिसमें संतृप्त क्षेत्र होते हैं। इस समस्या को हल करने के लिए, यह पेपर एक नोवल कोण-अनुकूलित पाठ एम्बेडिंग मॉडल AnglE प्रस्तावित करता है। AnglE का मूल विचार जटिल संख्या स्थान में कोण अनुकूलन का परिचय देना है। यह नया दृष्टिकोण कोसाइन फ़ंक्शन के संतृप्त क्षेत्र के हानिकारक प्रभावों को प्रभावी ढंग से कम करता है, जो ग्रेडिएंट को अवरुद्ध करता है और अनुकूलन प्रक्रिया में बाधा डालता है। व्यापक STS मूल्यांकन स्थापित करने के लिए, लेखकों ने मौजूदा लघु पाठ STS डेटासेट और नए संग्रहीत GitHub Issues लंबे पाठ STS डेटासेट पर प्रयोग किए। इसके अलावा, सीमित एनोटेशन डेटा वाले डोमेन-विशिष्ट STS परिदृश्यों की खोज की गई है, और यह कि AnglE LLM एनोटेशन डेटा के साथ कैसे काम करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पाठ एम्बेडिंग मॉडल सिमेंटिक पाठ समानता कार्यों में व्यापक रूप से ग्रेडिएंट लुप्त होने की समस्या का सामना करते हैं, जो मुख्य रूप से अनुकूलन उद्देश्य में व्यापक रूप से उपयोग किए जाने वाले कोसाइन फ़ंक्शन के संतृप्त क्षेत्र से उत्पन्न होती है।

समस्या की महत्ता

  1. LLM अनुप्रयोग आवश्यकता: उच्च गुणवत्ता वाली पाठ एम्बेडिंग ChatGPT, LLaMA जैसे बड़े भाषा मॉडल अनुप्रयोगों की नींव है, विशेष रूप से वेक्टर खोज और प्रश्नोत्तर प्रणालियों में
  2. अनुकूलन कठिनाई: कोसाइन फ़ंक्शन का संतृप्त क्षेत्र ग्रेडिएंट को शून्य के करीब ले जाता है, जिससे नेटवर्क के लिए पाठ के बीच सूक्ष्म अंतर सीखना मुश्किल हो जाता है
  3. डेटा लेबल समस्या: कई STS डेटासेट (जैसे MRPC, QQP) द्वारा प्रदान किए गए बाइनरी लेबल (0 असमान के लिए, 1 समान के लिए) स्वाभाविक रूप से कोसाइन फ़ंक्शन के संतृप्त क्षेत्र में गिरते हैं

मौजूदा विधियों की सीमाएं

  1. अनुपर्यवेक्षित विधियां: SimCSE जैसे विपरीत शिक्षण मॉडल सकारात्मक नमूने उत्पन्न करने के लिए डेटा वृद्धि पर निर्भर करते हैं, बैच के भीतर नकारात्मक नमूनों की सही पहचान सुनिश्चित करना मुश्किल है
  2. पर्यवेक्षित विधियां: अधिकांश विधियां केवल कोसाइन समानता को अनुकूलित करती हैं, कोसाइन फ़ंक्शन के संतृप्त क्षेत्र के नकारात्मक प्रभाव को नजरअंदाज करती हैं
  3. मूल्यांकन सीमाएं: मौजूदा STS बेंचमार्क मुख्य रूप से लघु पाठ पर ध्यान केंद्रित करते हैं, लंबे पाठ मूल्यांकन डेटासेट की कमी है

मुख्य योगदान

  1. AnglE मॉडल प्रस्तावित करना: कोसाइन फ़ंक्शन के संतृप्त क्षेत्र के STS कार्यों पर नकारात्मक प्रभाव का पहली बार व्यवस्थित रूप से अध्ययन करना, और कोण-अनुकूलित पाठ एम्बेडिंग मॉडल प्रस्तावित करना
  2. लंबे पाठ डेटासेट का निर्माण: GitHub Issues से लगभग 21K नमूनों वाला लंबे पाठ STS डेटासेट एकत्र करना, लंबे पाठ STS मूल्यांकन में अंतराल को भरना
  3. महत्वपूर्ण प्रदर्शन सुधार: लघु पाठ, लंबे पाठ और डोमेन-विशिष्ट STS कार्यों पर मौजूदा SOTA मॉडल को पार करना
  4. LLM पर्यवेक्षित शिक्षा: डेटा एनोटेशन के लिए LLM का उपयोग करने की पर्यवेक्षित शिक्षा विधि प्रस्तावित करना, डोमेन एनोटेशन डेटा की कमी की समस्या को हल करना

विधि विवरण

कार्य परिभाषा

दो पाठ अनुक्रमों को देखते हुए, उनके वेक्टर प्रतिनिधित्व सीखना, जिससे सिमेंटिक रूप से समान पाठ जोड़े वेक्टर स्पेस में करीब हों, और सिमेंटिक रूप से असमान पाठ जोड़े दूर हों।

मॉडल आर्किटेक्चर

1. इनपुट परत

  • इनपुट वाक्यों को पैडिंग करके लंबाई l तक सुसंगत बनाना
  • प्रत्येक शब्द को d-आयामी सतत स्पेस में मैप करना, शब्द एम्बेडिंग प्राप्त करना eiRde_i \in \mathbb{R}^d
  • शब्द एम्बेडिंग को जोड़कर मॉडल इनपुट बनाना: E=[e1,e2,...,el]Rl×dE = [e_1, e_2, ..., e_l] \in \mathbb{R}^{l \times d}
  • एनकोडर (BERT, RoBERTa, LLaMA आदि) के माध्यम से संदर्भ प्रतिनिधित्व X प्राप्त करना

2. कोसाइन उद्देश्य फ़ंक्शन

कोसाइन समानता को अंत से अंत तक अनुकूलित करना:

L_cos = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(cos(X_m,X_n)-cos(X_i,X_j))/τ})

3. बैच के भीतर नकारात्मक नमूने उद्देश्य फ़ंक्शन

पर्यवेक्षित सकारात्मक नमूनों का उपयोग करके, बैच के भीतर डुप्लिकेट वाक्यों की पहचान करना और उन्हें सकारात्मक नमूने के रूप में सेट करना:

L_ibn = -Σ_b Σ_{i=1}^m log(e^{cos(X_{bi},X_{bi}^+)/τ} / Σ_{j=1}^N e^{cos(X_{bi},X_{bj}^+)/τ})

4. कोण उद्देश्य फ़ंक्शन (मुख्य नवाचार)

कोसाइन संतृप्त क्षेत्र समस्या को कम करने के लिए जटिल संख्या स्पेस में कोण अंतर को अनुकूलित करना:

जटिल प्रतिनिधित्व:

  • z=a+biCz = a + bi \in \mathbb{C} (जहां a=Xire,b=Xiima = X_i^{re}, b = X_i^{im})
  • w=c+diCw = c + di \in \mathbb{C} (जहां c=Xjre,d=Xjimc = X_j^{re}, d = X_j^{im})

जटिल विभाजन:

z/w = (ac + bd) + (bc - ad)i / (c² + d²)

सामान्यीकृत कोण अंतर:

Δθ_{zw} = abs([z/w × 1/γ]) = abs([(ac + bd) + (bc - ad)i] / √[(c² + d²)(a² + b²)])

कोण अनुकूलन उद्देश्य:

L_angle = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(Δθ_{ij}-Δθ_{mn})/τ})

5. संयुक्त उद्देश्य फ़ंक्शन

L = w₁ × L_cos + w₂ × L_ibn + w₃ × L_angle

तकनीकी नवाचार बिंदु

  1. जटिल स्पेस कोण अनुकूलन: पाठ एम्बेडिंग में पहली बार जटिल संख्या स्पेस के कोण अनुकूलन का परिचय, कोसाइन फ़ंक्शन संतृप्त क्षेत्र समस्या को प्रभावी ढंग से हल करना
  2. बहु-उद्देश्य संयुक्त प्रशिक्षण: कोसाइन समानता, बैच के भीतर नकारात्मक नमूने और कोण अनुकूलन के तीन उद्देश्यों को जोड़ना
  3. संतृप्त क्षेत्र में कमी: यहां तक कि कोसाइन मान परिवर्तन बहुत कम (Δy≈0) होने वाले संतृप्त क्षेत्र में भी, जटिल संख्या स्पेस में कोण अंतर अभी भी स्पष्ट है, अनुकूलन के लिए उपयोग किया जा सकता है

प्रयोग सेटअप

डेटासेट

मौजूदा STS बेंचमार्क

  • लघु पाठ डेटासेट: MRPC, QQP, QNLI, STS 2012-2016, SICK-R, STS-B
  • मूल्यांकन विधि: स्थानांतरण शिक्षा और गैर-स्थानांतरण शिक्षा दोनों सेटिंग्स

GitHub Issues समानता डेटासेट (नया योगदान)

  • स्रोत: 55 लोकप्रिय ओपन सोर्स प्रोजेक्ट्स के GitHub Issues
  • स्केल: प्रशिक्षण सेट 18,565 जोड़े, सत्यापन सेट 1,547 जोड़े, परीक्षण सेट 1,548 जोड़े
  • विशेषता: 60% से अधिक लंबे पाठ हैं (टोकन लंबाई >512)
  • लेबल: डुप्लिकेट issues सकारात्मक नमूने के रूप में, गैर-डुप्लिकेट issues नकारात्मक नमूने के रूप में

मूल्यांकन मेट्रिक्स

Spearman सहसंबंध गुणांक का उपयोग करना, SentEval टूलकिट के माध्यम से गणना की जाती है, निष्पक्ष तुलना सुनिश्चित करने के लिए "all" सेटिंग का उपयोग करना।

तुलना विधियां

अनुपर्यवेक्षित मॉडल

  • GloVe, BERT-flow, BERT-whitening, LLaMA2
  • विपरीत शिक्षण मॉडल: IS-BERT, CT-BERT, SimCSE, ConSERT, DiffCSE

पर्यवेक्षित मॉडल

  • InferSent, USE, SBERT, CoSENT
  • SimCSE और ConSERT के पर्यवेक्षित संस्करण

कार्यान्वयन विवरण

  • बैकबोन मॉडल: BERT-base (110M पैरामीटर)
  • तापमान पैरामीटर: कोसाइन और बैच के भीतर नकारात्मक नमूने उद्देश्य τ=0.05, कोण उद्देश्य τ=1.0
  • वजन सेटिंग: ग्रिड खोज के माध्यम से इष्टतम संयोजन निर्धारित करना

प्रयोग परिणाम

मुख्य परिणाम

स्थानांतरण STS कार्य

NLI डेटासेट (MNLI+SNLI) पर प्रशिक्षण, 7 STS बेंचमार्क में स्थानांतरण:

  • AnglE-BERT: औसत स्कोर 82.37%, पिछले SOTA SimCSE-BERT (81.57%) से 0.80% सुधार
  • AnglE-LLaMA2-7B: औसत स्कोर 85.96%, SimCSE-LLaMA2-7B (85.24%) से 0.72% सुधार

गैर-स्थानांतरण STS कार्य

प्रत्येक डेटासेट के प्रशिक्षण सेट पर प्रशिक्षण, परीक्षण सेट पर मूल्यांकन:

  • AnglE-BERT: औसत स्कोर 73.55%, SBERT (68.03%) से 5.52% सुधार
  • सभी 5 डेटासेट पर बेसलाइन मॉडल को पार करना
  • लंबे पाठ लाभ: AnglE-RAN GitHub Issues डेटासेट पर AnglE-BERT को पार करता है

विलोपन प्रयोग

मॉडल वेरिएंटSTS-B स्कोर
AnglE-BERT-all86.26
- w/o ibn86.00
- w/o angle85.30
केवल कोसाइन85.28
केवल कोण85.15

मुख्य निष्कर्ष:

  1. कोण अनुकूलन बैच के भीतर नकारात्मक नमूनों से अधिक महत्वपूर्ण है (कोण अनुकूलन हटाने से बड़ी गिरावट)
  2. केवल कोण अनुकूलन का उपयोग करने का प्रदर्शन केवल कोसाइन अनुकूलन का उपयोग करने के करीब है
  3. "cls" पूलिंग रणनीति सर्वोत्तम प्रदर्शन करती है

LLM पर्यवेक्षित शिक्षा प्रयोग

LLM (ChatGPT, LLaMA, ChatGLM) का उपयोग करके छद्म-पर्यवेक्षित डेटा एनोटेट करना:

  • AnglE + ChatGPT: 81.52%
  • AnglE + समूह: 82.01%
  • दोनों अनुपर्यवेक्षित विपरीत शिक्षण बेसलाइन (SimCSE: 76.85%) को पार करते हैं

केस विश्लेषण

पाठ पुनर्प्राप्ति कार्य

flickr30k डेटासेट पर कठोर सटीकता:

  • AnglE: 12.9%
  • SimCSE (पर्यवेक्षित): 10.4%
  • SBERT: 5.2%

एम्बेडिंग वितरण विश्लेषण

STS-B परीक्षण सेट के कोसाइन समानता घनत्व ग्राफ के माध्यम से विश्लेषण:

  • AnglE का वितरण वास्तविक लेबल वितरण के करीब है
  • कोसाइन फ़ंक्शन संतृप्त क्षेत्र (0-1 और 4-5 रेंज) में बेहतर प्रदर्शन
  • यह साबित करता है कि AnglE ने संतृप्त क्षेत्र के नकारात्मक प्रभाव को प्रभावी ढंग से कम किया है

संबंधित कार्य

अनुपर्यवेक्षित विधियां

  • प्रारंभिक अनुसंधान: word2vec + n-gram एम्बेडिंग
  • BERT सुधार: BERT-flow (प्रवाह विधि), BERT-whitening (श्वेतकरण संचालन)
  • विपरीत शिक्षा: SimCSE, ConSERT, DiffCSE आदि विपरीत उद्देश्य का उपयोग करके पाठ एम्बेडिंग में सुधार

पर्यवेक्षित विधियां

  • NLI उपयोग: InferSent प्राकृतिक भाषा अनुमान कार्य का उपयोग करता है
  • आर्किटेक्चर नवाचार: SBERT BERT और जुड़वां आर्किटेक्चर को जोड़ता है
  • प्रॉम्प्ट इंजीनियरिंग: हाल के अनुसंधान पाठ एम्बेडिंग में सुधार के लिए प्रॉम्प्ट इंजीनियरिंग का उपयोग करते हैं

यह पेपर स्थिति

मौजूदा विधियां अधिकांशतः कोसाइन समानता को अनुकूलित करती हैं लेकिन कोसाइन फ़ंक्शन के संतृप्त क्षेत्र के नकारात्मक प्रभाव को नजरअंदाज करती हैं, यह पेपर इस समस्या को व्यवस्थित रूप से हल करने वाला पहला कार्य है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. संतृप्त क्षेत्र समस्या: कोसाइन फ़ंक्शन का संतृप्त क्षेत्र वास्तव में पाठ एम्बेडिंग मॉडल के अनुकूलन में बाधा डालता है
  2. कोण अनुकूलन प्रभावी: जटिल संख्या स्पेस का कोण अनुकूलन संतृप्त क्षेत्र समस्या को प्रभावी ढंग से कम कर सकता है
  3. प्रदर्शन में व्यापक सुधार: AnglE लघु पाठ, लंबे पाठ और डोमेन-विशिष्ट STS कार्यों पर SOTA प्रदर्शन प्राप्त करता है
  4. LLM सहयोग: AnglE और LLM एनोटेशन डेटा का संयोजन डोमेन अनुकूलन के लिए नई सोच प्रदान करता है

सीमाएं

  1. कम्प्यूटेशनल जटिलता: जटिल संख्या स्पेस गणना मॉडल की कम्प्यूटेशनल ओवरहेड को बढ़ाती है
  2. हाइपरपैरामीटर संवेदनशीलता: तीन उद्देश्य फ़ंक्शन के वजन को सावधानीपूर्वक समायोजित करने की आवश्यकता है
  3. सैद्धांतिक विश्लेषण अपर्याप्त: कोण अनुकूलन के सैद्धांतिक अभिसरण विश्लेषण की कमी है
  4. मूल्यांकन रेंज: मुख्य रूप से अंग्रेजी डेटासेट पर मूल्यांकन, बहुभाषी प्रदर्शन अज्ञात है

भविष्य की दिशाएं

  • वास्तविक अनुप्रयोग परिदृश्यों में AnglE के प्रदर्शन की खोज करना
  • अधिक गहन सैद्धांतिक विश्लेषण और अंतर्दृष्टि प्रदान करना
  • बहुभाषी और क्रॉस-भाषा सेटिंग्स तक विस्तार करना
  • कम्प्यूटेशनल दक्षता को अनुकूलित करना

गहन मूल्यांकन

शक्तियां

  1. समस्या पहचान सटीक: कोसाइन फ़ंक्शन के संतृप्त क्षेत्र की इस अनदेखी लेकिन महत्वपूर्ण समस्या की सटीक पहचान
  2. समाधान नवाचार: जटिल संख्या स्पेस कोण अनुकूलन का विचार नोवल और प्रभावी है
  3. व्यापक प्रयोग: लघु पाठ, लंबे पाठ, स्थानांतरण शिक्षा आदि कई परिदृश्यों को शामिल करता है
  4. डेटासेट योगदान: GitHub Issues डेटासेट लंबे पाठ STS मूल्यांकन में अंतराल को भरता है
  5. व्यावहारिक मूल्य: LLM पर्यवेक्षित शिक्षा विधि में बहुत मजबूत व्यावहारिक अनुप्रयोग मूल्य है

कमियां

  1. सैद्धांतिक आधार कमजोर: कोण अनुकूलन संतृप्त क्षेत्र समस्या को क्यों हल कर सकता है, इसके गहन सैद्धांतिक विश्लेषण की कमी है
  2. कम्प्यूटेशनल ओवरहेड: जटिल संचालन प्रशिक्षण और अनुमान की कम्प्यूटेशनल लागत को बढ़ाता है
  3. हाइपरपैरामीटर जटिलता: तीन हानि फ़ंक्शन के वजन संतुलन के लिए बड़ी मात्रा में ट्यूनिंग की आवश्यकता है
  4. अपर्याप्त तुलना: कुछ नवीनतम पाठ एम्बेडिंग विधियों के साथ तुलना पूरी नहीं है
  5. सामान्यीकरण क्षमता सत्यापन की प्रतीक्षा: अधिक डोमेन और भाषाओं पर सामान्यीकरण क्षमता को आगे सत्यापित करने की आवश्यकता है

प्रभाव

  1. शैक्षणिक योगदान: पाठ एम्बेडिंग अनुकूलन के लिए नया दृष्टिकोण और विधि प्रदान करता है
  2. व्यावहारिक मूल्य: वास्तविक STS कार्यों में स्पष्ट लाभ प्रदर्शित करता है
  3. प्रेरणा महत्व: अनुकूलन उद्देश्य फ़ंक्शन डिजाइन पर अधिक अनुसंधान को प्रेरित कर सकता है
  4. पुनरुत्पादनशीलता: कोड ओपन सोर्स है, पुनरुत्पादन और आगे के अनुसंधान को सुविधाजनक बनाता है

लागू परिदृश्य

  1. सिमेंटिक समानता गणना: विभिन्न सिमेंटिक पाठ समानता कार्यों पर सीधे लागू
  2. सूचना पुनर्प्राप्ति: दस्तावेज़ पुनर्प्राप्ति और समान दस्तावेज़ सिफारिश के लिए उपयोग किया जा सकता है
  3. प्रश्नोत्तर प्रणाली: पुनर्प्राप्ति-आधारित प्रश्नोत्तर प्रणालियों के लिए लागू
  4. पाठ क्लस्टरिंग: दस्तावेज़ क्लस्टरिंग और विषय खोज के लिए उपयोग किया जा सकता है
  5. LLM अनुप्रयोग: बड़े भाषा मॉडल अनुप्रयोगों में एम्बेडिंग घटक के रूप में उपयुक्त

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला अनुसंधान पेपर है जो मौजूदा विधियों की मुख्य समस्या की सटीक पहचान करता है और एक नवाचारी समाधान प्रस्तावित करता है। हालांकि सैद्धांतिक विश्लेषण में सुधार की गुंजाइश है, लेकिन कई प्रयोग सेटिंग्स में इसका सुसंगत सुधार विधि की प्रभावशीलता को साबित करता है। यह कार्य पाठ एम्बेडिंग क्षेत्र के लिए महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य रखता है।