2025-11-18T13:10:21.183335

AnglE-optimized Text Embeddings

Li, Li
High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
academic

تضمينات النصوص المُحسَّنة بالزاوية (AnglE)

المعلومات الأساسية

  • معرّف الورقة: 2309.12871
  • العنوان: AnglE-optimized Text Embeddings
  • المؤلفون: Xianming Li, Jing Li (قسم الحوسبة، جامعة هونغ كونغ للعلوم والتكنولوجيا)
  • التصنيف: cs.CL cs.AI cs.LG
  • وقت النشر/المؤتمر: ACL 2024 (عنوان نسخة المؤتمر: AoE: Angle-optimized Embeddings for Semantic Textual Similarity)
  • رابط الورقة: https://arxiv.org/abs/2309.12871

الملخص

تعتبر تضمينات النصوص عالية الجودة حاسمة لتحسين مهام تشابه النصوص الدلالي (STS)، وهي مكون أساسي في تطبيقات نماذج اللغة الكبيرة. ومع ذلك، تواجه نماذج تضمين النصوص الحالية تحديًا مشتركًا وهو مشكلة اختفاء التدرجات، والتي تنشأ بشكل أساسي من اعتمادها على دالة جيب التمام في أهداف التحسين، حيث تحتوي دالة جيب التمام على مناطق تشبع. لحل هذه المشكلة، تقترح هذه الورقة نموذجًا جديدًا لتضمين النصوص المُحسَّن بالزاوية يُسمى AnglE. الفكرة الأساسية لـ AnglE هي إدخال تحسين الزاوية في الفضاء المركب. يخفف هذا النهج الجديد بشكل فعال من التأثيرات السلبية لمناطق التشبع في دالة جيب التمام، والتي تعيق التدرجات وتعرقل عملية التحسين. لإنشاء تقييم شامل لـ STS، أجرى المؤلفون تجارب على مجموعات بيانات STS للنصوص القصيرة الموجودة ومجموعة بيانات STS للنصوص الطويلة المجمعة حديثًا من GitHub Issues. بالإضافة إلى ذلك، تم استكشاف سيناريوهات STS الخاصة بالمجال مع بيانات تصنيف محدودة، وكيفية استخدام AnglE مع بيانات التصنيف من نماذج اللغة الكبيرة.

الخلفية البحثية والدافع

تعريف المشكلة

تعاني نماذج تضمين النصوص من مشكلة اختفاء التدرجات في مهام تشابه النصوص الدلالي، والتي تنشأ بشكل أساسي من وجود مناطق تشبع في دالة جيب التمام المستخدمة على نطاق واسع في أهداف التحسين.

أهمية المشكلة

  1. متطلبات تطبيقات نماذج اللغة الكبيرة: تضمينات النصوص عالية الجودة هي أساس تطبيقات نماذج اللغة الكبيرة مثل ChatGPT و LLaMA، خاصة في البحث المتجه وأنظمة الأسئلة والأجوبة
  2. صعوبات التحسين: تؤدي مناطق التشبع في دالة جيب التمام إلى تدرجات قريبة من الصفر، مما يجعل من الصعب على الشبكة تعلم الفروقات الدقيقة بين النصوص
  3. مشكلة تسميات البيانات: توفر العديد من مجموعات بيانات STS (مثل MRPC و QQP) تسميات ثنائية (0 تعني عدم التشابه، 1 تعني التشابه) تقع بشكل طبيعي في مناطق التشبع في دالة جيب التمام

قيود الطرق الموجودة

  1. الطرق غير الموجهة: نماذج التعلم المقارن مثل SimCSE تعتمد على تعزيز البيانات لتوليد عينات موجبة، مما يصعب ضمان صحة العينات السالبة داخل الدفعة
  2. الطرق الموجهة: تركز معظم الطرق على تحسين تشابه جيب التمام فقط، متجاهلة التأثيرات السلبية لمناطق التشبع في دالة جيب التمام
  3. قيود التقييم: تركز معايير STS الموجودة بشكل أساسي على النصوص القصيرة، وتفتقر إلى مجموعات بيانات تقييم للنصوص الطويلة

المساهمات الأساسية

  1. اقتراح نموذج AnglE: أول دراسة منهجية للتأثيرات السلبية لمناطق التشبع في دالة جيب التمام على مهام STS، مع اقتراح نموذج تضمين نصوص محسّن بالزاوية
  2. بناء مجموعة بيانات النصوص الطويلة: جمع مجموعة بيانات STS للنصوص الطويلة من GitHub Issues تحتوي على حوالي 21 ألف عينة، مما يملأ الفراغ في تقييم STS للنصوص الطويلة
  3. تحسن الأداء الملحوظ: تفوق نماذج SOTA الموجودة في مهام STS للنصوص القصيرة والطويلة والخاصة بالمجال
  4. التعلم الموجه بنماذج اللغة الكبيرة: اقتراح طريقة تعلم موجهة باستخدام نماذج اللغة الكبيرة كمصنفات بيانات، مما يحل مشكلة ندرة بيانات التصنيف الخاصة بالمجال

شرح الطريقة

تعريف المهمة

بالنظر إلى تسلسلي نص، تعلم تمثيلاتهما المتجهة بحيث تكون أزواج النصوص المتشابهة دلاليًا أقرب في الفضاء المتجه، وتكون أزواج النصوص غير المتشابهة دلاليًا أبعد.

معمارية النموذج

1. طبقة الإدخال

  • إجراء الحشو (padding) على جمل الإدخال لضمان طول متسق قدره l
  • تعيين كل كلمة إلى فضاء مستمر بحجم d للحصول على تضمين الكلمات eiRde_i \in \mathbb{R}^d
  • ربط تضمينات الكلمات لتشكيل إدخال النموذج: E=[e1,e2,...,el]Rl×dE = [e_1, e_2, ..., e_l] \in \mathbb{R}^{l \times d}
  • الحصول على التمثيلات السياقية X من خلال المشفر (BERT أو RoBERTa أو LLaMA وغيرها)

2. دالة الهدف لجيب التمام

تحسين تشابه جيب التمام من طرف إلى طرف:

L_cos = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(cos(X_m,X_n)-cos(X_i,X_j))/τ})

3. دالة الهدف للعينات السالبة داخل الدفعة

استخدام العينات الموجبة الموجهة، تحديد الجمل المكررة داخل الدفعة وتعيينها كعينات موجبة:

L_ibn = -Σ_b Σ_{i=1}^m log(e^{cos(X_{bi},X_{bi}^+)/τ} / Σ_{j=1}^N e^{cos(X_{bi},X_{bj}^+)/τ})

4. دالة الهدف للزاوية (الابتكار الأساسي)

تحسين الاختلافات الزاوية في الفضاء المركب لتخفيف مشكلة تشبع جيب التمام:

التمثيل المركب:

  • z=a+biCz = a + bi \in \mathbb{C} (حيث a=Xire,b=Xiima = X_i^{re}, b = X_i^{im})
  • w=c+diCw = c + di \in \mathbb{C} (حيث c=Xjre,d=Xjimc = X_j^{re}, d = X_j^{im})

القسمة المركبة:

z/w = (ac + bd) + (bc - ad)i / (c² + d²)

الاختلاف الزاوي المُطبّع:

Δθ_{zw} = abs([z/w × 1/γ]) = abs([(ac + bd) + (bc - ad)i] / √[(c² + d²)(a² + b²)])

دالة الهدف للزاوية:

L_angle = log(1 + Σ_{s(X_i,X_j)>s(X_m,X_n)} e^{(Δθ_{ij}-Δθ_{mn})/τ})

5. دالة الهدف المشتركة

L = w₁ × L_cos + w₂ × L_ibn + w₃ × L_angle

نقاط الابتكار التقني

  1. تحسين الزاوية في الفضاء المركب: أول استخدام لتحسين الزاوية في الفضاء المركب في تضمينات النصوص، مما يحل بشكل فعال مشكلة مناطق التشبع في دالة جيب التمام
  2. التدريب المشترك متعدد الأهداف: دمج ثلاثة أهداف: تشابه جيب التمام والعينات السالبة داخل الدفعة وتحسين الزاوية
  3. تخفيف مناطق التشبع: حتى في مناطق التشبع حيث يكون التغيير في قيمة جيب التمام صغيرًا جدًا (Δy≈0)، يظل الاختلاف الزاوي في الفضاء المركب واضحًا ويمكن استخدامه للتحسين

إعداد التجارب

مجموعات البيانات

معايير STS الموجودة

  • مجموعات بيانات النصوص القصيرة: MRPC و QQP و QNLI و STS 2012-2016 و SICK-R و STS-B
  • طريقة التقييم: إعدادات التعلم بالنقل وعدم النقل

مجموعة بيانات تشابه GitHub Issues (مساهمة جديدة)

  • المصدر: GitHub Issues من 55 مشروعًا مفتوح المصدر شهيرًا
  • الحجم: 18,565 زوجًا في مجموعة التدريب، و 1,547 زوجًا في مجموعة التحقق، و 1,548 زوجًا في مجموعة الاختبار
  • الخصائص: أكثر من 60% نصوص طويلة (طول الرمز > 512)
  • التسميات: المشاكل المكررة كعينات موجبة، والمشاكل غير المكررة كعينات سالبة

مقاييس التقييم

استخدام معامل ارتباط سبيرمان، محسوب من خلال مجموعة أدوات SentEval، باستخدام إعداد "الكل" لضمان المقارنة العادلة.

طرق المقارنة

النماذج غير الموجهة

  • GloVe و BERT-flow و BERT-whitening و LLaMA2
  • نماذج التعلم المقارن: IS-BERT و CT-BERT و SimCSE و ConSERT و DiffCSE

النماذج الموجهة

  • InferSent و USE و SBERT و CoSENT
  • الإصدارات الموجهة من SimCSE و ConSERT

تفاصيل التنفيذ

  • نموذج العمود الفقري: BERT-base (110 مليون معامل)
  • معامل درجة الحرارة: τ=0.05 لأهداف جيب التمام والعينات السالبة داخل الدفعة، و τ=1.0 لهدف الزاوية
  • إعدادات الأوزان: تحديد الأوزان المثلى من خلال البحث الشبكي

نتائج التجارب

النتائج الرئيسية

مهام STS بالنقل

التدريب على مجموعة بيانات NLI (MNLI+SNLI)، النقل إلى 7 معايير STS:

  • AnglE-BERT: متوسط درجة 82.37%، تحسن بنسبة 0.80% عن SOTA السابق SimCSE-BERT (81.57%)
  • AnglE-LLaMA2-7B: متوسط درجة 85.96%، تحسن بنسبة 0.72% عن SimCSE-LLaMA2-7B (85.24%)

مهام STS بدون نقل

التدريب على مجموعة التدريب لكل مجموعة بيانات، التقييم على مجموعة الاختبار:

  • AnglE-BERT: متوسط درجة 73.55%، تحسن بنسبة 5.52% عن SBERT (68.03%)
  • تفوق على نماذج الأساس في جميع مجموعات البيانات الخمس
  • ميزة النصوص الطويلة: AnglE-RAN يتفوق على AnglE-BERT في مجموعة بيانات GitHub Issues

تجارب الاستئصال

متغير النموذجدرجة STS-B
AnglE-BERT-all86.26
- بدون ibn86.00
- بدون angle85.30
جيب التمام فقط85.28
الزاوية فقط85.15

النتائج الرئيسية:

  1. تحسين الزاوية أكثر أهمية من العينات السالبة داخل الدفعة (إزالة تحسين الزاوية يؤدي إلى انخفاض أكبر)
  2. الأداء باستخدام تحسين الزاوية فقط قريبة من استخدام تحسين جيب التمام فقط
  3. استراتيجية تجميع "cls" تحقق أفضل أداء

تجارب التعلم الموجه بنماذج اللغة الكبيرة

استخدام نماذج اللغة الكبيرة (ChatGPT و LLaMA و ChatGLM) لتصنيف البيانات الزائفة الموجهة:

  • AnglE + ChatGPT: 81.52%
  • AnglE + المجموعة: 82.01%
  • كلاهما يتفوق على خطوط أساس التعلم المقارن غير الموجه (SimCSE: 76.85%)

تحليل الحالات

مهمة استرجاع النصوص

دقة صارمة في مجموعة بيانات flickr30k:

  • AnglE: 12.9%
  • SimCSE (موجه): 10.4%
  • SBERT: 5.2%

تحليل توزيع التضمينات

من خلال رسم كثافة تشابه جيب التمام لمجموعة اختبار STS-B:

  • توزيع AnglE أقرب إلى توزيع التسميات الحقيقية
  • أداء أفضل في مناطق تشبع جيب التمام (نطاقات 0-1 و 4-5)
  • يثبت أن AnglE يخفف بشكل فعال من التأثيرات السلبية لمناطق التشبع

الأعمال ذات الصلة

الطرق غير الموجهة

  • الأبحاث المبكرة: تضمينات word2vec + n-gram
  • تحسينات BERT: BERT-flow (طريقة التدفق) و BERT-whitening (عملية التبييض)
  • التعلم المقارن: SimCSE و ConSERT و DiffCSE وغيرها تستخدم أهداف مقارنة لتحسين تضمينات النصوص

الطرق الموجهة

  • استخدام NLI: InferSent يستخدم مهام الاستدلال باللغة الطبيعية
  • ابتكارات المعمارية: SBERT يجمع بين BERT والمعمارية التوأمية
  • هندسة الفورمات: الأبحاث الحديثة تستخدم هندسة الفورمات لتحسين تضمينات النصوص

موضع هذه الورقة

معظم الطرق الموجودة تحسن تشابه جيب التمام لكنها تتجاهل التأثيرات السلبية لمناطق التشبع في دالة جيب التمام، وهذه الورقة هي الأولى التي تعالج هذه المشكلة بشكل منهجي.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. مشكلة مناطق التشبع: مناطق التشبع في دالة جيب التمام تعيق فعلاً تحسين نماذج تضمين النصوص
  2. فعالية تحسين الزاوية: تحسين الزاوية في الفضاء المركب يخفف بشكل فعال من مشكلة مناطق التشبع
  3. تحسن الأداء الشامل: AnglE يحقق أداء SOTA في مهام STS للنصوص القصيرة والطويلة والخاصة بالمجال
  4. التعاون مع نماذج اللغة الكبيرة: يوفر الجمع بين AnglE وبيانات تصنيف نماذج اللغة الكبيرة منظورًا جديدًا للتكيف مع المجال

القيود

  1. التعقيد الحسابي: تزيد الحسابات في الفضاء المركب من التكلفة الحسابية للنموذج
  2. حساسية المعاملات الفائقة: تتطلب أوزان دوال الأهداف الثلاثة ضبطًا دقيقًا
  3. نقص التحليل النظري: يفتقر إلى تحليل نظري لتقارب تحسين الزاوية
  4. نطاق التقييم: يركز بشكل أساسي على مجموعات البيانات باللغة الإنجليزية، والأداء متعدد اللغات غير معروف

الاتجاهات المستقبلية

  • استكشاف أداء AnglE في سيناريوهات التطبيق الفعلي
  • توفير تحليل نظري وتبصرات أعمق
  • التوسع إلى الإعدادات متعددة اللغات والعابرة للغات
  • تحسين الكفاءة الحسابية

التقييم المتعمق

المميزات

  1. تحديد المشكلة الدقيق: تحديد دقيق لمشكلة مناطق التشبع في دالة جيب التمام، وهي مشكلة مهمة لكن مهملة
  2. ابتكار الحل: فكرة تحسين الزاوية في الفضاء المركب جديدة وفعالة
  3. تجارب شاملة: تغطي النصوص القصيرة والطويلة والتعلم بالنقل وسيناريوهات أخرى
  4. مساهمة مجموعة البيانات: مجموعة بيانات GitHub Issues تملأ الفراغ في تقييم STS للنصوص الطويلة
  5. القيمة العملية: طريقة التعلم الموجه بنماذج اللغة الكبيرة لها قيمة عملية قوية

أوجه القصور

  1. ضعف الأساس النظري: يفتقر إلى تحليل نظري عميق حول سبب قدرة تحسين الزاوية على حل مشكلة التشبع
  2. التكلفة الحسابية: تزيد العمليات المركبة من تكاليف التدريب والاستدلال
  3. تعقيد المعاملات الفائقة: يتطلب موازنة أوزان دوال الخسارة الثلاثة ضبطًا واسعًا
  4. المقارنة غير الكافية: المقارنة مع بعض طرق تضمين النصوص الحديثة غير شاملة
  5. التعميم المراد التحقق منه: تحتاج قدرة التعميم على مجالات ولغات أكثر إلى التحقق الإضافي

التأثير

  1. المساهمة الأكاديمية: توفير منظور وطريقة جديدة لتحسين تضمينات النصوص
  2. القيمة العملية: إظهار مزايا واضحة في مهام STS العملية
  3. القيمة الإلهامية: قد تلهم المزيد من الأبحاث حول تصميم دوال الأهداف للتحسين
  4. قابلية الاستنساخ: الكود مفتوح المصدر، مما يسهل الاستنساخ والبحث الإضافي

السيناريوهات المطبقة

  1. حساب التشابه الدلالي: ينطبق مباشرة على مهام تشابه النصوص الدلالية المختلفة
  2. استرجاع المعلومات: يمكن استخدامه في استرجاع المستندات وتوصيات المستندات المتشابهة
  3. أنظمة الأسئلة والأجوبة: ينطبق على أنظمة الأسئلة والأجوبة القائمة على الاسترجاع
  4. تجميع النصوص: يمكن استخدامه في تجميع المستندات واكتشاف المواضيع
  5. تطبيقات نماذج اللغة الكبيرة: مناسب كمكون تضمين في تطبيقات نماذج اللغة الكبيرة

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة، تحدد بدقة المشكلة الرئيسية في الطرق الموجودة وتقترح حلاً مبتكرًا. على الرغم من وجود مجال للتحسن في التحليل النظري، فإن التحسينات المتسقة عبر إعدادات تجريبية متعددة تثبت فعالية الطريقة. يتمتع هذا العمل بقيمة أكاديمية وعملية مهمة لمجال تضمينات النصوص.