High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
تعتبر تضمينات النصوص عالية الجودة حاسمة لتحسين مهام تشابه النصوص الدلالي (STS)، وهي مكون أساسي في تطبيقات نماذج اللغة الكبيرة. ومع ذلك، تواجه نماذج تضمين النصوص الحالية تحديًا مشتركًا وهو مشكلة اختفاء التدرجات، والتي تنشأ بشكل أساسي من اعتمادها على دالة جيب التمام في أهداف التحسين، حيث تحتوي دالة جيب التمام على مناطق تشبع. لحل هذه المشكلة، تقترح هذه الورقة نموذجًا جديدًا لتضمين النصوص المُحسَّن بالزاوية يُسمى AnglE. الفكرة الأساسية لـ AnglE هي إدخال تحسين الزاوية في الفضاء المركب. يخفف هذا النهج الجديد بشكل فعال من التأثيرات السلبية لمناطق التشبع في دالة جيب التمام، والتي تعيق التدرجات وتعرقل عملية التحسين. لإنشاء تقييم شامل لـ STS، أجرى المؤلفون تجارب على مجموعات بيانات STS للنصوص القصيرة الموجودة ومجموعة بيانات STS للنصوص الطويلة المجمعة حديثًا من GitHub Issues. بالإضافة إلى ذلك، تم استكشاف سيناريوهات STS الخاصة بالمجال مع بيانات تصنيف محدودة، وكيفية استخدام AnglE مع بيانات التصنيف من نماذج اللغة الكبيرة.
تعاني نماذج تضمين النصوص من مشكلة اختفاء التدرجات في مهام تشابه النصوص الدلالي، والتي تنشأ بشكل أساسي من وجود مناطق تشبع في دالة جيب التمام المستخدمة على نطاق واسع في أهداف التحسين.
متطلبات تطبيقات نماذج اللغة الكبيرة: تضمينات النصوص عالية الجودة هي أساس تطبيقات نماذج اللغة الكبيرة مثل ChatGPT و LLaMA، خاصة في البحث المتجه وأنظمة الأسئلة والأجوبة
صعوبات التحسين: تؤدي مناطق التشبع في دالة جيب التمام إلى تدرجات قريبة من الصفر، مما يجعل من الصعب على الشبكة تعلم الفروقات الدقيقة بين النصوص
مشكلة تسميات البيانات: توفر العديد من مجموعات بيانات STS (مثل MRPC و QQP) تسميات ثنائية (0 تعني عدم التشابه، 1 تعني التشابه) تقع بشكل طبيعي في مناطق التشبع في دالة جيب التمام
اقتراح نموذج AnglE: أول دراسة منهجية للتأثيرات السلبية لمناطق التشبع في دالة جيب التمام على مهام STS، مع اقتراح نموذج تضمين نصوص محسّن بالزاوية
بناء مجموعة بيانات النصوص الطويلة: جمع مجموعة بيانات STS للنصوص الطويلة من GitHub Issues تحتوي على حوالي 21 ألف عينة، مما يملأ الفراغ في تقييم STS للنصوص الطويلة
تحسن الأداء الملحوظ: تفوق نماذج SOTA الموجودة في مهام STS للنصوص القصيرة والطويلة والخاصة بالمجال
التعلم الموجه بنماذج اللغة الكبيرة: اقتراح طريقة تعلم موجهة باستخدام نماذج اللغة الكبيرة كمصنفات بيانات، مما يحل مشكلة ندرة بيانات التصنيف الخاصة بالمجال
بالنظر إلى تسلسلي نص، تعلم تمثيلاتهما المتجهة بحيث تكون أزواج النصوص المتشابهة دلاليًا أقرب في الفضاء المتجه، وتكون أزواج النصوص غير المتشابهة دلاليًا أبعد.
تحسين الزاوية في الفضاء المركب: أول استخدام لتحسين الزاوية في الفضاء المركب في تضمينات النصوص، مما يحل بشكل فعال مشكلة مناطق التشبع في دالة جيب التمام
التدريب المشترك متعدد الأهداف: دمج ثلاثة أهداف: تشابه جيب التمام والعينات السالبة داخل الدفعة وتحسين الزاوية
تخفيف مناطق التشبع: حتى في مناطق التشبع حيث يكون التغيير في قيمة جيب التمام صغيرًا جدًا (Δy≈0)، يظل الاختلاف الزاوي في الفضاء المركب واضحًا ويمكن استخدامه للتحسين
معظم الطرق الموجودة تحسن تشابه جيب التمام لكنها تتجاهل التأثيرات السلبية لمناطق التشبع في دالة جيب التمام، وهذه الورقة هي الأولى التي تعالج هذه المشكلة بشكل منهجي.
حساب التشابه الدلالي: ينطبق مباشرة على مهام تشابه النصوص الدلالية المختلفة
استرجاع المعلومات: يمكن استخدامه في استرجاع المستندات وتوصيات المستندات المتشابهة
أنظمة الأسئلة والأجوبة: ينطبق على أنظمة الأسئلة والأجوبة القائمة على الاسترجاع
تجميع النصوص: يمكن استخدامه في تجميع المستندات واكتشاف المواضيع
تطبيقات نماذج اللغة الكبيرة: مناسب كمكون تضمين في تطبيقات نماذج اللغة الكبيرة
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة، تحدد بدقة المشكلة الرئيسية في الطرق الموجودة وتقترح حلاً مبتكرًا. على الرغم من وجود مجال للتحسن في التحليل النظري، فإن التحسينات المتسقة عبر إعدادات تجريبية متعددة تثبت فعالية الطريقة. يتمتع هذا العمل بقيمة أكاديمية وعملية مهمة لمجال تضمينات النصوص.