2025-11-15T16:01:12.014757

Disaggregating Embedding Recommendation Systems with FlexEMR

Huang, Yang, Xing et al.
Efficiently serving embedding-based recommendation (EMR) models remains a significant challenge due to their increasingly large memory requirements. Today's practice splits the model across many monolithic servers, where a mix of GPUs, CPUs, and DRAM is provisioned in fixed proportions. This approach leads to suboptimal resource utilization and increased costs. Disaggregating embedding operations from neural network inference is a promising solution but raises novel networking challenges. In this paper, we discuss the design of FlexEMR for optimized EMR disaggregation. FlexEMR proposes two sets of techniques to tackle the networking challenges: Leveraging the temporal and spatial locality of embedding lookups to reduce data movement over the network, and designing an optimized multi-threaded RDMA engine for concurrent lookup subrequests. We outline the design space for each technique and present initial results from our early prototype.
academic

فصل أنظمة التوصيات المدمجة باستخدام FlexEMR

المعلومات الأساسية

  • معرّف الورقة: 2410.12794
  • العنوان: نهج فصل أنظمة التوصيات المدمجة
  • المؤلفون: Yibo Huang, Zhenning Yang, Jiarong Xing, Yi Dai, Yiming Qiu, Dingming Wu, Fan Lai, Ang Chen
  • التصنيف: cs.IR cs.AI
  • وقت النشر/المؤتمر: arXiv 2024 (ورقة عمل قيد التطور)
  • رابط الورقة: https://arxiv.org/abs/2410.12794

الملخص

يظل تقديم الخدمات الفعّالة لنماذج التوصيات المدمجة (EMR) تحديًا كبيرًا بسبب متطلبات الذاكرة المتزايدة باستمرار. يتمثل النهج الحالي في توزيع النموذج على عدة خوادم أحادية، حيث يتم تكوين وحدة معالجة الرسومات والمعالج والذاكرة العشوائية بنسب ثابتة. يؤدي هذا الأسلوب إلى استخدام موارد دون الأمثل وزيادة التكاليف. يعتبر فصل عمليات التضمين عن استدلال الشبكات العصبية حلاً واعدًا، لكنه يطرح تحديات شبكية جديدة. تناقش هذه الورقة تصميم FlexEMR لتحسين فصل EMR. يقترح FlexEMR مجموعتين من التقنيات لمعالجة التحديات الشبكية: الاستفادة من الموضعية الزمنية والمكانية لعمليات البحث عن التضمين لتقليل حركة البيانات على الشبكة، وتصميم محرك RDMA متعدد الخيوط محسّن للبحث المتزامن عن الطلبات الفرعية.

خلفية البحث والدافع

وصف المشكلة

  1. متطلبات الذاكرة الضخمة: يمكن أن تصل جداول التضمين في نماذج EMR على مستوى الإنتاج إلى مستوى التيرابايت (مثل نموذج DLRM بحجم 50 تيرابايت الذي تستخدمه Meta)، وتشكل أكثر من 99% من معاملات النموذج
  2. تكوين الموارد الجامد: يقوم الخادم الأحادي الحالي بتكوين وحدة معالجة الرسومات والمعالج والذاكرة العشوائية بنسب ثابتة، مما لا يسمح بالتكيف مع التغييرات في احتياجات الموارد لنماذج وفترات مختلفة
  3. كفاءة التكلفة المنخفضة: يؤدي تكوين الموارد الثابت إلى هدر الموارد، وتظهر الأبحاث أنه يمكن أن يسبب هدرًا في التكاليف يصل إلى 23.1%

الأهمية

  • تهيمن نماذج EMR على دورة الاستدلال الذكي في مراكز البيانات الإنتاجية (مثل مراكز بيانات Meta)
  • تطبيقات واسعة في التجارة الإلكترونية ومحركات البحث وخدمات الفيديو القصير والأعمال الأساسية الأخرى على الإنترنت
  • أصبح اختناق الذاكرة العامل المحدد الرئيسي لنشر نماذج EMR

قيود الطرق الموجودة

  1. معمارية الخادم الأحادي: يتم تكوين الموارد بنسب ثابتة، مما يصعب التوسع المستقل
  2. تنافس ذاكرة وحدة معالجة الرسومات: تتنافس ذاكرة التخزين المؤقت للتضمين مع حسابات الشبكات العصبية على الذاكرة المحدودة
  3. تحسين الشبكة غير الكافي: لم يتم تحسين أنظمة RDMA الموجودة لسيناريو فصل EMR

المساهمات الأساسية

  1. اقتراح معمارية فصل FlexEMR: فصل تخزين التضمين واستدلال الشبكات العصبية بالكامل إلى خوادم مستقلة
  2. تصميم تحسينات تعزيز الموضعية: الاستفادة من الموضعية الزمنية والمكانية لتقليل نقل البيانات على الشبكة
  3. تطوير محرك RDMA متعدد الخيوط: محرك بحث متزامن محسّن لسيناريو EMR
  4. تنفيذ استراتيجية تخزين مؤقت تكيفية: ضبط ديناميكي لحجم الذاكرة المؤقتة لتجنب تنافس ذاكرة وحدة معالجة الرسومات
  5. اقتراح آلية تجميع متعددة المستويات: دفع بعض عمليات التجميع إلى خوادم التضمين

شرح الطريقة

تعريف المهمة

الإدخال: استعلامات المستخدم التي تحتوي على ميزات فئوية (متفرقة) وميزات مستمرة (كثيفة) الإخراج: نتائج ترتيب أفضل K للعناصر المرشحة القيود: تقليل إجمالي تكلفة الملكية (TCO) مع تلبية أهداف مستوى الخدمة (SLO)

معمارية النموذج

تصميم المعمارية الشاملة

تعتمد FlexEMR على معمارية فصل تتضمن بشكل أساسي:

  • عقد Ranker: مزودة بوحدة معالجة رسومات، مسؤولة عن حسابات استدلال الشبكات العصبية
  • خوادم التضمين: مزودة بمعالج وذاكرة كبيرة، تخزن جداول التضمين ومعالجة طلبات البحث
  • شبكة عالية السرعة: متصلة بين نوعي العقد من خلال تقنيات مثل RDMA

وظائف الوحدات الأساسية

1. تخزين التضمين المؤقت التكيفي (§3.1.1)

  • مراقبة الحمل الديناميكية: استخدام خوارزمية النافذة المنزلقة لمراقبة حجم قائمة المهام
  • استراتيجية تخصيص الذاكرة: ضبط ديناميكي لحجم الذاكرة المؤقتة بناءً على متطلبات حساب الشبكات العصبية
  • تبادل البيانات غير المتزامن: إجراء عمليات تبديل شفافة للتضمينات الساخنة

2. تجميع التضمين متعدد المستويات (§3.1.2)

  • الاستفادة من الموضعية المكانية: تحديد متجهات متعددة على خادم التضمين نفسه
  • التجميع الموزع: خوادم التضمين تنفذ التجميع المحلي، وRanker ينفذ التجميع العام
  • تحسين جدول التوجيه: جدول توجيه قائم على النطاق يقلل استهلاك الذاكرة

3. محرك RDMA متعدد الخيوط (§3.2)

  • التصميم الذي يدرك الخريطة: القضاء على التنافس بين الوحدات المتوازية في RNIC
  • الهجرة الديناميكية للاتصالات: التعامل مع أنماط الوصول المنحرفة لموازنة الحمل
  • التحكم في تدفق الائتمان: قناة تحكم ائتمان سريعة قائمة على جودة الخدمة

نقاط الابتكار التقني

1. التخزين المؤقت التكيفي مقابل التخزين المؤقت التقليدي

  • الطريقة التقليدية: ذاكرة مؤقتة ثابتة الحجم على وحدة معالجة الرسومات، تتنافس مع حسابات الشبكات العصبية على الذاكرة
  • FlexEMR: ضبط ديناميكي لحجم الذاكرة المؤقتة، موازنة بين الكمون والإنتاجية

2. التجميع متعدد المستويات مقابل التجميع المركزي

  • الطريقة التقليدية: نقل جميع متجهات التضمين إلى Ranker للتجميع
  • FlexEMR: الاستفادة من موارد معالج خادم التضمين للتجميع المسبق

3. RDMA الذي يدرك الخريطة مقابل RDMA متعدد الخيوط التقليدي

  • الطريقة التقليدية: تنافس خيوط متعددة على موارد RNIC، انخفاض الأداء بنسبة 62%
  • FlexEMR: خريطة واحد لواحد تلغي التنافس، تحسين الأداء بمعامل 2.3 مرة

إعداد التجارب

مجموعات البيانات

  • إطار عمل MLPerf: اختبارات معايير موحدة لأنظمة التوصيات
  • آثار Meta الإنتاجية: من آثار البحث عن التضمين على مستوى الإنتاج المنشورة من Meta
  • نموذج RMC2: نموذج توصية تمثيلي لتقييم الأداء

مؤشرات التقييم

  • الإنتاجية: عدد الطلبات المعالجة في الثانية (rps)
  • الكمون: يشمل الكمون الوسيط و P99
  • معدل استخدام ذاكرة وحدة معالجة الرسومات: الحد الأقصى لحجم الدفعة المدعوم
  • كفاءة نقل الشبكة: كمية نقل البيانات واستخدام النطاق الترددي

بيئة التجارب

  • تكوين الأجهزة: خوادم Intel Xeon (32 نواة، 128 جيجابايت ذاكرة)، وحدة معالجة رسومات Nvidia A100 (80 جيجابايت)
  • الشبكة: بطاقة Mellanox RDMA NIC بسرعة 100 جيجابت في الثانية
  • طرق المقارنة: خط أساس RDMA أحادي الخيط، استراتيجية ذاكرة مؤقتة ثابتة

تفاصيل التنفيذ

  • استخدام ميزة مجال الموارد لتنفيذ RDMA الذي يدرك الخريطة
  • ضبط ديناميكي لحجم النافذة المنزلقة بناءً على الحمل
  • تنفيذ التحكم في تدفق الائتمان على مستوى الاتصال بناءً على جودة الخدمة

نتائج التجارب

النتائج الرئيسية

1. تحليل تنافس ذاكرة وحدة معالجة الرسومات (الشكل 7)

  • بدون ذاكرة مؤقتة: يدعم حد أقصى لحجم الدفعة حوالي 2000
  • ذاكرة مؤقتة كبيرة (75 جيجابايت): ينخفض الحد الأقصى لحجم الدفعة إلى حوالي 500
  • الذاكرة المؤقتة التكيفية FlexEMR: الحفاظ على الإنتاجية العالية مع الحفاظ على مزايا الكمون

2. أداء RDMA متعدد الخيوط (الشكل 8 اليسار)

  • طريقة الخط الأساسي: انخفاض الأداء مع زيادة عدد الخيوط
  • FlexEMR: تحسين الإنتاجية بمعامل 2.3 مرة عند 8 محركات RDMA، بلوغ 15 مليون rps

3. تأثير التحكم في تدفق الائتمان (الشكل 8 اليمين)

  • الكمون الوسيط: تقليل FlexEMR بحوالي 35% مقارنة بالخط الأساسي
  • كمون P99: تحسين ملحوظ في أداء الكمون الذيلي

تجارب الاستبعاد

تعرض الورقة المساهمات المستقلة لكل مكون:

  • RDMA متعدد الخيوط الذي يدرك الخريطة: حل مشكلة تنافس موارد RNIC
  • الذاكرة المؤقتة التكيفية: موازنة استخدام الذاكرة والأداء
  • التجميع متعدد المستويات: تقليل تكاليف نقل الشبكة

نتائج التجارب

  1. تنافس الذاكرة هو الاختناق الرئيسي: يؤثر تنافس ذاكرة وحدة معالجة الرسومات بين الذاكرة المؤقتة وحسابات الشبكات العصبية بشكل كبير على الأداء
  2. تحسين الشبكة له تأثير كبير: يمكن لمحرك RDMA المحسّن أن يحسن بشكل كبير من أداء البحث المتزامن
  3. الاستفادة من الموضعية فعالة: يمكن للاستفادة من الموضعية الزمنية والمكانية أن تقلل بشكل فعال من تكاليف الشبكة

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. الطرق المركزية على وحدة معالجة الرسومات: معاملة EMR كنموذج تعلم عميق عام، باستخدام موارد وحدة معالجة الرسومات بشكل أساسي
  2. تحسين الذاكرة المؤقتة: آليات ذاكرة مؤقتة للتضمين المختلفة لتسريع عمليات البحث
  3. الأجهزة المتخصصة: تسريع أنظمة التوصيات باستخدام أجهزة متخصصة مثل FPGA
  4. الضغط والتقسيم: تقنيات ضغط وتقسيم جداول التضمين

مزايا هذه الورقة

  1. حل فصل منهجي: أول تصميم معمارية فصل شامل لـ EMR
  2. التركيز على تحسين الشبكة: حل عميق للتحديات الشبكية الناشئة عن الفصل
  3. القدرة على التكيف الديناميكي: توفير تحسين ديناميكي مقارنة بتخصيص الموارد الثابت في DisaggRec

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. يمكن لمعمارية فصل EMR أن تحسن بشكل كبير من استخدام الموارد وكفاءة التكلفة
  2. يمكن لتحسينات الموضعية الواعية أن تقلل بشكل فعال من تكاليف الشبكة
  3. تحسين RDMA الموجه نحو الهدف حاسم لأداء معمارية الفصل
  4. الاستراتيجيات التكيفية أكثر ملاءمة من التكوين الثابت للأحمال الديناميكية

القيود

  1. مرحلة النموذج الأولي: لا تزال في مرحلة نموذج أولي مبكر، تفتقر إلى التحقق من النشر على نطاق واسع
  2. الاعتماد على الشبكة: الأداء تعتمد بشدة على الشبكة عالية السرعة، مما يزيد من تكاليف البنية الأساسية
  3. زيادة التعقيد: تزيد معمارية الفصل من تعقيد النظام وصعوبة التشغيل والصيانة
  4. تكلفة الكمون: يؤدي الاتصال الشبكي حتماً إلى زيادة الكمون

الاتجاهات المستقبلية

  1. التوسع إلى نماذج أخرى: التطبيق على نماذج اللغات الكبيرة والنماذج متعددة الأنماط و MoE وغيرها
  2. جدولة أكثر ذكاءً: تطوير خوارزميات جدولة موارد أكثر تطوراً
  3. التصميم المشترك للأجهزة: التعاون مع مصنعي الأجهزة الشبكية للتحسين
  4. آليات تحمل الأخطاء: تعزيز قوة النظام وقدرات استرجاع الأعطال

التقييم المتعمق

المزايا

  1. تحديد المشكلة دقيق: تحديد دقيق للتحديات والاختناقات الأساسية في خدمة EMR
  2. تصميم الحل معقول: تصميم معمارية الفصل يتوافق مع اتجاه فصل مراكز البيانات
  3. الابتكار التقني فعال: يتم دعم عدة نقاط ابتكار تقني بالتحقق التجريبي
  4. القيمة العملية عالية: حل مشاكل مهمة في بيئات الإنتاج الفعلية

أوجه القصور

  1. نطاق التقييم محدود: اختبار فقط في بيئات صغيرة الحجم، يفتقر إلى التحقق على نطاق واسع
  2. تحليل التكلفة غير كافٍ: لم يتم توفير تحليل تفصيلي للعائد على الاستثمار
  3. معالجة الأعطال ناقصة: لم يتم مناقشة آليات معالجة الأعطال في معمارية الفصل بشكل كافٍ
  4. التكامل مع الأنظمة الموجودة: نقص المناقشة حول التكامل مع أنظمة التوصيات الموجودة

التأثير

  1. المساهمة الأكاديمية: توفير إطار عمل تقني شامل لفصل أنظمة EMR
  2. القيمة الصناعية: ذات أهمية توجيهية كبيرة لنشر أنظمة التوصيات على نطاق واسع
  3. دفع التكنولوجيا: تعزيز تطبيق المعمارية الفاصلة في خدمات الذكاء الاصطناعي
  4. إمكانية التوحيد: قد تصبح معيار مرجعي لنشر فصل EMR

السيناريوهات القابلة للتطبيق

  1. أنظمة التوصيات الكبيرة: مناسبة لشركات الإنترنت الكبرى مثل Meta وعلي بابا
  2. البيئات محدودة الموارد: مراكز البيانات التي تحتاج إلى تحسين استخدام الموارد
  3. سيناريوهات الحمل الديناميكي: خدمات التوصيات ذات التغييرات الكبيرة في الحمل
  4. التطبيقات الحساسة للتكلفة: السيناريوهات التجارية ذات المتطلبات الصارمة على إجمالي تكلفة الملكية

المراجع

تستشهد الورقة بـ 61 مرجعًا ذا صلة، تشمل بشكل أساسي:

  • الأعمال ذات الصلة بتحسين أنظمة EMR (مثل AdaEmbed و RecSSD وغيرها)
  • أبحاث معمارية الأنظمة الفاصلة (مثل LegoOS و DxPU وغيرها)
  • تقنيات تحسين شبكة RDMA (مثل FaRM و Aeolus وغيرها)
  • اختبارات معايير أنظمة التوصيات (MLPerf وملف بيانات Meta DLRM وغيرها)

التقييم الشامل: هذه ورقة بحثية عالية الجودة في الأنظمة، تقترح حلاً معمارياً مبتكراً فاصلاً لمعالجة التحديات العملية لخدمات EMR. على الرغم من أنها لا تزال في مرحلة النموذج الأولي، فإن حلها التقني يتمتع بقيمة عملية قوية وإمكانية نشر عالية، وله أهمية كبيرة لتطور البنية الأساسية لأنظمة التوصيات.