Diagonal Scaling: A Multi-Dimensional Resource Model and Optimization Framework for Distributed Databases
Abdullah, Zaman
Modern cloud databases present scaling as a binary decision: scale-out by adding nodes or scale-up by increasing per-node resources. This one-dimensional view is limiting because database performance, cost, and coordination overhead emerge from the joint interaction of horizontal elasticity and per-node CPU, memory, network bandwidth, and storage IOPS. As a result, systems often overreact to load spikes, underreact to memory pressure, or oscillate between suboptimal states. We introduce the Scaling Plane, a two-dimensional model in which each distributed database configuration is represented as a point (H, V), with H denoting node count and V a vector of resources. Over this plane, we define smooth approximations of latency, throughput, coordination overhead, and monetary cost, providing a unified view of performance trade-offs. We show analytically and empirically that optimal scaling trajectories frequently lie along diagonal paths: sequences of joint horizontal and vertical adjustments that simultaneously exploit cluster parallelism and per-node improvements. To compute such actions, we propose DIAGONALSCALE, a discrete local-search algorithm that evaluates horizontal, vertical, and diagonal moves in the Scaling Plane and selects the configuration minimizing a multi-objective function subject to SLA constraints. Using synthetic surfaces, microbenchmarks, and experiments on distributed SQL and KV systems, we demonstrate that diagonal scaling reduces p95 latency by up to 40 percent, lowers cost-per-query by up to 37 percent, and reduces rebalancing by 2 to 5 times compared to horizontal-only and vertical-only autoscaling. Our results highlight the need for multi-dimensional scaling models and provide a foundation for next-generation autoscaling in cloud database systems.
academic
التوسع القطري: نموذج موارد متعدد الأبعاد وإطار عمل التحسين لقواعد البيانات الموزعة
تعتبر قواعد البيانات السحابية الحديثة التوسع بمثابة قرار ثنائي: التوسع الأفقي (scale-out) بإضافة عقد أو التوسع العمودي (scale-up) بإضافة موارد العقدة الواحدة. يعاني هذا المنظور أحادي البعد من قيود، لأن أداء قاعدة البيانات والتكلفة وتكاليف التنسيق تنشأ من التفاعل المشترك بين المرونة الأفقية وموارد العقدة الواحدة (المعالج والذاكرة وعرض النطاق الترددي وعمليات الإدخال/الإخراج للتخزين). وينتج عن ذلك أن الأنظمة غالباً ما تفرط في الاستجابة لقمم الحمل أو تقل استجابتها لضغط الذاكرة أو تتذبذب بين حالات دون المستوى الأمثل.
تقدم هذه الورقة مستوى التوسع (Scaling Plane)، وهو نموذج ثنائي الأبعاد حيث يتم تمثيل كل تكوين قاعدة بيانات موزعة كنقطة (H, V)، حيث يمثل H عدد العقد و V متجه الموارد. على هذا المستوى، يعرّف المؤلفون تقريبات سلسة للكمون والإنتاجية وتكاليف التنسيق والتكلفة النقدية، مما يوفر عرضاً موحداً لمقايضات الأداء. يُظهر البحث أن مسارات التوسع المثلى غالباً ما تتبع مسارات قطرية: تسلسلات تعديل أفقية-عمودية مشتركة تستفيد من التوازي في المجموعة والتحسينات على مستوى العقدة. لهذا الغرض، يقترح المؤلفون خوارزمية DIAGONALSCALE، وهي خوارزمية بحث محلي منفصلة تقيّم الحركات الأفقية والعمودية والقطرية على مستوى التوسع وتختار التكوين الذي يقلل دالة متعددة الأهداف تحت قيود اتفاقية مستوى الخدمة.
تُظهر التجارب أن التوسع القطري يمكن أن يقلل كمون p95 بنسبة تصل إلى 40%، والتكلفة لكل استعلام بنسبة تصل إلى 37%، ويقلل إعادة التوازن بمعامل 2-5 مقارنة بالتوسع الأفقي أو العمودي البحت.
التأثير الاقتصادي: قواعد البيانات السحابية هي بنية تحتية حرجة (المالية والتجارة الإلكترونية واللوجستيات والشبكات الاجتماعية)، وقرارات التوسع غير الصحيحة تؤدي إلى هدر ضخم للتكاليف
الأهمية الحرجة للأداء: قرارات التوسع تؤثر مباشرة على الكمون والإنتاجية والتوفر
التعقيد التشغيلي: استراتيجيات التوسع الخاطئة تؤدي إلى إعادة توازن متكررة وتغييرات في القيادة وعدم استقرار النظام
لاحظ المؤلفون أن: العديد من أحمال العمل تستفيد من تعديلات الموارد الأفقية والعمودية المنسقة وليس المستقلة. وهذا دفعهم إلى بناء نموذج توسع موحد متعدد الأبعاد وتطوير خوارزميات قادرة على التحسين في هذا الفضاء.
نموذج مستوى التوسع (Scaling Plane Model): يقترح تجريد ثنائي الأبعاد جديد لتكوينات قاعدة البيانات المرنة، حيث يتم تمثيل التكوين كنقطة (H, V)، حيث H هو عدد العقد و V هو متجه الموارد
سطوح الأداء التحليلية (Analytical Performance Surfaces): اشتقاق نماذج الشكل المغلق للكمون والإنتاجية والتكلفة وتكاليف التنسيق، مما يكشف البنية الهندسية لهذه المقاييس على مستوى H-V
خوارزمية DIAGONALSCALE: تصميم خوارزمية تحسين منفصلة تقيّم الحي المحلي في مستوى H-V، وتدعم الحركات الأفقية والعمودية والقطرية
ضمانات نظرية: توفير رسومات توضيحية للتحسن الرتيب والتقارب إلى الحد الأدنى المحلي والاستقرار
تقييم شامل: من خلال التجارب على الأسطح الاصطناعية والاختبارات الدقيقة وأنظمة SQL/KV الموزعة، يُظهر مزايا التوسع القطري:
التكوين الحالي: (H, V)، حيث H هو عدد العقد، V = (c, r, b, s) هو المعالج والذاكرة وعرض النطاق الترددي وعمليات الإدخال/الإخراج للتخزين على مستوى العقدة الواحدة
خصائص حمل العمل: معدل الطلب λ، نسبة القراءة/الكتابة، توزيع الوصول
قيود اتفاقية مستوى الخدمة: أقصى كمون Lmax، أدنى إنتاجية Tmin
المخرجات:
التكوين الأمثل التالي: (Hnext, Vnext)
الهدف:
تقليل دالة متعددة الأهداف F(H,V) = αL(H,V) + βC(H,V) + γK(H,V)
الاكتشاف الرئيسي: الحد الأدنى من F نادراً ما يكون على الحواف المحاذية للمحاور (التوسع البحت أفقياً أو عمودياً). بدلاً من ذلك، يقع الحد الأدنى داخل المستوى، على طول مسار قطري.
الاستقرار: معاقبة الحركات المدمرة بناءً على إعادة التوازن المتوقعة
الرتابة: قبول الحركات فقط عندما يتجاوز تحسن F عتبة هامشية ε
تعريف الحي:
N(H,V) = {(H±ΔH, V), (H, V±1), (H±ΔH, V±1)}
عادةً ما يكون ΔH 1-2 عقدة، والحركات العمودية تتوافق مع أنواع الحالات المجاورة.
تدفق الخوارزمية (Algorithm 1):
المدخل: التكوين الحالي (H,V)، اتفاقية مستوى الخدمة (Lmax, Tmin)
المخرج: التكوين التالي (Hnext, Vnext)
1. احسب الحي N(H,V)
2. لكل (H', V') في N:
أ. قدّر L(H', V'), T(H', V'), K(H', V'), C(H', V')
ب. إذا انتهكت اتفاقية مستوى الخدمة، علّم كغير ممكن وتابع
ج. احسب الهدف F(H', V')
د. احسب عقوبة إعادة التوازن Prebalance(H,V; H', V')
هـ. اجعل F'(H', V') = F(H', V') + δPrebalance
3. اختر الجار الممكن (H*, V*) الذي يقلل F'
4. إذا كان F'(H*, V*) < F(H,V) - ε:
أرجع (H*, V*)
وإلا:
أرجع (H,V)
على الرغم من أن الورقة لم تسرد تجارب الاستئصال التقليدية بشكل صريح، فإن المقارنة بين الاستراتيجيات الثلاث (H-only و V-only و Diagonal) تجري فعلياً استئصالاً ضمنياً:
بدون حركة قطرية (H-only + V-only): انخفاض كبير في الأداء
بدون عقوبة الاستقرار: يؤدي إلى تذبذب أكثر تكراراً (يتحكم فيه معامل δ)
أحجام حي مختلفة: تكوين 8 جيران يوازن بين الاستكشاف والتكلفة الحسابية