Modern cloud databases present scaling as a binary decision: scale-out by adding nodes or scale-up by increasing per-node resources. This one-dimensional view is limiting because database performance, cost, and coordination overhead emerge from the joint interaction of horizontal elasticity and per-node CPU, memory, network bandwidth, and storage IOPS. As a result, systems often overreact to load spikes, underreact to memory pressure, or oscillate between suboptimal states. We introduce the Scaling Plane, a two-dimensional model in which each distributed database configuration is represented as a point (H, V), with H denoting node count and V a vector of resources. Over this plane, we define smooth approximations of latency, throughput, coordination overhead, and monetary cost, providing a unified view of performance trade-offs. We show analytically and empirically that optimal scaling trajectories frequently lie along diagonal paths: sequences of joint horizontal and vertical adjustments that simultaneously exploit cluster parallelism and per-node improvements. To compute such actions, we propose DIAGONALSCALE, a discrete local-search algorithm that evaluates horizontal, vertical, and diagonal moves in the Scaling Plane and selects the configuration minimizing a multi-objective function subject to SLA constraints. Using synthetic surfaces, microbenchmarks, and experiments on distributed SQL and KV systems, we demonstrate that diagonal scaling reduces p95 latency by up to 40 percent, lowers cost-per-query by up to 37 percent, and reduces rebalancing by 2 to 5 times compared to horizontal-only and vertical-only autoscaling. Our results highlight the need for multi-dimensional scaling models and provide a foundation for next-generation autoscaling in cloud database systems.
Diagonal Scaling: A Multi-Dimensional Resource Model and Optimization Framework for Distributed Databases 论文ID : 2511.21612标题 : Diagonal Scaling: A Multi-Dimensional Resource Model and Optimization Framework for Distributed Databases作者 : Shahir Abdullah, Syed Rohit Zaman分类 : cs.DC (Distributed Computing)发表时间 : 2025年11月26日 (arXiv v1)论文链接 : https://arxiv.org/abs/2511.21612 现代云数据库将扩展视为二元决策:通过增加节点进行横向扩展(scale-out)或通过增加单节点资源进行纵向扩展(scale-up)。这种单维度视角存在局限性,因为数据库性能、成本和协调开销源于水平弹性与单节点CPU、内存、网络带宽和存储IOPS的联合交互。结果导致系统常常对负载峰值反应过度、对内存压力反应不足,或在次优状态间振荡。
本文引入扩展平面(Scaling Plane) ,这是一个二维模型,其中每个分布式数据库配置表示为点(H, V),H表示节点数,V为资源向量。在此平面上,作者定义了延迟、吞吐量、协调开销和货币成本的平滑近似,提供了性能权衡的统一视图。研究表明,最优扩展轨迹通常沿对角路径:同时利用集群并行性和单节点改进的联合水平-垂直调整序列。为此,作者提出DIAGONALSCALE算法 ,这是一个离散局部搜索算法,在扩展平面中评估水平、垂直和对角移动,并在SLA约束下选择最小化多目标函数的配置。
实验表明,对角扩展相比纯水平或纯垂直自动扩展,可将p95延迟降低高达40%,成本每查询降低高达37%,并将重平衡减少2-5倍。
现代分布式数据库面临的扩展决策困境 :
二元选择的局限性 :传统方法将横向扩展(增加节点)和纵向扩展(增加资源)视为独立决策系统行为问题 :对负载变化反应不当,导致过度配置、SLA违规或频繁的破坏性重平衡缺乏统一视图 :没有综合模型来理解性能、成本和协调开销之间的多维交互经济影响 :云数据库是关键基础设施(金融、电商、物流、社交网络),不当的扩展决策导致巨大的成本浪费性能关键 :扩展决策直接影响延迟、吞吐量和可用性操作复杂性 :错误的扩展策略导致频繁的数据重平衡、领导权变更和系统不稳定横向扩展(Scale-out)的问题 :
增加共识开销(Paxos/Raft消息数量) 扩大副本组规模 增加复制扇出 导致更多的领导权变更 触发昂贵的数据重平衡 纵向扩展(Scale-up)的问题 :
内存升级无法解决跨分区的数据倾斜 CPU升级无法解决元数据瓶颈 最终遇到硬件上限 呈现收益递减 现有自动扩展的不足 :
Kubernetes HPA/VPA等工具分别处理两个维度 基于简单阈值(如CPU > 70%)的反应式策略 不考虑两个维度的非线性交互 无法计算对角轨迹 作者观察到:许多工作负载受益于协调的而非独立的水平和垂直资源调整 。这促使他们构建一个统一的多维扩展模型,并开发能够在此空间中进行优化的算法。
扩展平面模型(Scaling Plane Model) :提出了弹性数据库配置的新型二维抽象,将配置表示为(H, V)点,其中H为节点数,V为资源向量分析性能曲面(Analytical Performance Surfaces) :推导了延迟、吞吐量、成本和协调开销的闭式模型,揭示了这些指标在H-V平面上的几何结构DIAGONALSCALE算法 :设计了在H-V平面中评估局部邻域的离散优化算法,支持水平、垂直和对角移动理论保证 :提供了单调改进、收敛到局部最优和稳定性的证明草图全面评估 :通过合成曲面、微基准测试和分布式SQL/KV系统实验,展示了对角扩展的优势:p95延迟降低高达40% 成本每查询降低高达37% 重平衡减少2-5倍 输入 :
当前配置:(H, V),其中H为节点数,V = (c, r, b, s)为单节点CPU、RAM、带宽和存储IOPS 工作负载特征:请求率λ、读写比例、访问分布 SLA约束:最大延迟Lmax、最小吞吐量Tmin 输出 :
目标 :
最小化多目标函数F(H,V) = αL(H,V) + βC(H,V) + γK(H,V) 满足SLA约束:L(H,V) ≤ Lmax 且 T(H,V) ≥ Tmin 配置空间定义为:
S = {(H,V) : H ≥ 1, c, r, b, s > 0}
其中H为离散整数(节点数),V从有限的实例类型集合中选择。
(a) 节点内在延迟(Node-Intrinsic Latency)
采用加权调和形式:
Lnode(V) = α/c + β/r + γ/b + δ/s
这捕获了:
CPU对计算密集型操作的强影响 RAM对工作集和缓存行为的影响 网络带宽对复制和RPC的作用 存储IOPS对LSM树压缩和日志刷新的效果 (b) 协调延迟(Coordination Latency)
由于共识协议、全局时间戳和元数据同步,协调成本随集群规模增长:
Lcoord(H) = η log H + μH^θ
其中0 < θ < 1创建超对数但亚线性的增长曲线。
(c) 总延迟
L(H,V) = Lnode(V) + Lcoord(H)
关键性质:
∂L/∂H > 0 (延迟随节点增加而增加) ∂L/∂||V|| < 0 (延迟随资源增加而减少) (d) 吞吐量曲面(Throughput Surface)
单节点吞吐量:
Tnode(V) = κ · min(c, r, b, s)
集群吞吐量考虑收益递减:
T(H,V) = H · Tnode(V) · φ(H)
其中:
反映了增加的协调开销和复制成本。
(e) 协调开销曲面(Coordination Overhead Surface)
对于写密集型工作负载,写到达率为λw:
K(H,V) = ρ · Lcoord(H) · λw / T(H,V)
直觉:
协调开销随写负载增加 吞吐量增加时减少 集群规模更大时上升 (f) 货币成本曲面(Monetary Cost Surface)
其中Cnode(V)是具有资源V的实例的云成本。
定义目标函数:
F(H,V) = αL(H,V) + βC(H,V) + γK(H,V)
约束条件:
L(H,V) ≤ Lmax
T(H,V) ≥ Tmin
这创建了一个二维非凸优化问题 。
关键发现 :F的最小值很少在轴对齐边缘(纯scale-up或纯scale-out)上。相反,最小值位于平面内部,沿着对角轨迹 。
这是因为:
L沿V减少但沿H增加 T随H和V增加但饱和 C随H线性增长,随V超线性增长 K随H增长但随V减少 轨迹定义 :
其中H和V都随t增加。设斜率m = dH/d||V||。
梯度对齐条件 :
目标函数的梯度:
沿轨迹方向(1, m)的局部最优满足:
因此最优对角方向(1, m*)与-∇F对齐。
引理1(轴对齐扩展很少最优) :
如果∂F/∂H ≠ 0且∂F/∂||V|| ≠ 0,则最优方向既不是水平也不是垂直。
证明草图 :如果最优扩展是水平的,方向向量为(1, 0)。但:
矛盾。垂直扩展同理。因此需要对角扩展。□
命题(内部最小值的存在性) :
如果L在V中减少,在H中增加,C在两者中增加,K在H中增加但在V中减少,则F至少有一个内部驻点(H*, V*)。
设计原则 :
局部搜索 :探索(H, V)周围的邻居SLA感知 :只考虑可行配置方向多样性 :检查水平、垂直和对角移动稳定性 :根据预期重平衡惩罚破坏性移动单调性 :仅当F改进超过边际ε时接受移动邻域定义 :
N(H,V) = {(H±ΔH, V), (H, V±1), (H±ΔH, V±1)}
ΔH通常为1-2个节点,垂直移动对应相邻实例类型。
算法流程 (Algorithm 1):
输入:当前配置(H,V),SLA(Lmax, Tmin)
输出:下一个配置(Hnext, Vnext)
1. 计算邻域N(H,V)
2. 对N中的每个(H', V'):
a. 估计L(H', V'), T(H', V'), K(H', V'), C(H', V')
b. 如果违反SLA,标记为不可行并继续
c. 计算目标F(H', V')
d. 计算重平衡惩罚Prebalance(H,V; H', V')
e. 设F'(H', V') = F(H', V') + δPrebalance
3. 选择最小化F'的可行邻居(H*, V*)
4. 如果F'(H*, V*) < F(H,V) - ε:
返回(H*, V*)
否则:
返回(H,V)
重平衡惩罚 :
Prebalance = λ1|H' - H| + λ2||V' - V||1 + λ3·ShardMovement(H,V → H', V')
分片移动估计可以使用分区元数据获得。
复杂度分析 :
邻域大小|N| = 8。每次评估计算闭式表达式,时间复杂度O(1)。
因此每个扩展决策的时间复杂度:O(|N|) = O(1)
收敛性定理 :
如果目标评估是精确的且空间是有限的(有限H和有限实例类型),DIAGONALSCALE收敛到局部最小值。
证明草图 :单调下降 + 离散有限状态空间 → 保证终止。
稳定性命题 :
如果δ足够大,DIAGONALSCALE避免在波动工作负载中配置间振荡。
测试系统 :
CockroachDB (分布式SQL):使用Raft共识、基于范围的分区和动态重平衡Redis Cluster (分布式KV):使用哈希槽分片和异步复制合成模型 :参数化的分析扩展平面曲面水平规模 :
垂直实例类型 :
V ∈ {Small, Medium, Large, XLarge}
每个类型映射到云实例族的(c, r, b, s)。
总共20+个配置,形成扩展平面的离散子集。
读密集型 :90% GET,10% PUT(YCSB Workload B)写密集型 :30% GET,70% PUT(YCSB Workload A)混合型 :平衡的GET/PUT比例(Workload D)倾斜型 :Zipfian分布,倾斜参数θ = 0.8动态型 :时变请求率,具有正弦、阶跃和突发流量模式延迟 :p50、p95、p99延迟吞吐量 :ops/s成本 :单位时间成本和每操作成本稳定性 :自动扩展操作次数、重平衡和领导权变更次数SLA违规率 Horizontal-only (H-only) :仅基于CPU/内存添加/删除节点Vertical-only (V-only) :仅基于资源饱和度更改实例类型DiagonalScale(本文) :在H-V空间中进行局部搜索,带稳定性惩罚平台 :禁用HPA+VPA的Kubernetes集群控制器 :实现DIAGONALSCALE的自定义自动扩展控制器监控 :Prometheus + Grafana负载生成 :Locust/YCSB重复次数 :所有实验重复5次,误差条反映标准差合成延迟曲面L(H,V) (图2)展示:
固定V的水平线遇到增加的Lcoord 固定H的垂直线面临收益递减 对角路径到达F最小化的内部谷 成本每查询热图 (图3)显示:
内部最小值可通过对角扩展到达 纯轴对齐策略错过最优区域 观察 :
H-only :振荡,频繁的节点循环和昂贵的重平衡V-only :对负载峰值反应不足,违反SLA约束DiagonalScale :快速稳定,使用更少的破坏性操作结果 :
H-only :重平衡期间出现延迟峰值V-only :CPU和内存饱和DiagonalScale :避免两个问题,保持更低且更稳定的尾延迟具体数值 :
DiagonalScale通过以下方式降低成本:
避免不必要的节点添加 进行小的垂直调整 最小化昂贵的重平衡 成本每查询降低 :高达37%
重平衡事件和扩展操作 :
DiagonalScale将破坏性变更减少2-5倍 更少的领导权变更 更平滑的资源调整 DiagonalScale通过以下方式减少SLA违规:
每个自动扩展决策耗时**< 5ms**(由于闭式评估)。
适合实时控制循环(每次迭代1-5秒)。
虽然论文未明确列出传统消融实验,但通过对比三种策略(H-only、V-only、Diagonal)实际上进行了隐式消融:
无对角移动 (H-only + V-only):性能显著下降无稳定性惩罚 :会导致更频繁的振荡(通过δ参数控制)不同邻域大小 :8邻居配置平衡了探索和计算成本场景:突发流量模式
H-only响应 :立即添加4个节点 → 触发大规模重平衡 → 延迟峰值 → 流量下降后过度配置V-only响应 :升级到XLarge实例 → CPU改善但网络仍饱和 → 部分SLA违规DiagonalScale响应 :添加1个节点 + 升级到Large → 平衡改善 → 无重平衡峰值 → 成本效益更高对角路径普遍最优 :在80%+的工作负载配置中,最优解位于平面内部小垂直调整大影响 :即使是一个实例类型的升级也能显著减少所需的水平扩展稳定性-性能权衡 :适当的δ值(重平衡惩罚)对于避免振荡至关重要工作负载特定性 :写密集型工作负载更受益于对角扩展(由于协调开销)代表系统 :
Google Spanner :Paxos + TrueTime协调Bigtable :基于范围的分区Cassandra :最终一致性复制CockroachDB :Raft共识DynamoDB :哈希分区局限 :横向扩展增加协调成本,在某些情况下超线性增长,导致p99延迟退化。
代表系统 :
Aurora Serverless v2 :支持实例容量的微调整Kubernetes VPA :调整pod大小局限 :
内存升级无法解决跨分区倾斜 CPU升级无法解决元数据瓶颈 最终遇到硬件上限 现有方法 :
Kubernetes HPA :基于CPU或QPS调整副本数Cluster Autoscaler :修改集群节点数基于规则 :CPU > 70%等阈值不足 :
不建模跨H和V的性能响应曲面 不考虑两个维度的非线性交互 不计算对角轨迹 首次 :
构建多维扩展平面 推导(H,V)上的成本/延迟曲面 优化对角扩展轨迹 对角扩展是必要的 :最优配置很少位于纯水平或纯垂直轴上统一模型有效 :扩展平面提供了性能权衡的几何直觉实际性能提升显著 :p95延迟↓40%,成本↓37%,重平衡↓2-5×理论与实践一致 :分析曲面预测与实际系统行为匹配曲面近似 :实际系统有更多二阶效应(如LSM树压缩、垃圾收集)模型校准 :需要采样来拟合参数α, β, γ, δ等局部最优 :算法找到局部而非全局最优离散空间 :实例类型的离散性限制了精细调整单集群假设 :未考虑多区域或联邦部署机器学习增强 :通过ML实时学习曲面近似三维扩展 :扩展到计算、内存、存储解耦架构Serverless应用 :将对角扩展应用于serverless数据库多目标优化 :更复杂的帕累托前沿探索预测性扩展 :结合工作负载预测的主动调整范式转变 :从一维到二维扩展决策是根本性创新理论基础扎实 :提供梯度对齐条件、收敛性证明实用性强 :O(1)复杂度适合实时控制多系统验证 :CockroachDB(强一致)+ Redis Cluster(最终一致)多工作负载 :覆盖读/写/混合/倾斜/动态场景合成+实际 :既有理论验证又有实践证据可重复性 :详细的实现细节和参数设置显著改善 :40%延迟降低和37%成本降低是实质性的稳定性提升 :2-5×重平衡减少对生产系统至关重要统计严谨 :5次重复实验,误差条展示结构良好 :从动机→模型→算法→评估逻辑清晰可视化有效 :图2-7直观展示核心概念数学严谨 :公式表达精确线性组合假设 :F = αL + βC + γK可能过于简单参数敏感性 :α, β, γ权重的选择缺乏系统化方法忽略二阶效应 :如网络拥塞、磁盘争用规模有限 :最大12节点,未测试大规模集群(100+节点)工作负载单一 :主要是YCSB,缺少真实应用trace云环境单一 :未测试不同云提供商的定价模型差异全局最优性 :仅保证局部最优,无全局保证收敛速度 :未分析收敛速率最坏情况分析 :缺少病理工作负载的讨论冷启动问题 :如何初始化参数α, β, γ, δ?在线学习 :如何在运行时调整模型?故障处理 :节点失败时的行为未讨论开创新方向 :多维扩展优化可能成为新研究领域理论框架 :扩展平面模型可被后续工作扩展引用潜力 :预计在数据库和云计算会议中被广泛引用直接应用 :可集成到AWS、GCP、Azure的托管数据库服务成本节约 :37%的成本降低对大规模部署有巨大经济价值稳定性改善 :减少重平衡对运维团队极具吸引力优点 :算法描述清晰,复杂度低挑战 :需要访问CockroachDB/Redis集群,参数校准需要专业知识云原生数据库 :Spanner、CockroachDB、YugabyteDB等混合工作负载 :读写比例变化的应用成本敏感环境 :需要优化云支出的企业动态负载 :具有日间模式或不可预测峰值的系统极小规模 :单节点或2-3节点集群(对角扩展优势不明显)静态工作负载 :负载完全可预测且恒定硬实时系统 :无法容忍任何扩展操作延迟高度定制系统 :扩展行为不符合通用模型6 Spanner (OSDI'12) :Google的全球分布式数据库,Paxos共识7 Dynamo (SOSP'07) :Amazon的高可用KV存储3 Bigtable (TOCS'08) :Google的分布式存储系统4 CockroachDB :开源分布式SQL数据库5 YCSB (SoCC'10) :云服务系统基准测试框架8-10 Kubernetes Autoscaling :HPA、VPA、Cluster Autoscaler维度 评分 说明 创新性 9/10 对角扩展是原创性强的新概念 技术深度 8/10 理论推导扎实,算法设计合理 实验质量 8/10 多系统验证,但规模有限 实用价值 9/10 直接可应用于工业系统 写作质量 8/10 清晰但部分细节可改进 整体 8.4/10 优秀论文,有望产生重要影响
推荐阅读对象 :云数据库研究人员、分布式系统工程师、云平台架构师、自动扩展系统开发者