2025-11-22T19:13:16.751799

A protocol to reduce worst-case latency in deflection-based on-chip networks

Indrusiak

We present a novel protocol that reduces worst-case packet latency in deflection-based on-chip interconnect networks. It enforces the deflection of the header of a packet but not its payload, resulting in a reduction in overall network traffic and, more importantly, worst-case packet latency due to decreased pre-injection latency.

academic

A protocol to reduce worst-case latency in deflection-based on-chip networks

基本信息

论文ID: 2510.11361
标题: A protocol to reduce worst-case latency in deflection-based on-chip networks
作者: Leandro Soares Indrusiak (University of Leeds)
分类: cs.NI (Networking and Internet Architecture), cs.PF (Performance)
发表时间: 2025年10月13日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.11361

摘要

本文提出了一种新颖的协议，用于减少基于偏转路由的片上互连网络中的最坏情况数据包延迟。该协议强制偏转数据包的头部而非其负载，从而减少了总体网络流量，更重要的是，通过减少注入前延迟来降低最坏情况数据包延迟。

研究背景与动机

问题定义

核心问题：在基于偏转路由的片上网络(NoC)中，传统的全包偏转机制会导致严重的延迟问题，特别是在嵌入式实时系统中对性能保证的需求难以满足。
问题重要性：
- 偏转路由网络虽然具有资源效率优势（减少85%芯片面积，降低10倍能耗），但会对网络延迟产生严重影响
- 嵌入式多处理器平台需要性能保证，延迟的增加直接影响端到端性能
- 现有分析模型显示偏转会显著增加最坏情况延迟
现有方法局限性：
- 传统偏转路由在拥塞时会将整个数据包（包括头部和负载）沿替代路径发送
- 这种做法增加了不必要的网络流量，特别是当数据包需要返回注入点重新尝试时
- 现有优化方法主要关注改变路由或减少偏转次数，未考虑偏转过程中的流量优化
研究动机：
- 观察到偏转数据包总是会经过其注入交换机才能再次到达目的地
- 提出只偏转头部而丢弃负载的思路，在注入点重新注入负载
- 目标是减少网络干扰，从而改善整体最坏情况延迟

核心贡献

提出新型偏转协议：创新性地将数据包头部和负载分离处理，只偏转头部而丢弃负载
建立理论分析模型：修改现有的最坏情况延迟分析框架，量化新协议的性能改进
提供性能保证：理论证明新协议在最坏情况延迟方面优于传统方法
广泛实验验证：通过应用特定和大规模合成评估，证明协议在不同场景下的有效性

方法详解

任务定义

输入：基于环形拓扑的无路由器片上网络，采用全包偏转路由机制输出：改进的偏转协议，减少最坏情况数据包延迟 约束条件：保持原有网络功能，不增加额外缓冲开销，满足实时系统性能要求

协议架构

传统偏转机制

在传统协议中，当数据包在目的交换机无法弹出时（如弹出链路被占用），整个数据包会被偏转并沿环路传输直到再次到达目的地。

新协议设计

头部偏转：当发生偏转时，只有数据包头部继续在环路中传输
负载丢弃：数据包负载在偏转点被完全丢弃
负载重注入：当修改后的头部返回到注入交换机时，触发负载的重新注入
头部修改：目的交换机在偏转时修改头部字段，标识需要重新注入

关键技术细节

缓冲管理：

数据包负载在注入后不能立即从注入缓冲区删除
采用SAFC或SAMQ缓冲技术管理重注入需求
在截止时间约束下（Di ≤ Ti），不需要额外缓冲内存

头部识别机制：

注入交换机必须能识别偏转的头部
头部包含目的交换机和数据包流的唯一标识符
通过字段修改实现重注入触发机制

流量优化：

传统方式：完整数据包偏转 = 头部(H) + 负载(L-H)
新协议：仅头部偏转 = 头部(H)
流量减少 = (L-H) × 偏转次数 × 返回路径长度

技术创新点

分离式偏转策略：
- 突破传统全包偏转思维
- 利用环形网络拓扑特性（偏转包必经注入点）
- 实现负载的就地重用
干扰减少机制：
- 不直接减少单个数据包的偏转次数
- 通过减少网络流量降低对其他数据包的干扰
- 重点优化注入前延迟（Ipre）
向后兼容设计：
- 可与现有偏转减少技术结合使用
- 保持原有网络行为的一致性
- 支持端到端确认机制扩展

实验设置

数据集

应用特定评估：
- 使用39流自动驾驶车辆(AV)基准测试
- 配置：VGA分辨率摄像头，8位色彩，25fps
- 生成100个随机映射避免偏差
大规模合成评估：
- 每个基准包含100个随机生成的流集
- 流数量从20增加到280
- 参数范围：周期1-100微秒，抖动0-50%周期，数据包大小16-48或32-96个flit

网络配置

网络拓扑：4×4、5×5、6×6、7×7、8×8、9×9核心网络
技术参数：32位flit，1-flit头部，1GHz时钟频率
偏转设置：最多0-3次偏转，使用最老优先活锁预防机制

评价指标

最坏情况延迟减少百分比：新协议相对基线的延迟改进
可调度性比率：在基准测试集中完全可调度的案例百分比
池化平均改进：所有流和映射的平均改进

对比方法

基线方法：Alazemi等人提出的传统无路由器网络协议
分析方法：使用Indrusiak和Burns的最坏情况延迟分析模型

实验结果

主要结果

应用特定评估结果

网络规模	4×4	5×5	6×6	7×7	8×8	9×9
最大改进(%)	93.07	89.45	89.26	89.33	83.36	80.66
池化平均(%)	6.60	3.33	3.20	2.64	2.16	0.92

关键发现：

所有网络拓扑都能从新协议中受益
最大改进可达93%，主要出现在注入前干扰严重的流中
随着网络规模增大，平均改进逐渐减小（流量分布更均匀）

大规模合成评估结果

新协议在可调度性比率方面显著优于基线：

单次偏转场景：可调度性改进超过20%
多次偏转场景：在中等负载下表现最佳
网络规模影响：较小网络(4×4)改进更明显
数据包大小影响：较大数据包(32-96 flit)推动网络趋向饱和

消融实验

通过不同偏转次数(0-3次)的对比分析：

0次偏转：新协议与基线完全相同（验证正确性）
1次偏转：新协议优势最明显
多次偏转：改进程度随偏转次数增加而减小

理论分析验证

修改后的注入前空闲时间分析公式：

原始公式涉及所有流的完整数据包长度Lj
新协议公式将偏转流的负载长度替换为头部长度H
由于Lj > H，新协议理论上必然优于原始方法

实验发现

最佳改进条件：注入前干扰严重且网络未完全饱和的场景
规模效应：RLrec算法在大网络中生成更多小环，限制了改进空间
负载敏感性：改进效果与数据包大小和偏转频率正相关

理论优势：新协议在最坏情况延迟方面理论上优于所有现有方法
实际效果：在多种场景下实现显著的延迟减少和可调度性改进
实现可行性：无需额外硬件开销，可使用现有缓冲技术实现
应用价值：特别适用于硬实时系统的性能保证需求

局限性

拓扑限制：主要适用于环形网络拓扑
改进衰减：在大型网络或高负载下改进效果有限
实现复杂性：需要修改注入缓冲管理和头部识别机制
评估范围：未量化平均情况延迟和能耗改进

未来方向

拓扑扩展：探索在其他网络拓扑中的应用可能性
性能量化：评估平均延迟和能耗改进效果
硬件实现：开发具体的硬件实现方案和原型验证
协议优化：与其他偏转减少技术的结合优化

深度评价

优点

创新性强：头部-负载分离的偏转思路具有原创性和启发性
理论严谨：提供完整的数学分析框架和理论证明
实验全面：涵盖应用特定和大规模合成两类评估方法
实用价值高：解决实时系统中的关键性能问题
写作清晰：技术描述准确，逻辑结构合理

不足

应用范围受限：主要针对环形网络，对其他拓扑的适用性不明确
实现细节不足：头部修改的具体编码方法和硬件实现细节缺乏
对比基线有限：主要与一种基线方法对比，缺乏与其他优化技术的比较
评估指标单一：重点关注最坏情况延迟，对平均性能和能耗影响分析不足

影响力

学术贡献：为偏转路由网络优化提供新的研究方向
实用价值：可直接应用于嵌入式实时系统的NoC设计
可复现性：提供详细的分析模型和实验设置，便于复现和扩展
启发意义：分离处理的思路可能启发其他网络优化研究

适用场景

硬实时系统：需要严格延迟保证的嵌入式应用
资源受限环境：对面积和功耗敏感的片上网络设计
环形网络架构：采用环形拓扑的NoC系统
中等规模网络：4×4到6×6规模的网络获得最佳改进效果

参考文献

本文引用了15篇相关研究，主要包括：

1 Alazemi等人的无路由器网络架构
6 Indrusiak和Burns的最坏情况延迟分析
8 Liu等人的IMR环形网络设计
其他偏转路由、实时分析和NoC优化相关工作

总体评价：这是一篇高质量的系统架构论文，提出了创新的偏转路由优化协议，具有扎实的理论基础和全面的实验验证。虽然在应用范围和实现细节方面存在一定局限性，但其核心思想具有重要的学术价值和实用意义，为片上网络优化研究提供了新的方向。

A protocol to reduce worst-case latency in deflection-based on-chip networks

A protocol to reduce worst-case latency in deflection-based on-chip networks

基本信息

摘要

研究背景与动机

问题定义

核心贡献

方法详解

任务定义

协议架构

传统偏转机制

新协议设计

关键技术细节

技术创新点

实验设置

数据集

网络配置

评价指标

对比方法

实验结果

主要结果

应用特定评估结果

大规模合成评估结果

消融实验

理论分析验证

实验发现

相关工作

偏转路由研究方向

本文定位

相关优化工作

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献