In this paper, we introduce a class of functions that assume only a limited number $λ$ of values within a given Hamming $Ï$-ball and call them locally $(Ï, λ)$-bounded functions. We develop function-correcting codes (FCCs) for a subclass of these functions and propose an upper bound on the redundancy of FCCs. The bound is based on the minimum length of an error-correcting code with a given number of codewords and a minimum distance. Furthermore, we provide a sufficient optimality condition for FCCs when $λ= 4$. We also demonstrate that any function can be represented as a locally $(Ï, λ)$-bounded function, illustrating this with a representation of Hamming weight distribution functions. Furthermore, we present another construction of function-correcting codes for Hamming weight distribution functions.
论文ID : 2504.07804标题 : Function-Correcting Codes for Locally Bounded Functions作者 : Charul Rajput, B. Sundar Rajan, Ragnar Freij-Hollanti, Camilla Hollanti机构 : Aalto University (Finland), Indian Institute of Science (India)分类 : cs.IT, math.IT (Information Theory)发表时间 : 2025年11月12日 (arXiv v3)论文链接 : https://arxiv.org/abs/2504.07804 本文引入了一类新的函数——局部(ρ, λ)-有界函数,这类函数在给定的Hamming ρ-球内仅取有限个λ个值。作者为这类函数的子类开发了函数纠错码(FCCs),并提出了基于最小码长的冗余度上界。特别地,当λ=4时,给出了充分最优性条件。论文还证明任意函数都可表示为局部(ρ, λ)-有界函数,并以Hamming权重分布函数为例进行了说明,同时提供了针对该函数的另一种FCC构造方法。
在数据传输和存储过程中,传统的错误纠正码(ECCs)致力于保护整个消息向量免受错误影响。然而,在许多实际场景中,接收方仅关心消息的某个特定属性或函数值(如机器学习输出、Hamming权重等),而非完整消息。函数纠错码(FCCs)正是为解决这一问题而设计的。
效率提升 :当消息很大但函数输出较小时,保护函数值比保护整个消息更高效实际应用 :在档案数据存储、机器学习算法输出保护、上下文感知弹性等场景中具有重要价值理论意义 :FCCs为信息论提供了新的研究视角,连接了编码理论和函数保护Lenz等人1 首次提出FCCs理论,针对局部二值函数、Hamming权重函数等特定函数族设计了编码 现有工作主要集中在特定函数类别,缺乏统一的理论框架 对于一般函数的冗余度界限研究不够充分 最优性条件的刻画不够完善 本文将局部二值函数推广到局部(ρ, λ)-有界函数这一更一般的框架,为更广泛的函数类别提供了系统的FCC构造方法和理论分析。
理论框架扩展 :将局部二值函数推广为局部(ρ, λ)-有界函数,提供了更一般的函数分类体系冗余度上界 :对局部(2t, 4)-有界函数,证明了rf(k,t) ≤ 3t 对一般局部(2t, λ)-有界函数,证明了rf(k,t) ≤ N(λ, 2t) 最优性条件 :给出了λ=4时FCC达到最优的充分条件(Theorem 5)函数表示定理 :证明任意函数都可表示为局部(ρ, λ)-有界函数,并具体分析了Hamming权重分布函数构造方法 :提供了基于着色映射和错误纠正码的系统化FCC构造方法应用实例 :针对Hamming权重分布函数给出了简洁的最优构造函数纠错码(f, t)-FCC :给定函数f: F₂ᵏ → S,系统编码C: F₂ᵏ → F₂ᵏ⁺ʳ称为(f, t)-FCC,如果对任意u₁, u₂ ∈ F₂ᵏ满足f(u₁) ≠ f(u₂)时,有:
d ( C ( u 1 ) , C ( u 2 ) ) ≥ 2 t + 1 d(C(u_1), C(u_2)) \geq 2t+1 d ( C ( u 1 ) , C ( u 2 )) ≥ 2 t + 1
其中d表示Hamming距离。这确保在t个比特错误后仍能正确恢复函数值f(u)。
最优冗余度 :rf(k,t)定义为存在(f, t)-FCC时编码C: F₂ᵏ → F₂ᵏ⁺ʳ的最小冗余度r。
定义(函数球) :函数f: F₂ᵏ → S在u ∈ F₂ᵏ处半径ρ的函数球定义为:
B f ( u , ρ ) = { f ( u ′ ) ∣ u ′ ∈ F 2 k and d ( u , u ′ ) ≤ ρ } B_f(u, \rho) = \{f(u') | u' \in \mathbb{F}_2^k \text{ and } d(u, u') \leq \rho\} B f ( u , ρ ) = { f ( u ′ ) ∣ u ′ ∈ F 2 k and d ( u , u ′ ) ≤ ρ }
定义(局部(ρ, λ)-有界函数) :如果对所有u ∈ F₂ᵏ,满足|Bf(u, ρ)| ≤ λ,则称f为局部(ρ, λ)-有界函数。
连续性条件 :假设存在Im(f)上的全序≺,使得每个Bf(u, ρ)形成连续块(contiguous block)。
Lemma 1 的核心思想:对于满足连续性条件的局部(ρ, λ)-有界函数,存在映射Colf: F₂ᵏ → λ ,使得对任意d(u,v) ≤ ρ且f(u) ≠ f(v)的u,v,有Colf(u) ≠ Colf(v)。
构造方法 :
设Im(f) = {y₀ ≺ y₁ ≺ ... ≺ yₑ₋₁} 定义γ: Im(f) → λ ,γ(yⱼ) = 1 + (j mod λ)(循环着色) 定义Colf(u) = γ(f(u)) 由于每个函数球是大小≤λ的连续块,循环着色在其上是单射的,从而保证了分离性质。
编码函数 :Enc(u) = (u, uₚ),其中uₚ = (u'ₚ)ᵗ,且
u p ′ = { 000 if C o l f ( u ) = 1 110 if C o l f ( u ) = 2 101 if C o l f ( u ) = 3 011 if C o l f ( u ) = 4 u'_p = \begin{cases}
000 & \text{if } Col_f(u) = 1\\
110 & \text{if } Col_f(u) = 2\\
101 & \text{if } Col_f(u) = 3\\
011 & \text{if } Col_f(u) = 4
\end{cases} u p ′ = ⎩ ⎨ ⎧ 000 110 101 011 if C o l f ( u ) = 1 if C o l f ( u ) = 2 if C o l f ( u ) = 3 if C o l f ( u ) = 4
正确性证明 :
Case 1 :d(u,v) ≥ 2t+1时,直接满足d(Enc(u), Enc(v)) ≥ 2t+1Case 2 :d(u,v) ≤ 2t时,由Colf性质知Colf(u) ≠ Colf(v),故d(u'ₚ, v'ₚ) = 2,从而d(uₚ, vₚ) = 2t,加上d(u,v) ≥ 1,总距离≥2t+1冗余度 :rf(k,t) ≤ 3t
编码函数 :使用二元错误纠正码C,具有λ个码字、最小距离2t、长度N(λ, 2t)。设码字为C₁, C₂, ..., Cλ,定义:
E n c ( u ) = ( u , u p ) , u p = C C o l f ( u ) Enc(u) = (u, u_p), \quad u_p = C_{Col_f(u)} E n c ( u ) = ( u , u p ) , u p = C C o l f ( u )
冗余度上界 :rf(k,t) ≤ N(λ, 2t)
关键技术点 :
利用着色映射将函数值映射到有限集合λ 通过ECC保证不同颜色对应的冗余位有足够距离 巧妙结合信息位距离和冗余位距离 对于∆ₜ(u) = ⌊wt(u)/T⌋,当(4t)/(m-1) ≥ T > (4t)/m时:
编码函数 :设a = ⌈m/2⌉ + 1,使用a个码字、最小距离2t的ECC C,定义:
E n c ( u ) = ( u , u p ) , u p = C Δ T ( u ) m o d a Enc(u) = (u, u_p), \quad u_p = C_{\Delta_T(u) \mod a} E n c ( u ) = ( u , u p ) , u p = C Δ T ( u ) mod a
冗余度上界 :r∆ₜ(k,t) ≤ N(⌈m/2⌉ + 1, 2t)
特别地,当t ≥ T > 2t/3时,r∆ₜ(k,t) ≤ 3t。
统一框架 :通过局部有界性和连续性条件,将多种函数类别统一到一个框架下着色技术 :创新性地使用循环着色方法,将函数值映射问题转化为组合着色问题模块化设计 :将FCC构造分解为着色映射和ECC两个独立模块,提高了灵活性理论与构造结合 :不仅给出上界,还提供了达到上界的显式构造参数优化 :对不同参数范围给出了精细的界限分析本文是纯理论性工作,不涉及传统意义上的实验。主要通过数学证明和理论分析验证方法的有效性。
构造性证明 :通过显式构造满足条件的编码函数,证明冗余度上界的可达性下界分析 :使用Plotkin界和距离需求矩阵理论建立冗余度下界最优性验证 :通过匹配上下界证明特定参数下构造的最优性通过具体函数f: F₂² → {0,1}展示了DRM和FDM的计算过程,验证了理论框架的可操作性。
展示了满足连续性条件的具体函数:
f ( u ) = 0 k − w t ( u ) 1 w t ( u ) f(u) = 0^{k-wt(u)}1^{wt(u)} f ( u ) = 0 k − wt ( u ) 1 wt ( u )
证明了其函数球Bf(u, ρ) = {0ᵏ⁻ʲ1ʲ : j ∈ Wu,ρ}形成连续块。
Theorem 6 :对局部(2t, λ)-有界函数,
r f ( k , t ) ≤ N ( λ , 2 t ) r_f(k,t) \leq N(\lambda, 2t) r f ( k , t ) ≤ N ( λ , 2 t )
Lemma 3 :N(4, 2t) = 3t(精确值)
推论 :对局部(2t, 4)-有界函数,rf(k,t) ≤ 3t
Theorem 5 :对局部(2t, 4)-有界函数,若|Im(f)| ≥ 3且存在u₁, u₂, u₃满足:
f(ui) ≠ f(uj) (i ≠ j) d(u₁, u₂) = 1, d(u₃, u₁) = 1, d(u₃, u₂) = 2 则rf(k,t) = 3t为最优。
证明思路 :通过Plotkin界得到下界rf(k,t) ≥ 3t,结合上界得到紧致性。
Theorem 7 :∆ₜ是局部(2t, ⌊4t/T⌋ + 2)-有界函数
推论 :
T > 4t:∆ₜ是2t-局部二值函数 4t ≥ T > 2t:∆ₜ是局部(2t, 3)-有界函数 t ≥ T > 2t/3:r∆ₜ(k,t) ≤ 3t Corollary 2 :Hamming权重函数是局部(2t, 4t+2)-有界函数
函数类型 λ值 冗余度上界 最优性 2t-局部二值 2 2t 最优1 局部(2t,3) 3 N(3,2t) - 局部(2t,4) 4 3t 条件最优 一般局部(2t,λ) λ N(λ,2t) -
普遍性 :任意函数f: F₂ᵏ → S都可表示为局部(ρ, λ)-有界函数,其中λ = max_{u∈F₂ᵏ} |Bf(u, ρ)|参数关系 :对于Hamming权重分布函数,λ与阈值T呈反比关系:T越大,λ越小,编码效率越高码长关系 :N(4, 2t) = 3t的精确结果为λ=4情况提供了理论保证连续性重要性 :连续性条件是构造方法的关键假设,保证了着色映射的有效性Lenz et al. 1 (2023) :首次系统提出FCC理论框架
定义了距离需求矩阵(DRM)和函数距离矩阵(FDM) 针对局部二值函数、Hamming权重函数给出构造 建立了基本的上下界理论 Xia et al. 12 (2024) :扩展到符号对读取信道
提出函数纠错符号对码(FCSPCs) 针对特定信道模型优化 Premlal & Rajan 13 (2025) :冗余度下界研究
提供了FCC冗余度的一般下界 证明了线性函数情况下的紧致性 Ge et al. 14 (2025) :Hamming权重函数优化
改进了Hamming权重函数的冗余度界 提供了达到下界的最优构造 Singh et al. 15 (2025) :b-符号读取信道
扩展到有限域上的b-符号读取信道 引入不规则b-符号距离码 理论普遍性 :提供了统一的局部有界函数框架,涵盖更广泛的函数类别构造系统性 :基于着色映射的构造方法具有模块化和可扩展性参数精细化 :对不同λ值给出了精确的冗余度界限应用灵活性 :证明了任意函数都可纳入该框架,增强了理论的适用性理论框架 :成功建立了局部(ρ, λ)-有界函数的理论体系,推广了局部二值函数的概念冗余度界 :对满足连续性条件的局部(2t, λ)-有界函数,证明了rf(k,t) ≤ N(λ, 2t),特别地λ=4时rf(k,t) ≤ 3t最优性 :给出了λ=4情况下达到最优的充分条件,并证明了N(4, 2t) = 3t普遍性 :证明了任意函数都可表示为局部(ρ, λ)-有界函数,扩展了FCC的适用范围应用实例 :为Hamming权重分布函数提供了简洁的最优构造连续性假设 :所有构造依赖于函数球形成连续块的假设,限制了适用范围不是所有局部有界函数都满足此条件 对于不满足连续性的函数,方法不适用 二元域限制 :当前理论仅针对F₂ᵏ,对一般有限域Fqᵏ的扩展尚未完成最优性条件 :仅给出了λ=4时的充分条件,对其他λ值的最优性刻画不完整ECC依赖 :冗余度上界依赖于N(λ, 2t)的存在性,而最优ECC的构造本身是困难问题实用性验证 :缺乏实际应用场景的性能评估和复杂度分析有限域扩展 :将理论推广到一般有限域Fqᵏ(作者提到正在进行中)连续性放松 :研究不满足连续性条件的局部有界函数的FCC构造最优性完整刻画 :给出一般λ值情况下的必要充分最优性条件计算复杂度 :分析编码和解码算法的计算复杂度实际应用 :在机器学习、数据存储等实际场景中验证方法的有效性非系统码 :研究非系统FCC是否能进一步降低冗余度概念推广 :从局部二值函数到局部(ρ, λ)-有界函数的推广自然且有意义统一框架 :提供了处理多种函数类别的统一视角技术新颖 :着色映射方法巧妙地将函数保护问题转化为组合问题所有定理都有完整严格的证明 逻辑链条清晰,从基本概念到主要结果层层递进 使用了组合学、编码理论的多种工具 提供了上界和最优性条件 给出了显式构造方法 通过具体函数类别验证了理论 缺少下界的系统研究(主要依赖已有结果) 结构清晰,从预备知识到主要结果组织合理 通过具体例子帮助理解抽象概念 符号系统一致,定义明确 连续性假设 :Lemma 1及后续所有构造都依赖于函数球形成连续块的假设。虽然Example 4展示了满足该条件的函数,但:
未系统刻画哪些函数满足此条件 对不满足条件的函数没有替代方案 连续性检验的复杂度未讨论 最优性条件 :Theorem 5仅给出λ=4的充分条件,对λ>4的情况没有类似结果下界研究 :主要使用已有的Plotkin界,缺少针对局部有界函数的专门下界参数优化 :N(λ, 2t)的精确值仅对λ=4给出,其他情况依赖ECC理论计算复杂度 :未分析编码和解码的时间复杂度实际应用 :缺少在具体应用场景(如数据存储、机器学习)中的性能评估与ECC比较 :Remark 1虽然指出FCC优于ECC,但缺少定量比较着色映射 :循环着色是否最优?是否存在其他着色方案?ECC选择 :如何选择合适的ECC以最小化N(λ, 2t)?参数依赖 :冗余度对k(信息长度)的依赖关系未明确理论扩展 :为FCC理论提供了重要的推广,填补了局部二值函数和一般函数之间的空白方法论 :着色映射方法为后续研究提供了新工具应用潜力 :证明任意函数可表示为局部有界函数,扩大了FCC的适用范围理论导向 :当前主要是理论贡献,实际应用需要进一步工作构造可行 :提供的构造方法可直接实现,具有实用基础参数灵活 :不同λ值对应不同应用场景,提供了设计灵活性所有构造都有显式算法 证明完整,可独立验证 例子具体,便于理解和实现 函数特性 :函数球形成连续块(如Hamming权重分布函数)参数范围 :λ较小(如λ≤4),可获得紧致界应用需求 :仅需保护函数值而非完整消息数据存储 :档案数据的元数据保护(如文件大小、校验和)机器学习 :分类结果、置信度等输出保护分布式计算 :中间计算结果的函数值保护物联网 :传感器数据的统计量保护函数球不形成连续块 需要保护完整消息(此时ECC更合适) λ非常大(接近|Im(f)|),FCC优势不明显 1 A. Lenz, R. Bitar, A. Wachter-Zeh, and E. Yaakobi, "Function-correcting codes," IEEE Trans. Inf. Theory, 2023.
13 R. Premlal and B. S. Rajan, "On function-correcting codes," IEEE Trans. Inf. Theory, 2025.
14 G. Ge, Z. Xu, X. Zhang, and Y. Zhang, "Optimal redundancy of function-correcting codes," arXiv preprint, 2025.
17 M. Plotkin, "Binary codes with specified minimum distance," IRE Trans. Inf. Theory, 1960.
理论创新 : ★★★★★技术深度 : ★★★★☆实用价值 : ★★★☆☆写作质量 : ★★★★★综合评价 : ★★★★☆这是一篇高质量的理论性论文,在FCC领域做出了重要的理论贡献。局部有界函数框架的提出和着色映射方法的应用都具有创新性。虽然在实用性验证和理论完整性方面还有提升空间,但作为基础理论研究,本文为后续工作奠定了坚实基础。特别适合对编码理论、信息论感兴趣的研究者阅读。