Following the concentration of the measure theory formalism, we consider the transformation $Φ(Z)$ of a random variable $Z$ having a general concentration function $α$. If the transformation $Φ$ is $λ$-Lipschitz with $λ>0$ deterministic, the concentration function of $Φ(Z)$ is immediately deduced to be equal to $α(\cdot/λ)$. If the variations of $Φ$ are bounded by a random variable $Î$ having a concentration function (around $0$) $β: \mathbb R_+\to \mathbb R$, this paper sets that $Φ(Z)$ has a concentration function analogous to the so-called parallel product of $α$ and $β$. With this result at hand (i) we express the concentration of random vectors with independent heavy-tailed entries, (ii) given a transformation $Φ$ with bounded $k^{\text{th}}$ differential, we express the so-called "multi-level" concentration of $Φ(Z)$ as a function of $α$, and the operator norms of the successive differentials up to the $k^{\text{th}}$ (iii) we obtain a heavy-tailed version of the Hanson-Wright inequality.
论文ID : 2402.08206标题 : Operation with Concentration Inequalities作者 : Cosme Louart (香港中文大学(深圳)数据科学学院)分类 : math.PR (概率论), math.FA (泛函分析)发表时间 : 2024年2月提交,2025年10月修订版本论文链接 : https://arxiv.org/abs/2402.08206v9 本文在测度集中理论的框架下,研究随机变量Z Z Z 具有一般集中函数α \alpha α 时,其变换Φ ( Z ) \Phi(Z) Φ ( Z ) 的集中性质。当变换Φ \Phi Φ 是确定性的λ \lambda λ -Lipschitz函数时,Φ ( Z ) \Phi(Z) Φ ( Z ) 的集中函数为α ( ⋅ / λ ) \alpha(\cdot/\lambda) α ( ⋅ / λ ) 。当Φ \Phi Φ 的变化被具有集中函数β : R + → R \beta: \mathbb{R}_+ \to \mathbb{R} β : R + → R 的随机变量Λ \Lambda Λ 界定时,本文证明Φ ( Z ) \Phi(Z) Φ ( Z ) 具有类似于α \alpha α 和β \beta β 的"并联乘积"的集中函数。基于此结果,论文:(i) 表达了具有独立重尾分量的随机向量的集中性;(ii) 对于具有有界k k k 阶微分的变换Φ \Phi Φ ,表达了Φ ( Z ) \Phi(Z) Φ ( Z ) 的"多层次"集中性;(iii) 获得了Hanson-Wright不等式的重尾版本。
测度集中理论的一个基本结果是:对于高斯随机向量Z ∼ N ( 0 , I n ) Z \sim N(0, I_n) Z ∼ N ( 0 , I n ) 和任何欧几里德范数的1-Lipschitz映射f : R n → R f: \mathbb{R}^n \to \mathbb{R} f : R n → R ,有:
∀ t ≥ 0 : P ( ∣ f ( Z ) − E [ f ( Z ) ] ∣ > t ) ≤ 2 e − t 2 / 2 \forall t \geq 0: P(|f(Z) - E[f(Z)]| > t) \leq 2e^{-t^2/2} ∀ t ≥ 0 : P ( ∣ f ( Z ) − E [ f ( Z )] ∣ > t ) ≤ 2 e − t 2 /2
当变换F F F 是λ \lambda λ -Lipschitz时,F ( Z ) F(Z) F ( Z ) 的集中函数为α ( ⋅ / λ ) \alpha(\cdot/\lambda) α ( ⋅ / λ ) 。但当λ \lambda λ 不是常数而是随机变量Λ ( Z ) \Lambda(Z) Λ ( Z ) 时,如何刻画F ( Z ) F(Z) F ( Z ) 的集中性质?
理论完善性 : 扩展经典集中不等式到更一般的情形应用广泛性 : 涵盖重尾分布、非Lipschitz泛函等实际场景技术创新性 : 引入并联运算处理随机Lipschitz常数经典结果仅适用于确定性Lipschitz常数 重尾分布的集中性质研究不够系统 缺乏统一框架处理多层次集中现象 建立了随机Lipschitz常数下的集中不等式理论框架 ,将经典结果推广到Λ \Lambda Λ 为随机变量的情形引入了最大单调算子的并联运算 ,提供了处理集中函数运算的数学工具发展了重尾随机向量的集中理论 ,系统研究了独立重尾分量向量的集中性质建立了多层次集中不等式 ,刻画了具有有界高阶微分函数的集中性获得了Hanson-Wright不等式的重尾推广 ,扩展了二次型的集中结果定理0.1 : 设( E , d ) (E,d) ( E , d ) , ( E ′ , d ′ ) (E',d') ( E ′ , d ′ ) 为度量空间,Z ∈ E Z \in E Z ∈ E 为随机变量,Λ : E → R \Lambda: E \to \mathbb{R} Λ : E → R 为可测映射。若存在严格递减映射α , β : R + → R + \alpha, \beta: \mathbb{R}_+ \to \mathbb{R}_+ α , β : R + → R + 使得对任何1-Lipschitz映射f : E → R f: E \to \mathbb{R} f : E → R 和Z Z Z 的独立副本Z ′ Z' Z ′ :
P ( ∣ f ( Z ) − f ( Z ′ ) ∣ > t ) ≤ α ( t ) , P ( Λ ( Z ) > t ) ≤ β ( t ) P(|f(Z) - f(Z')| > t) \leq \alpha(t), \quad P(\Lambda(Z) > t) \leq \beta(t) P ( ∣ f ( Z ) − f ( Z ′ ) ∣ > t ) ≤ α ( t ) , P ( Λ ( Z ) > t ) ≤ β ( t )
且变换Φ : E → E ′ \Phi: E \to E' Φ : E → E ′ 满足:
d ′ ( Φ ( z ) , Φ ( z ′ ) ) ≤ max ( Λ ( z ) , Λ ( z ′ ) ) ⋅ d ( z , z ′ ) d'(\Phi(z), \Phi(z')) \leq \max(\Lambda(z), \Lambda(z')) \cdot d(z,z') d ′ ( Φ ( z ) , Φ ( z ′ )) ≤ max ( Λ ( z ) , Λ ( z ′ )) ⋅ d ( z , z ′ )
则对任何1-Lipschitz映射g : E ′ → R g: E' \to \mathbb{R} g : E ′ → R :
P ( ∣ g ( Φ ( Z ) ) − g ( Φ ( Z ′ ) ) ∣ > t ) ≤ 3 ( α − 1 ⋅ β − 1 ) − 1 ( t ) P(|g(\Phi(Z)) - g(\Phi(Z'))| > t) \leq 3(\alpha^{-1} \cdot \beta^{-1})^{-1}(t) P ( ∣ g ( Φ ( Z )) − g ( Φ ( Z ′ )) ∣ > t ) ≤ 3 ( α − 1 ⋅ β − 1 ) − 1 ( t )
论文引入最大单调算子类M \mathcal{M} M ,包括:
M ↑ \mathcal{M}^{\uparrow} M ↑ : 最大非递减算子类M ↓ \mathcal{M}^{\downarrow} M ↓ : 最大非递增算子类对于算子f , g : R → 2 R f, g: \mathbb{R} \to 2^{\mathbb{R}} f , g : R → 2 R :
并联和 : f ⊞ g = ( f − 1 + g − 1 ) − 1 f \boxplus g = (f^{-1} + g^{-1})^{-1} f ⊞ g = ( f − 1 + g − 1 ) − 1 并联积 : f ⊟ g = ( f − 1 ⋅ g − 1 ) − 1 f \boxminus g = (f^{-1} \cdot g^{-1})^{-1} f ⊟ g = ( f − 1 ⋅ g − 1 ) − 1 这些运算满足交换律、结合律和分配律。
命题2.21 : 考虑随机向量X = ( X 1 , … , X n ) X = (X_1, \ldots, X_n) X = ( X 1 , … , X n ) ,其中X i = ϕ i ( Z i ) X_i = \phi_i(Z_i) X i = ϕ i ( Z i ) ,Z i Z_i Z i 为独立的双边拉普拉斯随机变量。定义:
h ( t ) = sup ∣ u − v ∣ ≤ t , i ∈ [ n ] ∣ ϕ i ( u ) − ϕ i ( v ) ∣ ∣ u − v ∣ h(t) = \sup_{|u-v| \leq t, i \in [n]} \frac{|\phi_i(u) - \phi_i(v)|}{|u-v|} h ( t ) = sup ∣ u − v ∣ ≤ t , i ∈ [ n ] ∣ u − v ∣ ∣ ϕ i ( u ) − ϕ i ( v ) ∣
对任何1-Lipschitz映射f : R n → R f: \mathbb{R}^n \to \mathbb{R} f : R n → R :
P ( ∣ f ( X ) − f ( X ′ ) ∣ > t ) ≤ 3 C E 1 ∘ min ( ( I d ⋅ h ) − 1 ( 2 c t ) , c t 2 h ( log n ) ) P(|f(X) - f(X')| > t) \leq 3CE_1 \circ \min\left((Id \cdot h)^{-1}(2ct), \frac{ct}{2h(\log n)}\right) P ( ∣ f ( X ) − f ( X ′ ) ∣ > t ) ≤ 3 C E 1 ∘ min ( ( I d ⋅ h ) − 1 ( 2 c t ) , 2 h ( l o g n ) c t )
定理0.2 : 设Z ∈ R n Z \in \mathbb{R}^n Z ∈ R n 满足对任何1-Lipschitz映射f f f :
P ( ∣ f ( Z ) − m f ∣ > t ) ≤ α ( t ) P(|f(Z) - m_f| > t) \leq \alpha(t) P ( ∣ f ( Z ) − m f ∣ > t ) ≤ α ( t )
对于d d d 次可微映射Φ : R n → R p \Phi: \mathbb{R}^n \to \mathbb{R}^p Φ : R n → R p 和1-Lipschitz映射g : R p → R g: \mathbb{R}^p \to \mathbb{R} g : R p → R :
P ( ∣ g ( Φ ( Z ) ) − m g ∣ > t ) ≤ 2 d α ( 1 e min k ∈ [ d ] ( t d m k ) 1 / k ) P(|g(\Phi(Z)) - m_g| > t) \leq 2^d \alpha\left(\frac{1}{e}\min_{k \in [d]}\left(\frac{t}{dm_k}\right)^{1/k}\right) P ( ∣ g ( Φ ( Z )) − m g ∣ > t ) ≤ 2 d α ( e 1 min k ∈ [ d ] ( d m k t ) 1/ k )
其中m k m_k m k 为∥ d k Φ ∣ Z ∥ \|d^k\Phi|_Z\| ∥ d k Φ ∣ Z ∥ 的中位数。
论文主要通过理论分析验证结果,包括:
算子性质验证 : 证明并联运算的各种代数性质集中函数计算 : 具体计算各种分布的集中函数界的紧性分析 : 通过构造例子验证界的紧性重尾分布 : 考虑密度为t ↦ q 2 ( 1 + ∣ t ∣ ) − 1 − q t \mapsto \frac{q}{2}(1+|t|)^{-1-q} t ↦ 2 q ( 1 + ∣ t ∣ ) − 1 − q 的分布Hanson-Wright应用 : 二次型X T A X X^TAX X T A X 的集中性多项式函数 : 具有有界高阶微分的函数类对于具有q q q 阶矩的重尾分布,获得集中率:
P ( ∣ f ( X ) − m f ∣ ≥ t ) ≤ C ( log 2 ( 1 + c t ) c t ) q P(|f(X) - m_f| \geq t) \leq C\left(\frac{\log^2(1+ct)}{ct}\right)^q P ( ∣ f ( X ) − m f ∣ ≥ t ) ≤ C ( c t l o g 2 ( 1 + c t ) ) q
定理2.50 : 对于随机矩阵X ∈ M p , n X \in M_{p,n} X ∈ M p , n 和矩阵A ∈ M p A \in M_p A ∈ M p , B ∈ M n B \in M_n B ∈ M n :
P ( ∣ Tr ( B ( X T A X − E [ X T A X ] ) ) ∣ > t ) ≤ 2 α ( σ α ) α ∘ min ( α ( σ α ) t 10 ∥ A ∥ F ∥ B ∥ F σ α , t 6 ∥ A ∥ ∥ B ∥ ) P(|\text{Tr}(B(X^TAX - E[X^TAX]))| > t) \leq \frac{2}{\alpha(\sigma_\alpha)}\alpha \circ \min\left(\frac{\alpha(\sigma_\alpha)t}{10\|A\|_F\|B\|_F\sigma_\alpha}, \sqrt{\frac{t}{6\|A\|\|B\|}}\right) P ( ∣ Tr ( B ( X T A X − E [ X T A X ])) ∣ > t ) ≤ α ( σ α ) 2 α ∘ min ( 10∥ A ∥ F ∥ B ∥ F σ α α ( σ α ) t , 6∥ A ∥∥ B ∥ t )
证明了并联运算能够自然地处理独立随机变量和与积的集中性:
和的集中性 : S ∑ X k ≤ n α 1 ⊞ ⋯ ⊞ α n S_{\sum X_k} \leq n\alpha_1 \boxplus \cdots \boxplus \alpha_n S ∑ X k ≤ n α 1 ⊞ ⋯ ⊞ α n 积的集中性 : S ∏ X k ≤ n α 1 ⊟ ⋯ ⊟ α n S_{\prod X_k} \leq n\alpha_1 \boxminus \cdots \boxminus \alpha_n S ∏ X k ≤ n α 1 ⊟ ⋯ ⊟ α n 通过递归应用并联运算,自然得到多层次集中函数:
⊞ a k ∈ A ( k ) , k ∈ [ n ] α ∘ ( I d σ 1 ( 1 ) ⋯ σ n ( n ) ) 1 1 + a 1 + ⋯ + a n \boxplus_{a_k \in A^{(k)}, k \in [n]} \alpha \circ \left(\frac{Id}{\sigma_1^{(1)} \cdots \sigma_n^{(n)}}\right)^{\frac{1}{1+a_1+\cdots+a_n}} ⊞ a k ∈ A ( k ) , k ∈ [ n ] α ∘ ( σ 1 ( 1 ) ⋯ σ n ( n ) I d ) 1 + a 1 + ⋯ + a n 1
Talagrand集中 : 凸函数的集中性质Ledoux理论 : 测度集中的一般框架Gaussian集中 : 高斯测度的集中现象Fuk-Nagaev不等式 : 独立随机变量和的大偏差弱Poincaré不等式 : 重尾分布的集中性质α-次指数变量 : 广义的次指数分布类经典Hanson-Wright : 次高斯变量的二次型Latała方法 : 基于Hermite多项式的方法张量范数方法 : 多线性形式的集中性统一框架 : 建立了处理随机Lipschitz常数的统一理论框架并联运算 : 证明了并联运算是处理集中函数运算的自然工具重尾推广 : 系统地将经典集中结果推广到重尾情形多层次理论 : 建立了刻画高阶可微函数集中性的完整理论常数优化 : 某些结果中的常数可能不是最优的独立性假设 : 部分结果仍需要独立性假设计算复杂性 : 并联运算的具体计算可能较为复杂适用范围 : 某些结果对分布类型有特定要求算法实现 : 开发高效计算并联运算的算法非独立情形 : 推广到相依随机变量的情形无穷维推广 : 扩展到无穷维空间的情形应用拓展 : 在机器学习和统计学习中的应用理论创新 : 引入并联运算为集中理论提供了新的数学工具系统性强 : 建立了从基础理论到具体应用的完整体系技术深度 : 涉及泛函分析、概率论等多个数学分支实用价值 : 为重尾分布和非Lipschitz函数提供了实用工具技术门槛高 : 大量的算子理论可能限制了可读性应用验证 : 缺乏具体数值实验验证理论结果常数分析 : 某些界中的常数分析不够深入计算方法 : 缺乏实际计算并联运算的有效方法理论贡献 : 为测度集中理论提供了重要的理论工具方法论价值 : 并联运算方法可能在其他概率问题中有应用实际应用 : 为处理重尾数据的统计方法提供了理论基础学科交叉 : 连接了泛函分析和概率论的研究重尾数据分析 : 金融数据、网络流量等重尾现象的分析机器学习理论 : 非凸优化、深度学习的理论分析统计推断 : robust统计方法的理论基础随机过程 : 具有重尾增量的随机过程分析论文引用了48篇重要参考文献,涵盖:
测度集中理论的经典文献(Ledoux, Talagrand等) 泛函分析中的单调算子理论(Bauschke & Combettes等) 概率论中的集中不等式(Adamczak, Boucheron等) 重尾概率的相关研究(Cattiaux, Gozlan等) 总体评价 : 这是一篇理论深度很高的概率论论文,通过引入并联运算为测度集中理论提供了新的数学工具。论文在理论创新和系统性方面表现突出,但在可读性和实际应用验证方面还有改进空间。对于概率论和泛函分析领域的研究者,这篇论文提供了有价值的理论贡献。