2025-11-19T14:28:14.187449

On estimation of weighted cumulative residual Tsallis entropy

Chakraborty, Nanda

Recently, weighted cumulative residual Tsallis entropy has been introduced in the literature as a generalization of weighted cumulative residual entropy. We study some new properties of weighted cumulative residual Tsallis entropy measure. Next, we propose some non-parametric estimators of this measure. Asymptotic properties of these estimators are discussed. Performance of these estimators are compared by mean squared error. Non-parametric estimators for weighted cumulative residual entropy measure are also discussed. Two uniformity tests are proposed based on an estimator of these two measures and power of the tests are compared with some popular tests. The tests perform reasonably well.

academic

On estimation of weighted cumulative residual Tsallis entropy

基本信息

论文ID: 2510.12442
标题: On estimation of weighted cumulative residual Tsallis entropy
作者: Siddhartha Chakraborty, Asok K. Nanda (Indian Institute of Science Education and Research Kolkata)
分类: math.ST stat.TH (Statistics Theory)
发表时间: 2025年10月14日
论文链接: https://arxiv.org/abs/2510.12442

摘要

本文研究了加权累积剩余Tsallis熵(WCRTE)作为加权累积剩余熵的推广形式。文章探讨了WCRTE测度的新性质，提出了该测度的若干非参数估计器，并讨论了这些估计器的渐近性质。通过均方误差比较了估计器的性能，同时讨论了加权累积剩余熵(WCRE)测度的非参数估计。基于这两个测度的估计器提出了两个均匀性检验，并与一些流行的检验方法比较了检验功效。

研究背景与动机

问题背景

信息论基础：Shannon熵作为信息论的核心概念，在多个领域有重要应用，但其微分熵形式存在局限性（可能为负值，不能定义于无密度分布等）
累积剩余熵的发展：Rao等人(2004)提出的累积剩余熵(CRE)克服了微分熵的缺陷，使用生存函数替代密度函数，具有更好的性质
Tsallis熵的推广：Tsallis(1988)提出的广义熵是Shannon熵的重要推广，具有参数α，当α→1时退化为Shannon熵
加权信息测度的需求：在实际应用中，不仅需要考虑事件的概率信息，还需要考虑事件的效用或重要性，因此引入权重函数

研究动机

本文的主要动机是：

深入研究WCRTE测度的理论性质
开发有效的非参数估计方法
为统计推断提供实用工具（如均匀性检验）

核心贡献

理论贡献：
- 证明了WCRTE存在的充分条件（当α>1时需要二阶矩存在）
- 提供了WCRTE的下界估计
- 给出了WCRTE的等价表示形式
估计方法：
- 提出了四种WCRTE的非参数估计器
- 开发了WCRE的相应估计器
- 证明了估计器的一致性和渐近正态性
统计应用：
- 构建了基于WCRTE和WCRE的均匀性检验
- 通过仿真比较了不同估计器的性能
- 验证了新检验方法的有效性

方法详解

核心概念定义

**加权累积剩余Tsallis熵(WCRTE)**定义为：

ξ^w_α(X) = 1/(α-1) ∫₀^∞ x[F̄(x) - F̄^α(x)]dx, 0 < α ≠ 1

其中F̄(x)是生存函数，x是线性权重函数。

关键性质：

当α→1时，退化为加权累积剩余熵(WCRE)
当α=2时，与Gini平均差相关
具有尺度变换性质：ξ^w_α(θX) = θ²ξ^w_α(X)

估计器设计

1. 基础估计器

基于经验分布函数的估计器：

ξ̂^w_α(X) = 1/(2(α-1)) Σᵢ₌₁^(n-1) (X²₍ᵢ₊₁₎ - X²₍ᵢ₎)[(1-i/n) - (1-i/n)^α]

2. Vasicek型估计器

ξ^w_αV = 1/(4m(α-1)) Σᵢ₌₁ⁿ (X²₍ᵢ₊ₘ₎ - X²₍ᵢ₋ₘ₎)[1-i/n - (1-i/n)^α]

3. Ebrahimi型估计器

引入权重函数Cᵢ来改善极端点的估计：

ξ^w_αE = 1/(2m(α-1)) Σᵢ₌₁ⁿ (X²₍ᵢ₊ₘ₎ - X²₍ᵢ₋ₘ₎)/Cᵢ [1-i/n - (1-i/n)^α]

4. 改进估计器

ξ^w_αN = 1/(m(α-1)) Σᵢ₌₁ⁿ (X²₍ᵢ₊ₘ₎ - X²₍ᵢ₋ₘ₎)/C²ᵢ [1-i/n - (1-i/n)^α]

5. 线性组合估计器

ξ^w_αL = 1/(2(α-1)) · 1/n Σᵢ₌₁ⁿ X²₍ᵢ₎[1 - α(1-i/n)^(α-1)]

渐近性质

一致性：所有提出的估计器在适当条件下都是一致的。

渐近正态性：对于ξ^w_αL估计器，有：

√n(ξ^w_αL - ξ^w_α(X)) →ᵈ N(0, σ²)

其中σ²的表达式已给出，并提供了一致估计器。

实验设置

数据集

使用以下理论分布生成仿真数据：

指数分布：Exp(1), Exp(2)
均匀分布：U(0,1)
Weibull分布：WE(2,1)（即Rayleigh分布）

评价指标

偏差(Bias)：Eθ̂ - θ
均方误差(MSE)：E(θ̂ - θ)²

实验参数

样本量：n = 10, 20, 30
Tsallis参数：α = 2（主要选择，因为当α>1时WCRTE存在条件较弱）
窗口大小：m = 1, 2, ..., ⌊n/2⌋-1
仿真次数：10,000次

实验结果

主要结果

1. 基础估计器比较

对于不需要窗口参数的估计器ξ̂^w_α(X)和ξ^w_αL：

在Exp(1)和Exp(2)分布下，ξ^w_αL表现更好
在U(0,1)和WE(2,1)分布下，ξ̂^w_α(X)略优，但差异很小
随着样本量增加，偏差和MSE都显著降低

2. 窗口依赖估计器性能

从仿真结果可以看出：

ξ^w_αN表现最佳：在大多数情况下具有最小的MSE
ξ^w_αV表现最差：但对窗口大小m最不敏感
ξ^w_αE居中：性能介于两者之间

3. 窗口大小选择指导

基于仿真结果，提供了窗口大小的选择建议：

对于ξ^w_αV和ξ^w_αE：当n≤20时选择m=n/2-1；当n=30时选择m=n/3
对于ξ^w_αN：选择m=n/4+1

均匀性检验结果

检验统计量

基于WCRTE和WCRE估计器构建了均匀性检验，与以下方法比较：

Kolmogorov-Smirnov (KS)检验
Cramer-von Mises (CvM)检验
Anderson-Darling (AD)检验
Vasicek熵检验(ENT)

功效比较

在7种备择分布下的检验功效显示：

对于Aⱼ类型备择（均值偏移），提出的检验表现最佳
对于Bⱼ类型备择（方差减小），ENT检验更优
对于Cⱼ类型备择（方差增大），提出的检验显著优于其他方法
WCRTE检验(α=2)总体优于WCRE检验(α→1)

结论与讨论

主要结论

理论完善：建立了WCRTE的完整理论框架，包括存在条件、界限估计等
估计方法：提出了多种有效的非参数估计器，其中ξ^w_αN综合性能最佳
统计应用：开发的均匀性检验在特定类型备择下表现优异

局限性

参数选择：窗口大小m的选择仍需要根据分布类型和样本量调整
计算复杂度：某些估计器对窗口参数较为敏感
理论分析：仅对一个估计器给出了完整的渐近分布

未来方向

开发自适应窗口选择方法
扩展到多维情形
研究其他统计推断问题的应用

深度评价

优点

理论贡献扎实：提供了完整的理论分析，包括存在性、一致性、渐近正态性
方法创新性强：在经典Vasicek和Ebrahimi方法基础上提出了实质性改进
实验设计完备：通过多种分布、多个样本量的仿真全面评估了方法性能
应用价值明确：均匀性检验具有实际统计意义
写作清晰严谨：数学推导详细，实验结果展示充分

不足

理论分析不均衡：只对ξ^w_αL给出了渐近分布，其他估计器的理论分析相对薄弱
计算指导有限：虽然给出了窗口选择的经验公式，但缺乏理论依据
应用场景单一：仅考虑了均匀性检验，未探索其他统计推断问题
比较基准有限：在估计器比较中，缺乏与其他熵估计方法的对比

影响力

学术价值：为信息论和统计学交叉领域提供了新的理论工具
实用价值：提出的估计器和检验方法可直接应用于数据分析
可复现性：实验设置清晰，结果易于重现

适用场景

可靠性分析：利用加权特性分析重尾风险
质量控制：均匀性检验在随机数生成验证中有重要应用
信息度量：在需要考虑观测值重要性的信息测度场景

参考文献

论文引用了28篇相关文献，涵盖了信息论、统计学和可靠性理论的重要工作，为研究提供了坚实的理论基础。关键文献包括Shannon(1948)的信息论奠基工作、Tsallis(1988)的熵推广、Rao等(2004)的累积剩余熵理论等。

总体评价：这是一篇高质量的统计理论论文，在加权信息测度领域做出了实质性贡献。理论分析严谨，实验设计完备，具有良好的学术价值和应用前景。