We address the challenges of modeling high-frequency integer price changes in financial markets using continuous distributions, particularly the Student's t-distribution. We demonstrate that traditional GARCH models, which rely on continuous distributions, are ill-suited for high-frequency data due to the discreteness of price changes. We propose a modification to the maximum likelihood estimation procedure that accounts for the discrete nature of observations while still using continuous distributions. Our approach involves modeling the log-likelihood in terms of intervals corresponding to the rounding of continuous price changes to the nearest integer. The findings highlight the importance of adjusting for discreteness in volatility analysis and provide a framework for incroporating any continuous distribution for modeling high-frequency prices.
论文ID : 2510.09785标题 : The Pitfalls of Continuous Heavy-Tailed Distributions in High-Frequency Data Analysis作者 : Vladimír Holý (Prague University of Economics and Business)分类 : q-fin.ST (Statistical Finance)发表时间 : 2025年10月10日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.09785 本文研究了使用连续分布(特别是Student's t分布)对金融市场高频整数价格变化建模的挑战。作者证明了传统的GARCH模型由于价格变化的离散性而不适合高频数据分析。论文提出了一种修正的最大似然估计方法,在使用连续分布的同时考虑观测值的离散特性。该方法通过将连续价格变化舍入到最近整数对应的区间来建模对数似然函数。研究结果强调了在波动率分析中调整离散性的重要性,并为将任何连续分布应用于高频价格建模提供了框架。
核心问题 :传统GARCH模型使用连续分布(如Student's t分布)对高频金融数据建模时存在根本性缺陷具体表现 :当价格变化为整数且零值频繁出现时,Student's t分布会退化为⊥形状,密度集中在单点0处,具有极重的尾部实际影响 :这种退化导致似然函数爆炸,参数估计失效,模型结果无意义甚至误导实践意义 :高频交易强度不断增加,价格离散性问题更加突出风险管理 :错误的波动率模型会影响风险管理、投资组合优化和衍生品定价学术价值 :填补了连续分布在离散数据建模中的理论空白传统GARCH模型 :假设价格变化连续,忽略了高频数据的离散特性现有离散模型 :主要基于Skellam分布,但限制了分布选择的灵活性软件包问题 :多个R包对自由度参数设置人工下界,掩盖了真实的优化问题警示作用 :明确指出标准GARCH模型配合重尾连续分布在高频数据上的不适用性理论创新 :提出区间最大似然估计方法,将整数观测值视为连续值的舍入结果方法框架 :建立了可适用于任何连续分布的高频价格建模框架实证验证 :通过多只股票的实证分析验证了方法的有效性输入 :高频股票价格变化序列(整数值,大量零值)输出 :时变波动率参数和分布参数的估计约束 :保持连续分布的使用同时处理数据的离散性标准GARCH模型:
y_t = μ + e_t, e_t ~ t(0, σ²_t, ν)
σ²_t = ω + αe²_{t-1} + φσ²_{t-1}
y_t ~ t(μ, σ²_t, ν)
ln σ²_t = ω + α∇_{ln σ²}(y_{t-1}; μ, σ²_{t-1}, ν) + φσ²_{t-1}
当ν → 0时,Student's t分布退化:
σ² → 0(数值下界2^{-1074}) 密度在0点爆炸,形成⊥形状 对数似然函数达到极值(如每观测值72 vs 正常的-2) 将整数观测值y视为连续值舍入到最近整数的结果,即y对应区间(y-0.5, y+0.5]。
区间对数似然函数:
ℓ(p|y) = Σ_{t=1}^n ln[F((y_t - μ_t + 0.5)/σ_t | ν) - F((y_t - μ_t - 0.5)/σ_t | ν)]
其中F(·|ν)是Student's t分布的累积分布函数。
∇_{ln σ²}(y; μ, σ², ν) = [(y-μ-0.5)f((y-μ-0.5)/σ|ν) - (y-μ+0.5)f((y-μ+0.5)/σ|ν)] / [2σF((y-μ+0.5)/σ|ν) - 2σF((y-μ-0.5)/σ|ν)]
μ_t = θ(y_{t-1} - μ_{t-1})
捕获市场微观结构噪声。
ln σ²_t = ω + ln ŝ_t + e_t
e_t = α∇_{ln σ²}(y_{t-1}; μ_{t-1}, σ²_{t-1}, ν) + φe_{t-1}
其中ŝ_t通过平滑样条估计日内波动率模式。
主要数据 :IBM股票(NYSE,2024年全年)补充数据 :MCD(NYSE)、CSCO和MSFT(NASDAQ)数据规模 :超1500万逐笔交易观测值频率设置 :0.1秒、1秒、10秒、60秒、300秒标准清洗 :移除交易时间外数据、无价格记录、异常值异常值定义 :超过201个观测值滚动窗口内10倍平均绝对偏差聚合方法 :使用最后一笔交易价格法对数似然值 (ℓ):模型拟合优度ARCH-LM统计量 :残差自相关检验样本外表现 :次日数据预测能力连续分布 :正态分布(区间估计)、Student's t分布(区间估计)离散分布 :Skellam分布、零膨胀Skellam分布软件包 :rugarch、fGarch、GAS、gasmodel表1结果显示 :
1秒频率下,gasmodel包估计ν=0.220(中位数),其他包受人工下界限制 对数似然差异巨大:gasmodel为72/观测值 vs 其他约-2/观测值 1分钟频率下各包结果相对一致 表2结果显示 :
1秒频率 :零膨胀Skellam最优(ℓ=-1.700),Student's t次之(ℓ=-1.841)1分钟频率 :Student's t最优(ℓ=-3.550),略优于其他方法ARCH效应残留很低,表明模型有效捕获时变波动率 Student's t、Skellam和零膨胀Skellam模型表现稳定 正态分布在1秒频率下56%的日子出现数值零似然,不适合预测 图3显示 :
1秒频率:Student's t分布高估-1和1的概率,低估其他值概率 1分钟频率:无系统性偏差,但轻微低估0值概率 附录结果 :
MCD股票:类似IBM的退化行为 CSCO股票:零值比例更高,问题更严重 MSFT股票:分布更分散,传统方法相对稳定但仍存在问题 早期研究 :Ghysels and Jasiak (1998)、Engle (2000)、Meddahi et al. (2006)离散模型 :Koopman et al. (2017-2018)、Catania et al. (2022)、Holý (2024)Score-Driven模型 :Creal et al. (2013)理论基础区别于离散方法 :保持连续分布使用的灵活性补充现有理论 :Holý (2024)观察到但未详细研究的现象实用价值 :为现有软件包使用者提供警示理论结论 :Student's t分布不适合建模频繁出现零值的整数价格变化方法结论 :区间最大似然估计可有效解决连续分布的离散数据建模问题实践结论 :方法在相对低频(1分钟)数据上表现优异,高频数据需要更复杂的分布适用范围 :Student's t分布在超高频数据上仍不够灵活计算复杂度 :区间估计增加了计算负担参数约束 :某些情况下可能需要对score系数设置下界分布扩展 :将方法应用到其他连续分布理论完善 :深入研究区间估计的渐近性质实际应用 :在风险管理和衍生品定价中的应用问题识别准确 :清晰指出了一个被忽视但重要的实际问题解决方案简洁 :区间估计方法简单有效,易于实现实证分析充分 :多个软件包、多只股票、多个频率的全面验证实用价值高 :为实践者提供了明确的警示和解决方案理论分析不足 :缺乏区间估计方法的理论性质分析计算效率 :未讨论方法的计算复杂度和优化策略模型比较有限 :主要与基本的离散分布比较,缺乏更先进的基准参数选择 :区间选择(0.5)缺乏理论依据学术贡献 :填补了连续分布离散数据建模的空白实践价值 :对高频交易和风险管理具有直接应用价值方法通用性 :框架可扩展到其他连续分布和应用领域高频金融数据 :特别是价格变化以最小单位计价的市场离散观测的连续过程 :其他存在舍入误差的时间序列波动率建模 :需要保持连续分布灵活性的风险管理应用本文引用了金融计量学、高频数据分析和时间序列建模的重要文献,包括:
Engle (1982, 2000, 2002) - GARCH模型和高频数据分析基础 Creal et al. (2013) - Score-Driven模型理论 Koopman et al. (2017, 2018) - 离散价格变化的动态建模 Holý (2024) - 相关的离散GARCH模型研究 总评 :本文针对一个重要但被忽视的实际问题提供了简洁有效的解决方案,具有很强的实用价值。虽然在理论分析深度上有所不足,但其实证研究充分,结论可信,对高频金融数据分析领域具有重要贡献。