We address the challenges of modeling high-frequency integer price changes in financial markets using continuous distributions, particularly the Student's t-distribution. We demonstrate that traditional GARCH models, which rely on continuous distributions, are ill-suited for high-frequency data due to the discreteness of price changes. We propose a modification to the maximum likelihood estimation procedure that accounts for the discrete nature of observations while still using continuous distributions. Our approach involves modeling the log-likelihood in terms of intervals corresponding to the rounding of continuous price changes to the nearest integer. The findings highlight the importance of adjusting for discreteness in volatility analysis and provide a framework for incroporating any continuous distribution for modeling high-frequency prices.
論文ID : 2510.09785タイトル : The Pitfalls of Continuous Heavy-Tailed Distributions in High-Frequency Data Analysis著者 : Vladimír Holý (プラハ経済経営大学)分類 : q-fin.ST (統計ファイナンス)発表日 : 2025年10月10日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.09785 本論文は、金融市場の高頻度整数価格変化をモデル化するために連続分布(特にStudent's t分布)を使用する際の課題を研究している。著者は、価格変化の離散性のため、従来のGARCHモデルが高頻度データ分析に適さないことを証明している。論文は、連続分布を使用しながら観測値の離散的性質を考慮した修正最大尤度推定法を提案している。この方法は、連続価格変化を最も近い整数に対応する区間に丸めることにより対数尤度関数をモデル化する。研究結果は、ボラティリティ分析における離散性調整の重要性を強調し、任意の連続分布を高頻度価格モデリングに適用するためのフレームワークを提供している。
中核的問題 :従来のGARCHモデルが連続分布(Student's t分布など)を使用して高頻度金融データをモデル化する際に根本的な欠陥が存在する具体的な表現 :価格変化が整数であり、ゼロ値が頻繁に出現する場合、Student's t分布は⊥形状に退化し、密度が単一点0に集中し、極めて重い尾部を持つ実際的な影響 :この退化により尤度関数が爆発し、パラメータ推定が失効し、モデル結果が無意味または誤解を招く実践的意義 :高頻度取引の強度が増加し、価格の離散性の問題がより顕著になっているリスク管理 :誤ったボラティリティモデルはリスク管理、ポートフォリオ最適化、デリバティブ価格設定に影響を与える学術的価値 :離散データモデリングにおける連続分布の理論的空白を埋める従来のGARCHモデル :価格変化が連続であると仮定し、高頻度データの離散性を無視している既存の離散モデル :主にSkellam分布に基づいており、分布選択の柔軟性を制限しているソフトウェアパッケージの問題 :複数のRパッケージが自由度パラメータに人工的な下限を設定し、真の最適化問題を隠蔽している警告機能 :標準GARCHモデルと重尾連続分布の組み合わせが高頻度データに不適切であることを明確に指摘理論的革新 :整数観測値を連続値の丸め結果と見なす区間最大尤度推定法を提案方法論的フレームワーク :任意の連続分布に適用可能な高頻度価格モデリングフレームワークを確立実証的検証 :複数の株式の実証分析を通じて方法の有効性を検証入力 :高頻度株価変化系列(整数値、大量のゼロ値)出力 :時変ボラティリティパラメータと分布パラメータの推定制約 :連続分布の使用を維持しながらデータの離散性に対処標準GARCHモデル:
y_t = μ + e_t, e_t ~ t(0, σ²_t, ν)
σ²_t = ω + αe²_{t-1} + φσ²_{t-1}
y_t ~ t(μ, σ²_t, ν)
ln σ²_t = ω + α∇_{ln σ²}(y_{t-1}; μ, σ²_{t-1}, ν) + φσ²_{t-1}
ν → 0の場合、Student's t分布は退化する:
σ² → 0(数値下限2^{-1074}) 密度が0点で爆発し、⊥形状を形成 対数尤度関数が極値に達する(観測値あたり72など、通常は-2) 整数観測値yを、連続値が最も近い整数に丸められた結果と見なし、yは区間(y-0.5, y+0.5]に対応する。
区間対数尤度関数:
ℓ(p|y) = Σ_{t=1}^n ln[F((y_t - μ_t + 0.5)/σ_t | ν) - F((y_t - μ_t - 0.5)/σ_t | ν)]
ここでF(·|ν)はStudent's t分布の累積分布関数である。
∇_{ln σ²}(y; μ, σ², ν) = [(y-μ-0.5)f((y-μ-0.5)/σ|ν) - (y-μ+0.5)f((y-μ+0.5)/σ|ν)] / [2σF((y-μ+0.5)/σ|ν) - 2σF((y-μ-0.5)/σ|ν)]
μ_t = θ(y_{t-1} - μ_{t-1})
市場マイクロストラクチャノイズをキャプチャする。
ln σ²_t = ω + ln ŝ_t + e_t
e_t = α∇_{ln σ²}(y_{t-1}; μ_{t-1}, σ²_{t-1}, ν) + φe_{t-1}
ここでŝ_tは平滑スプラインにより日中ボラティリティパターンを推定する。
主要データ :IBM株式(NYSE、2024年通年)補足データ :MCD(NYSE)、CSCO、MSFT(NASDAQ)データ規模 :1500万以上のティックごとの取引観測値頻度設定 :0.1秒、1秒、10秒、60秒、300秒標準的なクリーニング :取引時間外データ、価格記録なし、異常値を削除異常値の定義 :201観測値のローリングウィンドウ内の平均絶対偏差の10倍を超える値集約方法 :最後の取引価格法を使用対数尤度値 (ℓ):モデル適合度ARCH-LM統計量 :残差自己相関検定サンプル外パフォーマンス :翌日データの予測能力連続分布 :正規分布(区間推定)、Student's t分布(区間推定)離散分布 :Skellam分布、ゼロ膨張Skellam分布ソフトウェアパッケージ :rugarch、fGarch、GAS、gasmodel表1の結果が示すもの :
1秒頻度では、gasmodelパッケージがν=0.220(中央値)を推定し、他のパッケージは人工的な下限に制限される 対数尤度の差は巨大:gasmodelは観測値あたり72 vs 他は約-2 1分間頻度では各パッケージの結果が相対的に一致 表2の結果が示すもの :
1秒頻度 :ゼロ膨張Skellam最適(ℓ=-1.700)、Student's t次点(ℓ=-1.841)1分間頻度 :Student's t最適(ℓ=-3.550)、他の方法をわずかに上回るARCH効果の残留は非常に低く、モデルが時変ボラティリティを効果的にキャプチャしていることを示す Student's t、Skellam、ゼロ膨張Skellam モデルは安定したパフォーマンスを示す 正規分布は1秒頻度で56%の日数で数値ゼロ尤度が発生し、予測に不適切 図3が示すもの :
1秒頻度:Student's t分布は-1と1の確率を過大評価し、他の値の確率を過小評価 1分間頻度:体系的な偏りはないが、0値の確率をわずかに過小評価 付録の結果 :
MCD株式:IBMと同様の退化挙動 CSCO株式:ゼロ値の比率がより高く、問題がより深刻 MSFT株式:分布がより分散しており、従来手法は相対的に安定しているが問題は依然存在 初期研究 :Ghysels and Jasiak (1998)、Engle (2000)、Meddahi et al. (2006)離散モデル :Koopman et al. (2017-2018)、Catania et al. (2022)、Holý (2024)Score-Drivenモデル :Creal et al. (2013)理論基礎離散手法との相違 :連続分布使用の柔軟性を維持既存理論の補完 :Holý (2024)で観察されたが詳細に研究されていない現象実用的価値 :既存ソフトウェアパッケージユーザーへの警告理論的結論 :Student's t分布は、ゼロ値が頻繁に出現する整数価格変化のモデリングに不適切である方法的結論 :区間最大尤度推定は、連続分布の離散データモデリング問題を効果的に解決できる実践的結論 :この方法は相対的に低頻度(1分間)データで優れたパフォーマンスを示し、高頻度データではより複雑な分布が必要である適用範囲 :Student's t分布は超高頻度データでもなお十分な柔軟性を欠く計算複雑性 :区間推定は計算負担を増加させるパラメータ制約 :特定の状況ではスコア係数に下限を設定する必要がある場合がある分布の拡張 :他の連続分布への方法の適用理論の完善 :区間推定の漸近的性質の深入研究実際の応用 :リスク管理とデリバティブ価格設定への応用問題識別の正確性 :見落とされていたが重要な実際的問題を明確に指摘解決策の簡潔性 :区間推定法は単純で効果的、実装が容易実証分析の充実 :複数のソフトウェアパッケージ、複数の株式、複数の頻度による包括的検証実用的価値の高さ :実務者に明確な警告と解決策を提供理論分析の不足 :区間推定法の理論的性質の分析が不十分計算効率 :方法の計算複雑度と最適化戦略について未検討モデル比較の限定 :基本的な離散分布との比較が主で、より高度なベンチマークが不足パラメータ選択 :区間選択(0.5)の理論的根拠が不足学術的貢献 :離散データの連続分布モデリングの空白を埋める実践的価値 :高頻度取引とリスク管理に直接的な応用価値方法の汎用性 :フレームワークは他の連続分布と応用領域に拡張可能高頻度金融データ :特に価格変化が最小単位で計価される市場離散観測の連続プロセス :丸め誤差が存在する他の時系列ボラティリティモデリング :連続分布の柔軟性を必要とするリスク管理応用本論文は金融計量学、高頻度データ分析、時系列モデリングの重要な文献を引用しており、以下を含む:
Engle (1982, 2000, 2002) - GARCHモデルと高頻度データ分析の基礎 Creal et al. (2013) - Score-Drivenモデル理論 Koopman et al. (2017, 2018) - 離散価格変化の動的モデリング Holý (2024) - 関連する離散GARCHモデル研究 総評 :本論文は重要だが見落とされていた実際的問題に対して、簡潔で効果的な解決策を提供している。理論分析の深さにおいて若干の不足がある一方で、実証研究は充実しており、結論は信頼できる。高頻度金融データ分析分野に対して重要な貢献をしている。