2025-11-24T23:22:17.314102

Pathwise guessing in categorical time series with unbounded alphabets

Chazottes, Gallo, Takahashi

The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities. We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures. We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.

academic

श्रेणीबद्ध समय श्रृंखला में पथवार अनुमान - असीमित वर्णमाला के साथ

मूल जानकारी

पेपर ID: 2501.06547
शीर्षक: श्रेणीबद्ध समय श्रृंखला में पथवार अनुमान - असीमित वर्णमाला के साथ
लेखक: J.-R. Chazottes, S. Gallo, D. Y. Takahashi
वर्गीकरण: math.ST math.PR stat.TH
प्रकाशन तिथि: 16 अक्टूबर, 2025
पेपर लिंक: https://arxiv.org/abs/2501.06547

सारांश

यह पेपर एक सीखने की समस्या का अध्ययन करता है जो कई अनुप्रयोगों में स्वाभाविक रूप से उत्पन्न होती है: श्रेणीबद्ध या गणना समय श्रृंखला के सीमित नमूने को देखते हुए, क्या कोई नमूना फलन सीख सकता है जो दिए गए डेटा के मान को सही ढंग से अनुमान लगाने की संभावना को (लगभग) अधिकतम करता है? शास्त्रीय सांख्यिकीय अनुमान विधियों के विपरीत, यह पेपर सशर्त संभावनाओं के स्पष्ट अनुमान से बचता है। लेखकों ने एक अरैखिक अनुमान फलन प्रस्तावित किया है जिसकी सीखने की दर वर्णमाला के आकार से स्वतंत्र है। विश्लेषण में परिमित-क्रम मार्कोव श्रृंखलाएं, कुछ छिपी हुई मार्कोव श्रृंखलाएं, गणना प्रक्रियाओं के लिए पॉइसन प्रतिगमन और एक-आयामी गिब्स माप सहित समय श्रृंखला मॉडल की व्यापक श्रेणियां शामिल हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या का महत्व

व्यावहारिक अनुप्रयोग संचालित: पूर्वानुमान और प्रक्षेप विज्ञान में मौलिक समस्याएं हैं, श्रेणीबद्ध समय श्रृंखला में व्यापक अनुप्रयोग के साथ, विशेष रूप से बड़ी भाषा मॉडल के उदय के संदर्भ में, जिन्हें बड़ी वर्णमाला वाली श्रेणीबद्ध समय श्रृंखला मॉडल के रूप में देखा जा सकता है।
पारंपरिक विधियों की सीमाएं:
- शास्त्रीय विधियां सभी संक्रमण संभावनाओं के बिंदु अनुमान पर निर्भर करती हैं
- जब वर्णमाला का आकार बहुत बड़ा हो या संक्रमण संभावनाएं बहुत छोटी हों, तो अनुमान कठिन हो जाता है
- दुर्लभ घटनाओं का सटीक अनुमान बड़ी मात्रा में डेटा की आवश्यकता होती है, जो व्यावहारिक रूप से संभव नहीं है
मौजूदा चुनौतियां:
- वर्णमाला का आकार और निर्भरता का क्रम आमतौर पर दोनों ही बहुत अधिक होते हैं
- असीमित निर्भरता और वर्णमाला आकार वाले मॉडल को संभालने की आवश्यकता है
- पारंपरिक विधियां बड़ी वर्णमाला के मामले में सभी संभावित संक्रमणों की संभावना का अनुमान लगाने में कठिनाई हो सकती है

अनुसंधान प्रेरणा

लेखकों ने एक अधिक व्यावहारिक दृष्टिकोण प्रस्तावित किया है: सबसे संभावित घटनाओं पर ध्यान केंद्रित करना, अर्थात् सबसे संभावित परिणाम की भविष्यवाणी करना, और दुर्लभ, कम संभावित घटनाओं को कम वजन देना। यह दृष्टिकोण विशेष रूप से बड़े या अनंत प्रतीक सेट वाली श्रृंखलाओं को संभालने के लिए उपयुक्त है।

मुख्य योगदान

अरैखिक अनुमान फलन प्रस्तावित किया: सीखने की दर वर्णमाला के आकार से स्वतंत्र है, श्रेणीबद्ध समय श्रृंखला की व्यापक श्रेणियों के लिए लागू है
सैद्धांतिक ढांचा स्थापित किया: किसी भी वर्णमाला आकार के लिए लागू, स्मृति या क्रम पर बाधाओं को शिथिल करता है
सीमांत शर्तें प्रदान की: जोखिम के अभिसरण दर को नियंत्रित करता है
मिनिमैक्स निचली सीमा स्थापित की: प्रस्तावित अनुमानक की अनुमानित इष्टतमता को साबित करता है, निचली सीमा और ऊपरी सीमा लॉगरिदमिक कारकों के भीतर मेल खाती है
पहली बार अनंत वर्णमाला मामले पर विचार किया: जब वर्णमाला का आकार कोई पूर्व ऊपरी सीमा नहीं है या नमूना आकार के साथ बढ़ सकता है तो महत्वपूर्ण है

विधि विवरण

कार्य परिभाषा

दो स्वतंत्र समान रूप से वितरित प्रक्रिया प्रतियों $(X_j)_{j \in \mathbb{Z}}$ और $(Y_j)_{j \in \mathbb{Z}}$ को देखते हुए, लक्ष्य डेटासेट $D$ की जानकारी का उपयोग करके अनुमान सेट $G$ पर मानों की भविष्यवाणी करना है।

अनुमानक परिभाषा: $f̂^n_{D,G} : A^n \times A^D \to A^G$

अतिरिक्त जोखिम: $R(f̂^n_{D,G}) := \sup_{b \in A^D} \left( \tilde{P}(f̂^n_{D,G}(Y_D) \neq Y_G | Y_D = b) - \inf_{a \in A^G} \tilde{P}(a \neq Y_G | Y_D = b) \right) \tilde{P}(Y_D = b)$

मॉडल आर्किटेक्चर

मुख्य अनुमानक: $f̂^n_{D,G}[X^n_1](b) := \arg\max_{a \in A^G} \frac{N^n_{D,G}[X^n_1](b,a)}{N^n_{D,G}[X^n_1](b)}$

जहां गणना फलन को इस प्रकार परिभाषित किया गया है: $N^n_{D,G}[X^n_1](b,a) := \sum_{i=0}^{n-1} \mathbf{1}\{X_{\theta^i D} = b, X_{\theta^i G} = a\}$

मुख्य मान्यताएं

मान्यता A: यदि माप $P$ वाली एक स्थिर प्रक्रिया $(X_i)_{i \in \mathbb{Z}}$ संतुष्ट करती है: $\Gamma(P) := \prod_{j=0}^{\infty} (1 - \text{Var}_j(p)) > 0$

जहां विविधता को इस प्रकार परिभाषित किया गया है: $\text{Var}_n(p) := \sup\left\{\frac{1}{2}\sum_{a \in A}|p(a|x) - p(a|y)| : x,y \in A^{\mathbb{Z}_-}, x_i = y_i, i \geq -n\right\}$

सीमांत शर्तें

प्रत्येक $b \in A^D$ के लिए, परिभाषित करें: $\delta_{D,G}(b) = \inf\{P(X_G \neq c, X_D = b) - \inf_{a \in A^G} P(X_G \neq a, X_D = b) > 0 : c \in A^G\}$

सीमांत: $\delta_{D,G} := \inf_{b \in A^D} \delta_{D,G}(b)$

मुख्य सैद्धांतिक परिणाम

ऊपरी सीमा परिणाम (प्रमेय 3.1)

यदि नमूना आकार $n$ विशेष शर्तों को संतुष्ट करता है, तो: $R(f̂^n_{D,G}) \leq \varepsilon \land \beta_{D,G}$

अभिसरण दर (अनुपात 3.1)

जब सीमांत शर्त कमजोर हो: यदि $\delta_n\sqrt{\frac{n}{\log n}} \to 0$ , तो: $R(f̂^n_{D,G}) \leq \frac{1}{2}\sqrt{\frac{\log n}{n}} \land \beta_{D,G}$
जब सीमांत शर्त मजबूत हो: यदि $\delta_n\sqrt{\frac{n}{\log n}} \to \infty$ , तो: $R(f̂^n_{D,G}) \leq \exp\left(-\frac{\Gamma^2 n \delta_n^2}{8(|G|+|D|)^2}\right) \land \beta_{D,G}$

मिनिमैक्स निचली सीमा (प्रमेय 3.2)

दोनों मामलों में मिनिमैक्स निचली सीमा स्थापित की गई है:

छोटी सीमांत स्थिति: $\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{P}_n} R(\psi_n; P) \geq \frac{e^{-1}}{\sqrt{n}}\left(\frac{1}{4}\right)^{|G|+|D|}$
बड़ी सीमांत स्थिति: $\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{Q}_n} R(\psi_n; P) \geq \delta_n e^{-n\delta_n^2}\left(\frac{1}{4}\right)^{|D|+|G|}$

अनुप्रयोग उदाहरण

पेपर प्रदर्शित करता है कि मान्यता A कई महत्वपूर्ण मॉडलों पर लागू होती है:

मार्कोव श्रृंखलाएं

राज्य स्थान $A$ और संक्रमण मैट्रिक्स $Q$ वाली मार्कोव श्रृंखला के लिए, शर्त Dobrushin एर्गोडिक गुणांक तक सरल हो जाती है: $d(Q) := \sup_{a,b \in A} \|Q(a,\cdot) - Q(b,\cdot)\|_{TV} < 1$

स्वप्रतिगमन मॉडल

द्विआधारी स्वप्रतिगमन प्रक्रिया की संक्रमण संभावनाएं: $p(a|x) = \Upsilon\left(a\sum_{j=1}^{\infty}\xi_j x_{-j} + a\xi_0\right)$

पॉइसन प्रतिगमन

गणना समय श्रृंखला का पॉइसन प्रतिगमन मॉडल: $p(a|x) = \frac{e^{-v(x)}v(x)^a}{a!}$ जहां $v(x) = \exp\left(\sum_{j=1}^{\infty}\xi_j \min\{x_{-j}, c\}\right)$

गिब्स माप

एक-आयामी गिब्स माप संतुष्ट करते हैं: $P(X_\Lambda = x_\Lambda | X_{\Lambda^c} = y_{\Lambda^c}) = \frac{\exp(-\beta H^\Phi_\Lambda(x_\Lambda y_{\Lambda^c}))}{Z^\Phi_\Lambda(y)}$

तकनीकी नवाचार बिंदु

स्पष्ट संभावना अनुमान से बचना: सभी सशर्त संभावनाओं का अनुमान लगाने की आवश्यकता नहीं है, केवल सबसे संभावित परिणाम पर ध्यान केंद्रित करता है
वर्णमाला आकार से स्वतंत्र सीखने की दर: यह बड़ी या अनंत वर्णमाला को संभालने का मुख्य लाभ है
Dvoretzky-Kiefer-Wolfowitz प्रकार की असमानता: यादृच्छिक श्रृंखलाओं के लिए नई एकाग्रता असमानता स्थापित की गई
एकीकृत ढांचा: समय श्रृंखला मॉडल की व्यापक श्रेणियों को शामिल करता है

प्रायोगिक और प्रमाण तकनीकें

मुख्य प्रमाण तकनीकें

एकाग्रता असमानताएं: संशोधित Dvoretzky-Kiefer-Wolfowitz असमानता का उपयोग
युग्मन विधि: विभिन्न शर्तों के तहत संभावना अंतर को नियंत्रित करने के लिए
Le Cam प्रकार की तर्क: मिनिमैक्स निचली सीमा स्थापित करने के लिए
विविधता विश्लेषण: संभावित फलन के दोलन के माध्यम से विविधता को नियंत्रित करना

मुख्य लेम्मा

प्रस्ताव 3.1: $\beta_{D,G}$ और सेट आकार के बीच संबंध स्थापित करता है
प्रस्ताव 4.1: गिब्स माप के लिए ठोस विविधता सीमा प्रदान करता है
प्रमेय A.1: Dvoretzky-Kiefer-Wolfowitz प्रकार की असमानता का विस्तार

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

असीमित वर्णमाला के लिए लागू अरैखिक अनुमान विधि प्रस्तावित की गई
वर्णमाला आकार से स्वतंत्र सीखने की दर स्थापित की गई
विधि की अनुमानित इष्टतमता साबित की गई (लॉगरिदमिक कारकों में)
समय श्रृंखला मॉडल की व्यापक श्रेणियों के लिए एकीकृत ढांचा प्रदान किया गया

सीमाएं

मान्यता A का सत्यापन: व्यावहारिक अनुप्रयोगों में मान्यता A को सत्यापित करना चुनौतीपूर्ण हो सकता है
सीमित नमूना प्रदर्शन: सैद्धांतिक परिणाम स्पर्शोन्मुख हैं, सीमित नमूना व्यवहार भिन्न हो सकता है
कम्प्यूटेशनल जटिलता: पेपर एल्गोरिदम की कम्प्यूटेशनल जटिलता पर विस्तार से चर्चा नहीं करता है

भविष्य की दिशाएं

एल्गोरिदम कार्यान्वयन: कुशल एल्गोरिदम कार्यान्वयन विकसित करना
व्यावहारिक अनुप्रयोग: बड़ी भाषा मॉडल आदि व्यावहारिक अनुप्रयोगों में विधि को सत्यापित करना
अन्य हानि कार्यों तक विस्तार: विभिन्न जोखिम उपायों पर विचार करना

गहन मूल्यांकन

शक्तियां

महत्वपूर्ण सैद्धांतिक योगदान: पहली बार असीमित वर्णमाला मामले को संभालता है, पूर्ण सैद्धांतिक ढांचा स्थापित करता है
विधि नवाचार मजबूत: स्पष्ट संभावना अनुमान से बचने का विचार व्यावहारिक मूल्य रखता है
गहन विश्लेषण: ऊपरी सीमा और मेल खाने वाली निचली सीमा प्रदान करता है, अनुमानित इष्टतमता साबित करता है
व्यापक प्रयोज्यता: एकीकृत ढांचा कई महत्वपूर्ण समय श्रृंखला मॉडलों को शामिल करता है

कमियां

प्रायोगिक सत्यापन की कमी: पेपर विशुद्ध सैद्धांतिक है, संख्यात्मक प्रयोग या व्यावहारिक अनुप्रयोग मामले प्रदान नहीं करता है
एल्गोरिदम विवरण अपर्याप्त: व्यावहारिक कार्यान्वयन और कम्प्यूटेशनल जटिलता पर विस्तार से चर्चा नहीं करता है
मान्यता सत्यापन कठिन: व्यावहारिकता में मान्यता A को सत्यापित करने की विधि स्पष्ट नहीं है

प्रभाव

उच्च सैद्धांतिक मूल्य: बड़ी वर्णमाला समय श्रृंखला को संभालने के लिए नए सैद्धांतिक उपकरण प्रदान करता है
बड़ी व्यावहारिक क्षमता: बड़ी भाषा मॉडल जैसे आधुनिक अनुप्रयोगों में महत्वपूर्ण है
विधि सामान्यता: ढांचा अन्य संबंधित समस्याओं पर लागू हो सकता है

लागू परिदृश्य

बड़ी भाषा मॉडल: बहुत बड़ी शब्दावली वाले पाठ निर्माण कार्य
जैव सूचना विज्ञान: DNA/प्रोटीन अनुक्रम विश्लेषण
नेटवर्क ट्रैफिक विश्लेषण: बड़ी राज्य स्थान वाली नेटवर्क व्यवहार भविष्यवाणी
वित्तीय समय श्रृंखला: उच्च आवृत्ति व्यापार डेटा विश्लेषण

संदर्भ

पेपर 26 संबंधित संदर्भों का हवाला देता है, जो मार्कोव श्रृंखला सिद्धांत, सांख्यिकीय सीखने का सिद्धांत, गतिशील प्रणाली और संभावना सिद्धांत सहित कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो इस पेपर के सैद्धांतिक आधार के लिए ठोस समर्थन प्रदान करते हैं।