Pathwise guessing in categorical time series with unbounded alphabets
Chazottes, Gallo, Takahashi
The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities.
We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures.
We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.
academic
श्रेणीबद्ध समय श्रृंखला में पथवार अनुमान - असीमित वर्णमाला के साथ
यह पेपर एक सीखने की समस्या का अध्ययन करता है जो कई अनुप्रयोगों में स्वाभाविक रूप से उत्पन्न होती है: श्रेणीबद्ध या गणना समय श्रृंखला के सीमित नमूने को देखते हुए, क्या कोई नमूना फलन सीख सकता है जो दिए गए डेटा के मान को सही ढंग से अनुमान लगाने की संभावना को (लगभग) अधिकतम करता है? शास्त्रीय सांख्यिकीय अनुमान विधियों के विपरीत, यह पेपर सशर्त संभावनाओं के स्पष्ट अनुमान से बचता है। लेखकों ने एक अरैखिक अनुमान फलन प्रस्तावित किया है जिसकी सीखने की दर वर्णमाला के आकार से स्वतंत्र है। विश्लेषण में परिमित-क्रम मार्कोव श्रृंखलाएं, कुछ छिपी हुई मार्कोव श्रृंखलाएं, गणना प्रक्रियाओं के लिए पॉइसन प्रतिगमन और एक-आयामी गिब्स माप सहित समय श्रृंखला मॉडल की व्यापक श्रेणियां शामिल हैं।
व्यावहारिक अनुप्रयोग संचालित: पूर्वानुमान और प्रक्षेप विज्ञान में मौलिक समस्याएं हैं, श्रेणीबद्ध समय श्रृंखला में व्यापक अनुप्रयोग के साथ, विशेष रूप से बड़ी भाषा मॉडल के उदय के संदर्भ में, जिन्हें बड़ी वर्णमाला वाली श्रेणीबद्ध समय श्रृंखला मॉडल के रूप में देखा जा सकता है।
पारंपरिक विधियों की सीमाएं:
शास्त्रीय विधियां सभी संक्रमण संभावनाओं के बिंदु अनुमान पर निर्भर करती हैं
जब वर्णमाला का आकार बहुत बड़ा हो या संक्रमण संभावनाएं बहुत छोटी हों, तो अनुमान कठिन हो जाता है
दुर्लभ घटनाओं का सटीक अनुमान बड़ी मात्रा में डेटा की आवश्यकता होती है, जो व्यावहारिक रूप से संभव नहीं है
मौजूदा चुनौतियां:
वर्णमाला का आकार और निर्भरता का क्रम आमतौर पर दोनों ही बहुत अधिक होते हैं
असीमित निर्भरता और वर्णमाला आकार वाले मॉडल को संभालने की आवश्यकता है
पारंपरिक विधियां बड़ी वर्णमाला के मामले में सभी संभावित संक्रमणों की संभावना का अनुमान लगाने में कठिनाई हो सकती है
लेखकों ने एक अधिक व्यावहारिक दृष्टिकोण प्रस्तावित किया है: सबसे संभावित घटनाओं पर ध्यान केंद्रित करना, अर्थात् सबसे संभावित परिणाम की भविष्यवाणी करना, और दुर्लभ, कम संभावित घटनाओं को कम वजन देना। यह दृष्टिकोण विशेष रूप से बड़े या अनंत प्रतीक सेट वाली श्रृंखलाओं को संभालने के लिए उपयुक्त है।
अरैखिक अनुमान फलन प्रस्तावित किया: सीखने की दर वर्णमाला के आकार से स्वतंत्र है, श्रेणीबद्ध समय श्रृंखला की व्यापक श्रेणियों के लिए लागू है
सैद्धांतिक ढांचा स्थापित किया: किसी भी वर्णमाला आकार के लिए लागू, स्मृति या क्रम पर बाधाओं को शिथिल करता है
सीमांत शर्तें प्रदान की: जोखिम के अभिसरण दर को नियंत्रित करता है
मिनिमैक्स निचली सीमा स्थापित की: प्रस्तावित अनुमानक की अनुमानित इष्टतमता को साबित करता है, निचली सीमा और ऊपरी सीमा लॉगरिदमिक कारकों के भीतर मेल खाती है
पहली बार अनंत वर्णमाला मामले पर विचार किया: जब वर्णमाला का आकार कोई पूर्व ऊपरी सीमा नहीं है या नमूना आकार के साथ बढ़ सकता है तो महत्वपूर्ण है
दो स्वतंत्र समान रूप से वितरित प्रक्रिया प्रतियों (Xj)j∈Z और (Yj)j∈Z को देखते हुए, लक्ष्य डेटासेट D की जानकारी का उपयोग करके अनुमान सेट G पर मानों की भविष्यवाणी करना है।
अनुमानक परिभाषा:
f^D,Gn:An×AD→AG
अतिरिक्त जोखिम:
R(f^D,Gn):=supb∈AD(P~(f^D,Gn(YD)=YG∣YD=b)−infa∈AGP~(a=YG∣YD=b))P~(YD=b)
राज्य स्थान A और संक्रमण मैट्रिक्स Q वाली मार्कोव श्रृंखला के लिए, शर्त Dobrushin एर्गोडिक गुणांक तक सरल हो जाती है:
d(Q):=supa,b∈A∥Q(a,⋅)−Q(b,⋅)∥TV<1
पेपर 26 संबंधित संदर्भों का हवाला देता है, जो मार्कोव श्रृंखला सिद्धांत, सांख्यिकीय सीखने का सिद्धांत, गतिशील प्रणाली और संभावना सिद्धांत सहित कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो इस पेपर के सैद्धांतिक आधार के लिए ठोस समर्थन प्रदान करते हैं।