2025-11-24T23:22:17.314102

Pathwise guessing in categorical time series with unbounded alphabets

Chazottes, Gallo, Takahashi

The following learning problem arises naturally in various applications: Given a finite sample from a categorical or count time series, can we learn a function of the sample that (nearly) maximizes the probability of correctly guessing the values of a given portion of the data using the values from the remaining parts? Unlike classical approaches in statistical inference, our approach avoids explicitly estimating the conditional probabilities. We propose a non-parametric guessing function with a learning rate independent of the alphabet size. Our analysis focuses on a broad class of time series models that encompasses finite-order Markov chains, some hidden Markov chains, Poisson regression for count processes, and one-dimensional Gibbs measures. We provide a margin condition that controls the rate of convergence for the risk. Additionally, we establish a minimax lower bound for the convergence rate of the risk associated with our guessing problem. This lower bound matches the upper bound achieved by our estimator up to a logarithmic factor, demonstrating its near-optimality.

academic

التخمين على طول المسار في السلاسل الزمنية الفئوية ذات الأبجديات غير المحدودة

المعلومات الأساسية

معرّف الورقة: 2501.06547
العنوان: التخمين على طول المسار في السلاسل الزمنية الفئوية ذات الأبجديات غير المحدودة
المؤلفون: J.-R. Chazottes, S. Gallo, D. Y. Takahashi
التصنيف: math.ST math.PR stat.TH
تاريخ النشر: 16 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2501.06547

الملخص

تدرس هذه الورقة مشكلة تعلم تنشأ بشكل طبيعي في تطبيقات متعددة: بالنظر إلى عينة محدودة من سلسلة زمنية فئوية أو عد، هل يمكن تعلم دالة عينة تزيد (تقريباً) من احتمالية التنبؤ الصحيح بقيم الجزء المتبقي من البيانات بناءً على الجزء المعطى؟ بخلاف طرق الاستدلال الإحصائي الكلاسيكية، تتجنب الطريقة المقترحة تقدير الاحتمالات الشرطية بشكل صريح. يقدم المؤلفون دالة تخمين غير معاملية بمعدل تعلم مستقل عن حجم الأبجدية، مع تحليل يغطي فئات واسعة من نماذج السلاسل الزمنية بما في ذلك سلاسل ماركوف ذات الرتبة المحدودة، وبعض السلاسل الخفية، والانحدار بواسون لعمليات العد، والقياسات جيبس أحادية البعد.

الخلفية البحثية والدافع

أهمية المشكلة

الدافع التطبيقي: التنبؤ والاستيفاء مشاكل أساسية في العلوم، مع تطبيقات واسعة في السلاسل الزمنية الفئوية، خاصة في سياق ظهور نماذج اللغة الكبيرة، التي يمكن اعتبارها نماذج سلاسل زمنية فئوية بأبجديات كبيرة.
قيود الطرق التقليدية:
- تعتمد الطرق الكلاسيكية على تقديرات نقطية لجميع احتمالات الانتقال
- عندما يكون حجم الأبجدية كبيراً أو احتمالات الانتقال صغيرة، يصبح التخمين صعباً
- يتطلب تقدير دقيق للأحداث النادرة كمية كبيرة من البيانات، وهو غير عملي في الممارسة
التحديات الموجودة:
- حجم الأبجدية ورتبة الاعتماد عادة ما تكون عالية جداً
- الحاجة إلى التعامل مع نماذج ذات اعتماد وحجم أبجدية غير محدود
- قد تواجه الطرق التقليدية صعوبة في تقدير احتمالات جميع الانتقالات الممكنة في حالة الأبجديات الكبيرة

الدافع البحثي

يقترح المؤلفون طريقة أكثر عملية: التركيز على الأحداث الأكثر احتمالاً، أي التنبؤ بالنتائج الأكثر احتمالاً، مع إعطاء وزن أقل للأحداث النادرة وغير المحتملة. هذه الطريقة مناسبة بشكل خاص للتعامل مع التسلسلات ذات المجموعات الرمزية الكبيرة أو اللانهائية.

المساهمات الأساسية

اقتراح دالة تخمين غير معاملية: معدل تعلم مستقل عن حجم الأبجدية، قابل للتطبيق على فئات واسعة من السلاسل الزمنية الفئوية
إنشاء إطار نظري: قابل للتطبيق على أي حجم أبجدية، مع تخفيف القيود على الذاكرة أو الرتبة
توفير شروط هامشية: للتحكم في معدل تقارب المخاطر
إنشاء حدود minimax: إثبات القرب من الأمثلية للمقدّر المقترح، مع تطابق الحدود العليا والدنيا ضمن عوامل لوغاريتمية
النظر الأول في حالة الأبجدية اللانهائية: ذو أهمية عندما لا يكون هناك حد أعلى مسبق لحجم الأبجدية أو عندما يمكن أن ينمو مع حجم العينة

شرح الطريقة

تعريف المهمة

بالنظر إلى نسختين مستقلتين متطابقتي التوزيع من العمليات $(X_j)_{j \in \mathbb{Z}}$ و $(Y_j)_{j \in \mathbb{Z}}$ ، الهدف هو استخدام معلومات مجموعة البيانات $D$ للتنبؤ بالقيم على مجموعة التخمين $G$ .

تعريف المقدّر: $f̂^n_{D,G} : A^n \times A^D \to A^G$

المخاطر الزائدة: $R(f̂^n_{D,G}) := \sup_{b \in A^D} \left( \tilde{P}(f̂^n_{D,G}(Y_D) \neq Y_G | Y_D = b) - \inf_{a \in A^G} \tilde{P}(a \neq Y_G | Y_D = b) \right) \tilde{P}(Y_D = b)$

بنية النموذج

المقدّر الأساسي: $f̂^n_{D,G}[X^n_1](b) := \arg\max_{a \in A^G} \frac{N^n_{D,G}[X^n_1](b,a)}{N^n_{D,G}[X^n_1](b)}$

حيث يتم تعريف دالة العد كـ: $N^n_{D,G}[X^n_1](b,a) := \sum_{i=0}^{n-1} \mathbf{1}\{X_{\theta^i D} = b, X_{\theta^i G} = a\}$

الافتراضات الرئيسية

الافتراض أ: لتكن $(X_i)_{i \in \mathbb{Z}}$ عملية ثابتة بقياس $P$ ، إذا كانت تحقق: $\Gamma(P) := \prod_{j=0}^{\infty} (1 - \text{Var}_j(p)) > 0$

حيث يتم تعريف التباين كـ: $\text{Var}_n(p) := \sup\left\{\frac{1}{2}\sum_{a \in A}|p(a|x) - p(a|y)| : x,y \in A^{\mathbb{Z}_-}, x_i = y_i, i \geq -n\right\}$

الشروط الهامشية

لكل $b \in A^D$ ، يتم تعريف: $\delta_{D,G}(b) = \inf\{P(X_G \neq c, X_D = b) - \inf_{a \in A^G} P(X_G \neq a, X_D = b) > 0 : c \in A^G\}$

الهامش: $\delta_{D,G} := \inf_{b \in A^D} \delta_{D,G}(b)$

النتائج النظرية الرئيسية

نتائج الحد الأعلى (النظرية 3.1)

إذا كان حجم العينة $n$ يحقق شروطاً معينة، فإن: $R(f̂^n_{D,G}) \leq \varepsilon \land \beta_{D,G}$

معدلات التقارب (النتيجة 3.1)

عندما تكون الشروط الهامشية ضعيفة: إذا كان $\delta_n\sqrt{\frac{n}{\log n}} \to 0$ ، فإن: $R(f̂^n_{D,G}) \leq \frac{1}{2}\sqrt{\frac{\log n}{n}} \land \beta_{D,G}$
عندما تكون الشروط الهامشية قوية: إذا كان $\delta_n\sqrt{\frac{n}{\log n}} \to \infty$ ، فإن: $R(f̂^n_{D,G}) \leq \exp\left(-\frac{\Gamma^2 n \delta_n^2}{8(|G|+|D|)^2}\right) \land \beta_{D,G}$

الحد الأدنى Minimax (النظرية 3.2)

إنشاء حدود minimax دنيا في حالتين:

حالة الهامش الصغير: $\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{P}_n} R(\psi_n; P) \geq \frac{e^{-1}}{\sqrt{n}}\left(\frac{1}{4}\right)^{|G|+|D|}$
حالة الهامش الكبير: $\inf_{\psi_n \in \Psi_n} \sup_{P \in \mathcal{Q}_n} R(\psi_n; P) \geq \delta_n e^{-n\delta_n^2}\left(\frac{1}{4}\right)^{|D|+|G|}$

تطبيقات عملية

تعرض الورقة أن الافتراض أ ينطبق على نماذج متعددة مهمة:

سلاسل ماركوف

لسلسلة ماركوف بفضاء الحالة $A$ ومصفوفة الانتقال $Q$ ، يتم تبسيط الشرط إلى معامل الإرجوديكية لدوبروشين: $d(Q) := \sup_{a,b \in A} \|Q(a,\cdot) - Q(b,\cdot)\|_{TV} < 1$

نماذج الانحدار الذاتي

احتمالات الانتقال لعملية انحدار ذاتي ثنائية: $p(a|x) = \Upsilon\left(a\sum_{j=1}^{\infty}\xi_j x_{-j} + a\xi_0\right)$

انحدار بواسون

نموذج انحدار بواسون لسلسلة زمنية عد: $p(a|x) = \frac{e^{-v(x)}v(x)^a}{a!}$ حيث $v(x) = \exp\left(\sum_{j=1}^{\infty}\xi_j \min\{x_{-j}, c\}\right)$

قياسات جيبس

تحقق قياسات جيبس أحادية البعد: $P(X_\Lambda = x_\Lambda | X_{\Lambda^c} = y_{\Lambda^c}) = \frac{\exp(-\beta H^\Phi_\Lambda(x_\Lambda y_{\Lambda^c}))}{Z^\Phi_\Lambda(y)}$

نقاط الابتكار التقني

تجنب تقدير الاحتمالات الصريح: لا حاجة لتقدير جميع الاحتمالات الشرطية، التركيز فقط على النتائج الأكثر احتمالاً
معدل تعلم مستقل عن حجم الأبجدية: هذه ميزة رئيسية للتعامل مع الأبجديات الكبيرة أو اللانهائية
عدم المساواة من نوع Dvoretzky-Kiefer-Wolfowitz: إنشاء عدم مساواة تركيز جديدة للسلاسل العشوائية
إطار موحد: يغطي فئات واسعة من نماذج السلاسل الزمنية

التقنيات التجريبية والإثبات

تقنيات الإثبات الرئيسية

عدم المساواة التركيزية: استخدام عدم المساواة المعدلة من نوع Dvoretzky-Kiefer-Wolfowitz
طريقة الاقتران: للتحكم في الفروقات الاحتمالية تحت ظروف مختلفة
حجج من نوع Le Cam: لإنشاء حدود minimax دنيا
التحليل التباين: التحكم في التذبذب من خلال دوال الجهد

الليمات الرئيسية

القضية 3.1: إنشاء العلاقة بين $\beta_{D,G}$ وحجم المجموعات
القضية 4.1: توفير حدود تباين محددة لقياسات جيبس
النظرية أ.1: توسيع عدم المساواة من نوع Dvoretzky-Kiefer-Wolfowitz

الأعمال ذات الصلة

الطرق التقليدية

التنبؤ الكلاسيكي: بناءً على تقديرات نقطية لاحتمالات الانتقال
إطار التعلم PAC: دراسة المعدلات المثلى لتعلم الاحتمالات الشرطية
نماذج الانحدار المعاملية: مرنة لكن بافتراضات محدودة

مزايا هذه الورقة

التعامل مع الأبجديات الكبيرة: معدل التعلم لا يعتمد على حجم الأبجدية
الطريقة غير المعاملية: تجنب الافتراضات المحدودة للنماذج المعاملية
الضمانات النظرية: توفير معدلات تقارب قريبة من الأمثلية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

اقتراح طريقة تخمين غير معاملية قابلة للتطبيق على الأبجديات غير المحدودة
إنشاء معدل تعلم مستقل عن حجم الأبجدية
إثبات القرب من الأمثلية للطريقة (ضمن عوامل لوغاريتمية)
توفير إطار موحد لفئات واسعة من نماذج السلاسل الزمنية

القيود

التحقق من الافتراض أ: قد يكون التحقق من الافتراض أ في التطبيقات العملية تحدياً
الأداء على عينات محدودة: النتائج النظرية تقاربية، قد تختلف السلوكيات على عينات محدودة
التعقيد الحسابي: لم تناقش الورقة بالتفصيل التعقيد الحسابي للخوارزمية

الاتجاهات المستقبلية

تنفيذ الخوارزمية: تطوير تنفيذات خوارزمية فعالة
التطبيقات العملية: التحقق من الطريقة في تطبيقات عملية مثل نماذج اللغة الكبيرة
التوسع إلى دوال خسارة أخرى: النظر في مقاييس مخاطر مختلفة

التقييم المتعمق

المزايا

مساهمة نظرية كبيرة: أول من يتعامل مع حالة الأبجدية اللانهائية، مع إنشاء إطار نظري كامل
قوة الابتكار الطريقة: فكرة تجنب تقدير الاحتمالات الصريح لها قيمة عملية
تحليل عميق: توفير حدود عليا وحدود دنيا متطابقة، إثبات القرب من الأمثلية
نطاق التطبيق الواسع: الإطار الموحد يغطي نماذج سلاسل زمنية مهمة متعددة

أوجه القصور

غياب التحقق التجريبي: الورقة نظرية بحتة، بدون تجارب رقمية أو حالات تطبيق عملية
نقص تفاصيل الخوارزمية: لم تناقش بالتفصيل التنفيذ العملي والتعقيد الحسابي
صعوبة التحقق من الافتراضات: طرق التحقق من الافتراض أ في الممارسة غير واضحة

التأثير المتوقع

قيمة نظرية عالية: توفير أدوات نظرية جديدة للتعامل مع السلاسل الزمنية ذات الأبجديات الكبيرة
إمكانية تطبيقية كبيرة: ذات أهمية في التطبيقات الحديثة مثل نماذج اللغة الكبيرة
عمومية الطريقة: قد ينطبق الإطار على مشاكل أخرى ذات صلة

السيناريوهات القابلة للتطبيق

نماذج اللغة الكبيرة: مهام توليد النصوص بمفردات كبيرة جداً
المعلوماتية الحيوية: تحليل تسلسلات DNA/البروتين
تحليل حركة المرور الشبكية: التنبؤ بسلوك الشبكة بفضاء حالة كبير
تحليل السلاسل الزمنية المالية: تحليل بيانات التداول عالي التردد

المراجع

تستشهد الورقة بـ 26 مرجعاً ذا صلة، تغطي نظرية سلاسل ماركوف، نظرية التعلم الإحصائي، الأنظمة الديناميكية ونظرية الاحتمالات، مما يوفر أساساً نظرياً متيناً لهذه الورقة.