The manifold hypothesis asserts that data of interest in high-dimensional ambient spaces, such as image data, lies on unknown low-dimensional submanifolds. Diffusion models (DMs) -- which operate by convolving data with progressively larger amounts of Gaussian noise and then learning to revert this process -- have risen to prominence as the most performant generative models, and are known to be able to learn distributions with low-dimensional support. For a given datum in one of these submanifolds, we should thus intuitively expect DMs to have implicitly learned its corresponding local intrinsic dimension (LID), i.e. the dimension of the submanifold it belongs to. Kamkari et al. (2024b) recently showed that this is indeed the case by linking this LID to the rate of change of the log marginal densities of the DM with respect to the amount of added noise, resulting in an LID estimator known as FLIPD. LID estimators such as FLIPD have a plethora of uses, among others they quantify the complexity of a given datum, and can be used to detect outliers, adversarial examples and AI-generated text. FLIPD achieves state-of-the-art performance at LID estimation, yet its theoretical underpinnings are incomplete since Kamkari et al. (2024b) only proved its correctness under the highly unrealistic assumption of affine submanifolds. In this work we bridge this gap by formally proving the correctness of FLIPD under realistic assumptions. Additionally, we show that an analogous result holds when Gaussian convolutions are replaced with uniform ones, and discuss the relevance of this result.
- معرّف الورقة: 2506.20705
- العنوان: On Convolutions, Intrinsic Dimension, and Diffusion Models
- المؤلفون: Kin Kwan Leung, Rasa Hosseinzadeh, Gabriel Loaiza-Ganem (Layer 6 AI)
- التصنيف: cs.LG cs.AI stat.ML
- وقت النشر/المؤتمر: Transactions on Machine Learning Research (10/2025)
- رابط الورقة: https://arxiv.org/abs/2506.20705
تؤكد فرضية التعدد أن البيانات ذات الاهتمام في فضاء محيط عالي الأبعاد (مثل بيانات الصور) تقع على متعدد طيات فرعي منخفض الأبعاد غير معروف. تعمل نماذج الانتشار (DMs) من خلال التفاف البيانات بضوضاء غاوسية متزايدة تدريجياً والتعلم لعكس هذه العملية، وقد أصبحت من أفضل نماذج التوليد الأداء، وثبت أنها قادرة على تعلم التوزيعات ذات الدعم منخفض الأبعاد. بالنسبة لنقطة بيانات معينة في هذه المتعددات، نتوقع بشكل حدسي أن نماذج الانتشار قد تعلمت بشكل ضمني البعد الجوهري المحلي (LID) المقابل لها، أي بعد متعدد الطيات الذي تنتمي إليه. أثبت كامكاري وآخرون (2024b) مؤخراً أن هذا هو الحال بالفعل من خلال ربط البعد الجوهري المحلي بمعدل التغير في كثافة الهامش اللوغاريتمية لنموذج الانتشار فيما يتعلق بكمية الضوضاء المضافة، مما أسفر عن مقدّر البعد الجوهري المحلي يسمى FLIPD. حقق FLIPD أداءً متقدماً في تقدير البعد الجوهري المحلي، لكن أساسه النظري غير مكتمل، لأن كامكاري وآخرين (2024b) أثبتوا صحته فقط تحت افتراضات غير واقعية جداً للمتعددات الفرعية التقاربية. تملأ هذه الورقة هذه الفجوة من خلال إثبات صحة FLIPD رسمياً تحت افتراضات واقعية. علاوة على ذلك، نثبت أن نتائج مماثلة تنطبق عندما يتم استبدال الالتفاف الغاوسي بالتفاف منتظم، ونناقش صلة هذه النتيجة.
المشكلة الأساسية التي تعالجها هذه الورقة هي توفير أساس نظري صارم لمقدّر FLIPD (البعد الجوهري المحلي القائم على التدفق). بشكل محدد:
- العيب النظري: على الرغم من أن FLIPD الذي اقترحه كامكاري وآخرون يُظهر أداءً ممتازاً في الممارسة العملية، فإن إثباته النظري ينطبق فقط تحت افتراضات غير واقعية للمتعددات الفرعية التقاربية
- الحاجة العملية: الحاجة إلى إثبات صحة FLIPD على متعددات فرعية مدمجة عامة، مما يجعل أساسه النظري متطابقاً مع تطبيقاته العملية
يتمتع تقدير البعد الجوهري المحلي (LID) بقيمة تطبيقية مهمة في التعلم الآلي:
- قياس التعقيد: قياس فعال لتعقيد الصور
- الكشف عن الشذوذ: الكشف عن النقاط الشاذة والعينات المعادية والنصوص المولدة بواسطة الذكاء الاصطناعي
- التنبؤ بالتعميم: يمكن لتقدير البعد الجوهري المحلي لتمثيلات الشبكات العصبية التنبؤ بأداء التعميم
- كشف الحفظ: تحديد ظواهر حفظ النموذج
تعاني مقدّرات البعد الجوهري المحلي التقليدية من المشاكل التالية:
- التعقيد الحسابي العالي: يعتمد على حسابات المسافات الزوجية، مع قابلية توسع سيئة على حجم مجموعة البيانات والبعد المحيط
- لعنة الأبعاد: تتدهور الأداء في الفضاء عالي الأبعاد
- نقص النظرية: على الرغم من أداء FLIPD الممتازة، فإن أساسه النظري ضعيف
- تحسين النظرية: إثبات صحة FLIPD رسمياً تحت افتراضات واقعية، مع توسيع نطاقه من المتعددات الفرعية التقاربية إلى متعددات فرعية مدمجة سلسة عامة
- توسيع النتائج: إثبات أن نتائج مماثلة لا تزال تنطبق عندما يتم استبدال الالتفاف الغاوسي بالتفاف منتظم
- الصرامة الرياضية: توفير إثبات رياضي كامل، بما في ذلك تحليل هندسة تفاضلية معقدة
- القيمة العملية: توفير ضمانات نظرية لموثوقية FLIPD في التطبيقات العملية
جوهر هذه الورقة هو إثبات أن المعادلة الرئيسية التالية تنطبق تحت شروط عامة:
LID(x)=D+limδ→−∞∂δ∂logϱN(x,δ)
حيث:
- ϱN(x,δ) هي التفاف توزيع البيانات مع ضوضاء غاوسية بانحراف معياري لوغاريتمي قدره δ
- D هو بعد الفضاء المحيط
- δ→−∞ يتوافق مع حد الضوضاء التي تميل إلى الصفر
النظرية 1 (الحالة الغاوسية): لتكن M متعددة طيات فرعية مدمجة سلسة بحجم d في RD، و p دالة كثافة احتمالية على M. بالنسبة إلى x∈M، إذا كانت p مستمرة عند x، و p(x)>0، وتحقق شرط اللحظة الثانية المحدودة، فإن:
limδ→−∞∂δ∂logϱN(x,δ)=d−D
النظرية 2 (الحالة المنتظمة): نتائج مماثلة تنطبق على التفاف التوزيع المنتظم أيضاً:
limδ→−∞∂δ∂logϱU(x,δ)=d−D
الفكرة الأساسية للإثبات هي الاستفادة من خصائص التحلل لكثافة غاوسية وكثافة منتظمة:
- الحالة الغاوسية: الاستفادة من العلاقة
ND(x−x′;0,δ)=(2π)2d−Deδ(d−D)Nd(x−x′;0,δ)
- الحالة المنتظمة: الاستفادة من تحلل مماثل
UD(x;μ,δ)=CDU(CdU)−1eδ(d−D)Ud(x;μ,δ)
- تحليل الحد: من خلال تحليل هندسة تفاضلية دقيق، إثبات أن حد المشتقة يتقارب إلى القيمة المتوقعة
هذه الورقة هي في الأساس عمل نظري، بدون إجراء تحقق تجريبي واسع النطاق. يركز المؤلفون على:
- الإثبات الرياضي: توفير تحليل نظري صارم
- التحقق من الشروط: التأكد من أن الشروط المقترحة معقولة في التطبيقات العملية
- تحليل التوسع: توسيع النتائج من متعددة طيات فرعية واحدة إلى اتحاد متعددات فرعية منفصلة
تتحقق الورقة من اكتمال النظرية من خلال الاستنتاجات التالية:
الاستنتاج 1: بالنسبة إلى اتحاد متعددات فرعية منفصلة M=∪jMj، تحت شروط الفصل المناسبة، تبقى النتائج صحيحة.
الاستنتاج 2: التوسيع المماثل للحالة المنتظمة ينطبق أيضاً.
هذه النتائج النظرية تعني مباشرة:
- صحة FLIPD: عندما يتم تعلم دالة النقاط بشكل مثالي، limδ→−∞FLIPD(x;δ)=LID(x)
- تفسير القيم السالبة: إنتاج FLIPD لقيم سالبة يمكن أن يُعزى فقط إلى تعلم دالة النقاط غير المثالي، وليس إلى عيب نظري
- الطرق التقليدية: مقدّرات إحصائية قائمة على المسافات الزوجية أو الزوايا (Fukunaga & Olsen, 1971; Levina & Bickel, 2004 وغيرها)
- طرق نماذج التوليد:
- طرق أجهزة التشفير التلقائي المتغيرة (Zheng et al., 2022)
- طرق التدفقات المعيارية (Tempczyk et al., 2022)
- طرق نماذج الانتشار (Stanczuk et al., 2024; Horvat & Pfister, 2024)
- طريقة Stanczuk وآخرين: تعتمد أيضاً على نماذج الانتشار لكنها تتطلب تقييمات دوال أكثر
- طريقة Horvat & Pfister: تتطلب تعديل عملية تدريب نموذج الانتشار
- مزايا FLIPD: متوافقة مع نماذج الانتشار الحديثة الجاهزة (مثل Stable Diffusion)
- تحسين النظرية: توسيع ناجح للأساس النظري لـ FLIPD من المتعددات الفرعية التقاربية إلى متعددات فرعية مدمجة سلسة عامة
- عمومية الطريقة: إثبات نتائج مماثلة في حالات الالتفاف الغاوسي والمنتظم
- القيمة العملية: توفير ضمانات رياضية لموثوقية FLIPD في التطبيقات العملية
- افتراض دالة النقاط المثالية: تفترض النتائج النظرية تعلم دالة النقاط بشكل مثالي، مع وجود أخطاء تقريبية في الممارسة العملية
- قيود الشروط: الحاجة إلى تحقيق شروط الاستمرارية واللحظة الثانية المحدودة
- متطلبات الاتصال: يتضمن شرط اللحظة الثانية المحدودة بشكل ضمني متطلبات اتصال متعددة الطيات
- تحليل الأخطاء: قياس تأثير أخطاء تعلم دالة النقاط على تقدير البعد الجوهري المحلي
- توسيع المطابقة بالتدفق: توسيع النتائج إلى طرق المطابقة بالتدفق
- توسيع التوزيع: دراسة نتائج مماثلة تحت توزيعات ضوضاء أخرى
- الصرامة النظرية: توفير إثبات رياضي كامل باستخدام أدوات هندسة تفاضلية متقدمة
- القيمة العملية: توفير أساس نظري لطريقة عالية الأداء موجودة بالفعل
- اكتمال النتائج: ليس فقط إثبات الحالة الغاوسية، بل توسيع النطاق إلى حالة التوزيع المنتظم
- وضوح الكتابة: تنظيم المحتوى الرياضي المعقد بشكل جيد، سهل الفهم
- نقص التحقق التجريبي: كعمل نظري، يفتقد إلى التحقق التجريبي من التنبؤات النظرية
- قيود الشروط: قد لا تكون بعض الشروط المفترضة مستوفاة بالكامل في التطبيقات العملية
- نقص تحليل الأخطاء: لم يتم تحليل مصادر الأخطاء في التطبيقات العملية بعمق
- المساهمة الأكاديمية: توفير أساس نظري مهم لمجال التقاطع بين نماذج التوليد وتعلم التعدد
- القيمة العملية: تعزيز الثقة في FLIPD في التطبيقات العملية
- الإلهام: توفير إطار نظري لطرق تحليل هندسية أخرى قائمة على نماذج التوليد
تنطبق هذه النتائج النظرية على:
- تحليل البيانات عالية الأبعاد: خاصة البيانات التي تتبع فرضية التعدد
- الكشف عن الشذوذ: الاستفادة من البعد الجوهري المحلي للكشف عن النقاط الشاذة
- تقييم نماذج التوليد: تقييم قدرة نماذج التوليد على تعلم تعدد البيانات
- تحليل الشبكات العصبية: تحليل الخصائص الهندسية لتمثيلات الشبكة
تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، بما في ذلك:
- Kamkari et al. (2024b): العمل الأصلي الذي اقترح FLIPD
- طرق تقدير البعد الجوهري المحلي الكلاسيكية: Levina & Bickel (2004), Facco et al. (2017) وغيرها
- نظرية نماذج الانتشار: Song et al. (2021), De Bortoli (2022) وغيرها
- المراجع ذات الصلة بتعلم التعدد: Lee (2012, 2018) وكتب الهندسة التفاضلية
الملخص: هذه ورقة نظرية عالية الجودة توفر أساساً رياضياً صارماً لطريقة عملية مهمة وهي FLIPD. على الرغم من افتقارها إلى التحقق التجريبي، فإن مساهمتها النظرية ذات قيمة مهمة لفهم العلاقة بين نماذج التوليد والهندسة التعددية.