Adapting to Unknown Low-Dimensional Structures in Score-Based Diffusion Models
Li, Yan
This paper investigates score-based diffusion models when the underlying target distribution is concentrated on or near low-dimensional manifolds within the higher-dimensional space in which they formally reside, a common characteristic of natural image distributions. Despite previous efforts to understand the data generation process of diffusion models, existing theoretical support remains highly suboptimal in the presence of low-dimensional structure, which we strengthen in this paper. For the popular Denoising Diffusion Probabilistic Model (DDPM), we find that the dependency of the error incurred within each denoising step on the ambient dimension $d$ is in general unavoidable. We further identify a unique design of coefficients that yields a converges rate at the order of $O(k^{2}/\sqrt{T})$ (up to log factors), where $k$ is the intrinsic dimension of the target distribution and $T$ is the number of steps. This represents the first theoretical demonstration that the DDPM sampler can adapt to unknown low-dimensional structures in the target distribution, highlighting the critical importance of coefficient design. All of this is achieved by a novel set of analysis tools that characterize the algorithmic dynamics in a more deterministic manner.
academic
التكيف مع الهياكل منخفضة الأبعاد غير المعروفة في نماذج الانتشار القائمة على الدرجات
تدرس هذه الورقة نماذج الانتشار القائمة على الدرجات عندما تتركز التوزيعات المستهدفة على متشعبات منخفضة الأبعاد أو بالقرب منها في فضاء عالي الأبعاد، وهي سمة شائعة في توزيعات الصور الطبيعية. على الرغم من الجهود السابقة في فهم عملية توليد البيانات لنماذج الانتشار، فإن الدعم النظري الحالي يبقى دون المستوى الأمثل بشكل كبير عند وجود هياكل منخفضة الأبعاد. بالنسبة لنموذج DDPM (نموذج الاحتمالية الانتشاري المزيل للضوضاء) الشهير، يكتشف المؤلفون أن الخطأ الناتج في كل خطوة إزالة ضوضاء يعتمد عادة على البعد المحيط d بطريقة لا مفر منها. علاوة على ذلك، يحددون تصميم معامل فريد ينتج عنه معدل تقارب بترتيب O(k2/T) (مع تجاهل العوامل اللوغاريتمية)، حيث k هو البعد الجوهري للتوزيع المستهدف و T هو عدد الخطوات. يمثل هذا أول إثبات نظري لأن أخذ العينات من DDPM يمكنه التكيف مع الهياكل منخفضة الأبعاد غير المعروفة في التوزيع المستهدف، مما يسلط الضوء على الأهمية الحاسمة لتصميم المعاملات.
أظهرت نماذج الانتشار تفوقاً في توليد صور وصوت ونصوص عالية الجودة، لكن التحليل النظري الحالي يعاني من فجوة كبيرة بين النظرية والممارسة. بشكل محدد:
الفجوة بين التنبؤ النظري والأداء الفعلي: يشير التحليل النظري الحالي إلى أن الوصول إلى دقة ε يتطلب poly(d)/ε² خطوة، حيث d هو بعد المشكلة. ومع ذلك، في الممارسة العملية، يحتاج CIFAR-10 (d=32×32×3) فقط إلى 50 خطوة، و ImageNet يحتاج فقط إلى 250 خطوة لتوليد عينات جيدة.
الانتشار العام للهياكل منخفضة الأبعاد: عادة ما تتركز توزيعات الصور الطبيعية على متشعبات منخفضة الأبعاد أو بالقرب منها في فضاء عالي الأبعاد، لكن النظرية الحالية لا تستفيد من هذه الخاصية الهيكلية.
تجاهل أهمية تصميم المعاملات: لا يعترف التحليل الحالي بشكل كافٍ بأهمية اختيار المعاملات في DDPM.
الاعتماد على البعد: تظهر أفضل النتائج الحالية (Benton et al. 2023) اعتماداً خطياً على البعد المحيط d
الاستفادة غير الكافية من الهياكل منخفضة الأبعاد: على الرغم من أن De Bortoli (2022) أخذ في الاعتبار المتشعبات منخفضة الأبعاد، فإن حد الخطأ لا يزال يعتمد خطياً على البعد المحيط d ويعتمد بشكل أسي على قطر المتشعب
قيود أدوات التحليل: لا تستطيع طرق التحليل الحالية التعامل بفعالية مع حالات الهياكل منخفضة الأبعاد
نظرية التكيف مع البعد للمرة الأولى: إثبات أن أخذ العينات من DDPM يمكنه التكيف مع الهياكل منخفضة الأبعاد غير المعروفة، بمعدل تقارب O(k2/T) (مع تجاهل العوامل اللوغاريتمية)، حيث k هو البعد الجوهري وليس البعد المحيط d.
تصميم معامل فريد: تحديد تصميم المعاملات الفريد ηt∗=1−αt و (σt∗)2=1−αˉt(1−αt)(αt−αˉt)، الذي يضمن عدم إنتاج خطأ تقدير يتناسب مع البعد المحيط d في كل خطوة إزالة ضوضاء.
أدوات تحليل جديدة: تطوير مجموعة جديدة من أدوات التحليل لتوصيف ديناميكيات الخوارزمية بطريقة أكثر حتمية، بما في ذلك تحديد المجموعات عالية الاحتمالية وتقنيات الكثافة الشرطية المترابطة.
إثبات تفرد تصميم المعاملات: إثبات نظري يوضح أن اختيار المعاملات المقترح فريد بمعنى معين، وأي انحراف عن هذا التصميم سيؤدي إلى خطأ يتناسب مع البعد المحيط d.
بالنسبة للتوزيع المستهدف pdata=N(0,Ik)، أي انحراف عن اختيار المعاملات الأمثل يؤدي إلى:
Ext∼qt[KL(pXt−1∣Xt(⋅∣xt)∥pYt−1∣Yt(⋅∣xt))]≥4d(ηt−ηt∗)2+40d(σt2(σt∗)2−1)2
تستشهد الورقة بـ 30 مرجعاً ذا صلة، تغطي نظرية نماذج الانتشار والعمليات العشوائية ونظرية التعلم الإحصائي وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً متيناً لهذا البحث.
التقييم الشامل: هذه ورقة ذات اختراق مهم في نظرية نماذج الانتشار، وهي أول من يثبت نظرياً التكيف مع البعد المنخفض لـ DDPM، مما يوفر رؤية مهمة لفهم الأداء الممتازة لنماذج الانتشار في الممارسة. على الرغم من أن هناك مجالاً للتحسين في بعض التفاصيل التقنية، فإن الابتكار في المساهمات النظرية وأدوات التحليل يجعلها تقدماً مهماً في هذا المجال.