2025-11-16T08:55:12.135200

On Convolutions, Intrinsic Dimension, and Diffusion Models

Leung, Hosseinzadeh, Loaiza-Ganem
The manifold hypothesis asserts that data of interest in high-dimensional ambient spaces, such as image data, lies on unknown low-dimensional submanifolds. Diffusion models (DMs) -- which operate by convolving data with progressively larger amounts of Gaussian noise and then learning to revert this process -- have risen to prominence as the most performant generative models, and are known to be able to learn distributions with low-dimensional support. For a given datum in one of these submanifolds, we should thus intuitively expect DMs to have implicitly learned its corresponding local intrinsic dimension (LID), i.e. the dimension of the submanifold it belongs to. Kamkari et al. (2024b) recently showed that this is indeed the case by linking this LID to the rate of change of the log marginal densities of the DM with respect to the amount of added noise, resulting in an LID estimator known as FLIPD. LID estimators such as FLIPD have a plethora of uses, among others they quantify the complexity of a given datum, and can be used to detect outliers, adversarial examples and AI-generated text. FLIPD achieves state-of-the-art performance at LID estimation, yet its theoretical underpinnings are incomplete since Kamkari et al. (2024b) only proved its correctness under the highly unrealistic assumption of affine submanifolds. In this work we bridge this gap by formally proving the correctness of FLIPD under realistic assumptions. Additionally, we show that an analogous result holds when Gaussian convolutions are replaced with uniform ones, and discuss the relevance of this result.
academic

কনভোলিউশন, অন্তর্নিহিত মাত্রা এবং ডিফিউশন মডেলের উপর

মৌলিক তথ্য

  • পেপার আইডি: 2506.20705
  • শিরোনাম: On Convolutions, Intrinsic Dimension, and Diffusion Models
  • লেখক: কিন কোয়ান লিউং, রাসা হোসেইনজাদেহ, গ্যাব্রিয়েল লোয়াইজা-গানেম (লেয়ার ৬ এআই)
  • শ্রেণীবিভাগ: cs.LG cs.AI stat.ML
  • প্রকাশনার সময়/সম্মেলন: ট্রানজ্যাকশনস অন মেশিন লার্নিং রিসার্চ (১০/২০২৫)
  • পেপার লিংক: https://arxiv.org/abs/2506.20705

সারসংক্ষেপ

ম্যানিফোল্ড অনুমান দাবি করে যে উচ্চ-মাত্রিক পরিবেশগত স্থানে আগ্রহের ডেটা (যেমন ইমেজ ডেটা) একটি অজানা নিম্ন-মাত্রিক সাব-ম্যানিফোল্ডে অবস্থিত। ডিফিউশন মডেল (ডিএম) ডেটায় ক্রমবর্ধমান গাউসীয় শব্দ কনভোলিউশন প্রয়োগ করে এবং সেই প্রক্রিয়াটি বিপরীত করতে শিখে কাজ করে, যা সর্বোচ্চ-কর্মক্ষমতা সম্পন্ন জেনারেটিভ মডেল হয়ে উঠেছে এবং নিম্ন-মাত্রিক সমর্থন সহ বিতরণ শিখতে পরিচিত। এই সাব-ম্যানিফোল্ডে প্রদত্ত ডেটা পয়েন্টের জন্য, আমরা স্বজ্ঞাগতভাবে আশা করি যে ডিএম ইতিমধ্যে এর সংশ্লিষ্ট স্থানীয় অন্তর্নিহিত মাত্রা (এলআইডি) শিখেছে, অর্থাৎ যে সাব-ম্যানিফোল্ডের মাত্রা এটি অন্তর্গত। কামকারি এবং অন্যরা (২০২৪খ) সম্প্রতি এলআইডিকে ডিএমের লগ মার্জিনাল ঘনত্বের পরিবর্তনের হার যোগ করা শব্দের পরিমাণের সাথে সংযুক্ত করে এটি প্রমাণ করেছেন, যা এফএলআইপিডি নামক একটি এলআইডি অনুমানকারী তৈরি করে। এফএলআইপিডি এলআইডি অনুমানে অত্যাধুনিক কর্মক্ষমতা অর্জন করেছে, কিন্তু এর তাত্ত্বিক ভিত্তি অসম্পূর্ণ, কারণ কামকারি এবং অন্যরা (২০২৪খ) শুধুমাত্র অ্যাফাইন সাব-ম্যানিফোল্ডের অত্যন্ত অবাস্তব অনুমানের অধীনে এর সঠিকতা প্রমাণ করেছেন। এই পেপারটি বাস্তবসম্মত অনুমানের অধীনে এফএলআইপিডির সঠিকতা আনুষ্ঠানিকভাবে প্রমাণ করে এই ব্যবধান পূরণ করে। অধিকন্তু, আমরা প্রমাণ করি যে গাউসীয় কনভোলিউশন সমরূপ কনভোলিউশন দ্বারা প্রতিস্থাপিত হলে অনুরূপ ফলাফল প্রযোজ্য, এবং এই ফলাফলের প্রাসঙ্গিকতা আলোচনা করি।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

এই পেপারটি যে মূল সমস্যা সমাধান করতে চায় তা হল এফএলআইপিডি (ফ্লো-ভিত্তিক স্থানীয় অন্তর্নিহিত মাত্রা) অনুমানকারীর জন্য কঠোর তাত্ত্বিক ভিত্তি প্রদান করা। নির্দিষ্টভাবে:

১. তাত্ত্বিক ত্রুটি: কামকারি এবং অন্যরা দ্বারা প্রস্তাবিত এফএলআইপিডি ব্যবহারিক ক্ষেত্রে চমৎকার পারফরম্যান্স প্রদর্শন করে, কিন্তু এর তাত্ত্বিক প্রমাণ শুধুমাত্র অ্যাফাইন সাব-ম্যানিফোল্ডের অবাস্তব অনুমানের অধীনে বৈধ ২. ব্যবহারিক চাহিদা: সাধারণ এমবেডেড সাব-ম্যানিফোল্ডে এফএলআইপিডির সঠিকতা প্রমাণ করা প্রয়োজন, যাতে এর তাত্ত্বিক ভিত্তি ব্যবহারিক প্রয়োগের সাথে সামঞ্জস্যপূর্ণ হয়

গুরুত্ব বিশ্লেষণ

স্থানীয় অন্তর্নিহিত মাত্রা (এলআইডি) অনুমান মেশিন লার্নিংয়ে গুরুত্বপূর্ণ প্রয়োগ মূল্য রাখে:

  • জটিলতা পরিমাপ: ইমেজ জটিলতা কার্যকরভাবে পরিমাপ করা
  • অসঙ্গতি সনাক্তকরণ: আউটলায়ার, প্রতিকূল নমুনা এবং এআই-উৎপাদিত পাঠ সনাক্ত করা
  • সাধারণীকরণ পূর্বাভাস: নিউরাল নেটওয়ার্ক প্রতিনিধিত্বের এলআইডি অনুমান সাধারণীকরণ কর্মক্ষমতা পূর্বাভাস দিতে পারে
  • স্মৃতিশীলতা সনাক্তকরণ: মডেল স্মৃতিশীলতা ঘটনা চিহ্নিত করা

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

ঐতিহ্যবাহী এলআইডি অনুমানকারীরা নিম্নলিখিত সমস্যা উপস্থাপন করে: ১. উচ্চ গণনামূলক জটিলতা: জোড়া দূরত্ব গণনার উপর নির্ভরশীল, ডেটাসেট আকার এবং পরিবেশগত মাত্রায় স্কেলেবিলিটি দুর্বল २. মাত্রার অভিশাপ: উচ্চ-মাত্রিক স্থানে কর্মক্ষমতা হ্রাস ३. তাত্ত্বিক অসম্পূর্ণতা: এফএলআইপিডি চমৎকার কর্মক্ষমতা প্রদর্শন করে, কিন্তু তাত্ত্বিক ভিত্তি দুর্বল

মূল অবদান

१. তাত্ত্বিক পরিমার্জন: বাস্তবসম্মত অনুমানের অধীনে এফএলআইপিডির সঠিকতা আনুষ্ঠানিকভাবে প্রমাণ করা, এটি অ্যাফাইন সাব-ম্যানিফোল্ড থেকে সাধারণ মসৃণ এমবেডেড সাব-ম্যানিফোল্ডে প্রসারিত করা २. ফলাফল সম্প্রসারণ: প্রমাণ করা যে গাউসীয় কনভোলিউশন সমরূপ কনভোলিউশন দ্বারা প্রতিস্থাপিত হলে অনুরূপ ফলাফল বজায় থাকে ३. গাণিতিক কঠোরতা: জটিল ডিফারেনশিয়াল জ্যামিতি বিশ্লেষণ সহ সম্পূর্ণ গাণিতিক প্রমাণ প্রদান করা ४. ব্যবহারিক মূল্য: ব্যবহারিক প্রয়োগে এফএলআইপিডির নির্ভরযোগ্যতার জন্য তাত্ত্বিক নিশ্চয়তা প্রদান করা

পদ্ধতির বিস্তারিত ব্যাখ্যা

মূল তাত্ত্বিক ফলাফল

এই পেপারের মূল হল নিম্নলিখিত মূল সমীকরণ সাধারণ শর্তের অধীনে প্রমাণ করা:

LID(x)=D+limδδlogϱN(x,δ)\text{LID}(x) = D + \lim_{\delta \to -\infty} \frac{\partial}{\partial \delta} \log \varrho_N(x, \delta)

যেখানে:

  • ϱN(x,δ)\varrho_N(x, \delta) হল ডেটা বিতরণ এবং লগ মান বিচ্যুতি δ\delta সহ গাউসীয় শব্দের কনভোলিউশন
  • DD হল পরিবেশগত স্থানের মাত্রা
  • δ\delta \to -\infty শব্দ শূন্যের দিকে প্রবণতার সীমার সাথে সামঞ্জস্যপূর্ণ

প্রধান উপপাদ্য

উপপাদ্য ১ (গাউসীয় ক্ষেত্র): ধরুন MM হল RD\mathbb{R}^D এ একটি মসৃণ dd-মাত্রিক এমবেডেড সাব-ম্যানিফোল্ড, এবং pp হল MM এ একটি সম্ভাব্যতা ঘনত্ব ফাংশন। xMx \in M এর জন্য, যদি pp xx এ ক্রমাগত হয়, p(x)>0p(x) > 0, এবং সীমিত দ্বিতীয় মুহূর্ত শর্ত সন্তুষ্ট করে, তাহলে:

limδδlogϱN(x,δ)=dD\lim_{\delta \to -\infty} \frac{\partial}{\partial \delta} \log \varrho_N(x, \delta) = d - D

উপপাদ্য २ (সমরূপ ক্ষেত্র): অনুরূপ ফলাফল সমরূপ বিতরণ কনভোলিউশনের জন্যও প্রযোজ্য:

limδδlogϱU(x,δ)=dD\lim_{\delta \to -\infty} \frac{\partial}{\partial \delta} \log \varrho_U(x, \delta) = d - D

প্রমাণের কৌশল

প্রমাণের মূল ধারণা হল গাউসীয় ঘনত্ব এবং সমরূপ ঘনত্বের বিয়োজন বৈশিষ্ট্য ব্যবহার করা:

१. গাউসীয় ক্ষেত্র: সম্পর্ক ব্যবহার করা ND(xx;0,δ)=(2π)dD2eδ(dD)Nd(xx;0,δ)N_D(x-x'; 0, \delta) = (2\pi)^{\frac{d-D}{2}} e^{\delta(d-D)} N_d(x-x'; 0, \delta)

२. সমরূপ ক্ষেত্র: অনুরূপ বিয়োজন ব্যবহার করা UD(x;μ,δ)=CDU(CdU)1eδ(dD)Ud(x;μ,δ)U_D(x;\mu, \delta) = C_D^U (C_d^U)^{-1} e^{\delta(d-D)} U_d(x;\mu, \delta)

३. সীমা বিশ্লেষণ: সূক্ষ্ম ডিফারেনশিয়াল জ্যামিতি বিশ্লেষণের মাধ্যমে, প্রমাণ করা যে ডেরিভেটিভের সীমা প্রত্যাশিত মূল্যে সংবৃত হয়

পরীক্ষামূলক সেটআপ

এই পেপারটি প্রধানত একটি তাত্ত্বিক কাজ, বৃহৎ-স্কেল পরীক্ষামূলক যাচাইকরণ পরিচালনা করে না। লেখকরা নিম্নলিখিতগুলিতে মনোনিবেশ করেন: १. গাণিতিক প্রমাণ: কঠোর তাত্ত্বিক বিশ্লেষণ প্রদান করা २. শর্ত যাচাইকরণ: নিশ্চিত করা যে প্রস্তাবিত শর্তগুলি ব্যবহারিক প্রয়োগে যুক্তিসঙ্গত ३. সম্প্রসারণ বিশ্লেষণ: ফলাফল একক সাব-ম্যানিফোল্ড থেকে সাব-ম্যানিফোল্ডের বিচ্ছিন্ন ইউনিয়নে প্রসারিত করা

পরীক্ষামূলক ফলাফল

তাত্ত্বিক ফলাফল যাচাইকরণ

পেপারটি নিম্নলিখিত অনুসিদ্ধান্তের মাধ্যমে তত্ত্বের সম্পূর্ণতা যাচাই করে:

অনুসিদ্ধান্ত १: সাব-ম্যানিফোল্ডের বিচ্ছিন্ন ইউনিয়ন M=jMjM = \cup_j M_j এর জন্য, উপযুক্ত বিচ্ছিন্নতা শর্তের অধীনে, ফলাফল বজায় থাকে।

অনুসিদ্ধান্ত २: সমরূপ ক্ষেত্রের অনুরূপ সম্প্রসারণও প্রযোজ্য।

ব্যবহারিক তাৎপর্য

এই তাত্ত্বিক ফলাফলগুলি সরাসরি অর্থ বহন করে: १. এফএলআইপিডি সঠিকতা: যখন ভগ্নাংশ ফাংশন নিখুঁতভাবে শিখা হয়, limδFLIPD(x;δ)=LID(x)\lim_{\delta \to -\infty} \text{FLIPD}(x; \delta) = \text{LID}(x) २. নেতিবাচক মূল্য ব্যাখ্যা: এফএলআইপিডি নেতিবাচক অনুমান মূল্য উৎপাদন করা শুধুমাত্র ভগ্নাংশ ফাংশন শেখার অসম্পূর্ণতার জন্য দায়ী করা যায়, তাত্ত্বিক ত্রুটির জন্য নয়

সম্পর্কিত কাজ

এলআইডি অনুমান পদ্ধতির শ্রেণীবিভাগ

१. ঐতিহ্যবাহী পদ্ধতি: জোড়া দূরত্ব বা কোণের উপর ভিত্তি করে পরিসংখ্যানগত অনুমানকারী (ফুকুনাগা এবং ওলসেন, १९७१; লেভিনা এবং বিকেল, २००४ ইত্যাদি) २. জেনারেটিভ মডেল পদ্ধতি:

  • ভেরিয়েশনাল অটোএনকোডার পদ্ধতি (ঝেং এবং অন্যরা, २०२२)
  • নর্মালাইজড ফ্লো পদ্ধতি (টেম্পজিক এবং অন্যরা, २०२२)
  • ডিফিউশন মডেল পদ্ধতি (স্ট্যানজুক এবং অন্যরা, २०२४; হোরভাট এবং ফিস্টার, २०२४)

এফএলআইপিডির সাথে তুলনা

  • স্ট্যানজুক এবং অন্যদের পদ্ধতি: ডিফিউশন মডেলের উপরও ভিত্তি করে কিন্তু আরও বেশি ফাংশন মূল্যায়ন প্রয়োজন
  • হোরভাট এবং ফিস্টার পদ্ধতি: ডিএম প্রশিক্ষণ প্রক্রিয়া সংশোধন প্রয়োজন
  • এফএলআইপিডি সুবিধা: অত্যাধুনিক ডিএম (যেমন স্টেবল ডিফিউশন) এর সাথে সামঞ্জস্যপূর্ণ

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. তাত্ত্বিক পরিমার্জন: এফএলআইপিডির তাত্ত্বিক ভিত্তি অ্যাফাইন সাব-ম্যানিফোল্ড থেকে সাধারণ মসৃণ এমবেডেড সাব-ম্যানিফোল্ডে সফলভাবে প্রসারিত করা २. পদ্ধতি সার্বজনীনতা: গাউসীয় এবং সমরূপ কনভোলিউশন ক্ষেত্রে অনুরূপ ফলাফল প্রমাণ করা ३. ব্যবহারিক মূল্য: ব্যবহারিক প্রয়োগে এফএলআইপিডির নির্ভরযোগ্যতার জন্য গাণিতিক নিশ্চয়তা প্রদান করা

সীমাবদ্ধতা

१. নিখুঁত ভগ্নাংশ ফাংশন অনুমান: তাত্ত্বিক ফলাফল নিখুঁত ভগ্নাংশ ফাংশন শেখার অনুমান করে, ব্যবহারিক ক্ষেত্রে আনুমানিক ত্রুটি বিদ্যমান २. শর্ত সীমাবদ্ধতা: ক্রমাগতা এবং সীমিত দ্বিতীয় মুহূর্ত শর্ত সন্তুষ্ট করা প্রয়োজন ३. সংযোগ প্রয়োজনীয়তা: সীমিত দ্বিতীয় মুহূর্ত শর্ত সাব-ম্যানিফোল্ড সংযোগযোগ্যতা প্রয়োজন নির্দেশ করে

ভবিষ্যত দিকনির্দেশনা

१. ত্রুটি বিশ্লেষণ: ভগ্নাংশ ফাংশন শেখার ত্রুটি এলআইডি অনুমানে প্রভাব পরিমাপ করা २. ফ্লো ম্যাচিং সম্প্রসারণ: ফ্লো ম্যাচিং পদ্ধতিতে ফলাফল প্রসারিত করা ३. বিতরণ সম্প্রসারণ: অন্যান্য শব্দ বিতরণের অধীনে অনুরূপ ফলাফল গবেষণা করা

গভীর মূল্যায়ন

সুবিধা

१. তাত্ত্বিক কঠোরতা: উন্নত ডিফারেনশিয়াল জ্যামিতি সরঞ্জাম ব্যবহার করে সম্পূর্ণ গাণিতিক প্রমাণ প্রদান করা २. ব্যবহারিক মূল্য: ইতিমধ্যে উচ্চ-কর্মক্ষমতা পদ্ধতির জন্য তাত্ত্বিক ভিত্তি প্রদান করা ३. ফলাফল সম্পূর্ণতা: শুধুমাত্র গাউসীয় ক্ষেত্র নয়, সমরূপ বিতরণ ক্ষেত্রেও প্রসারিত করা ४. লেখার স্পষ্টতা: জটিল গাণিতিক বিষয়বস্তু সুসংগঠিত এবং বোধগম্য

অপূর্ণতা

१. পরীক্ষামূলক যাচাইকরণের অভাব: তাত্ত্বিক কাজ হিসাবে, তাত্ত্বিক পূর্বাভাস যাচাই করার জন্য পরীক্ষার অভাব २. শর্ত সীমাবদ্ধতা: কিছু অনুমান শর্ত ব্যবহারিক প্রয়োগে সম্পূর্ণভাবে পূরণ না হতে পারে ३. অপর্যাপ্ত ত্রুটি বিশ্লেষণ: ব্যবহারিক প্রয়োগে ত্রুটি উৎসের গভীর বিশ্লেষণ নেই

প্রভাব

१. একাডেমিক অবদান: জেনারেটিভ মডেল এবং ম্যানিফোল্ড লার্নিংয়ের ক্রস-ডিসিপ্লিনারি ক্ষেত্রে গুরুত্বপূর্ণ তাত্ত্বিক ভিত্তি প্রদান করা २. ব্যবহারিক মূল্য: ব্যবহারিক প্রয়োগে এফএলআইপিডির বিশ্বাসযোগ্যতা বৃদ্ধি করা ३. অনুপ্রেরণামূলক: অন্যান্য জেনারেটিভ মডেল-ভিত্তিক জ্যামিতিক বিশ্লেষণ পদ্ধতির জন্য তাত্ত্বিক কাঠামো প্রদান করা

প্রযোজ্য পরিস্থিতি

এই তাত্ত্বিক ফলাফল নিম্নলিখিত ক্ষেত্রে প্রযোজ্য: १. উচ্চ-মাত্রিক ডেটা বিশ্লেষণ: বিশেষত ম্যানিফোল্ড অনুমান অনুসরণকারী ডেটা २. অসঙ্গতি সনাক্তকরণ: এলআইডি ব্যবহার করে আউটলায়ার সনাক্তকরণ ३. জেনারেটিভ মডেল মূল্যায়ন: জেনারেটিভ মডেল ডেটা ম্যানিফোল্ড শেখার ক্ষমতা মূল্যায়ন করা ४. নিউরাল নেটওয়ার্ক বিশ্লেষণ: নেটওয়ার্ক প্রতিনিধিত্বের জ্যামিতিক বৈশিষ্ট্য বিশ্লেষণ করা

সংদর্ভ

পেপারটি বিস্তৃত সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • কামকারি এবং অন্যরা (२०२४খ): এফএলআইপিডি প্রস্তাব করার মূল কাজ
  • ক্লাসিক এলআইডি অনুমান পদ্ধতি: লেভিনা এবং বিকেল (२००४), ফ্যাকো এবং অন্যরা (२०१७) ইত্যাদি
  • ডিফিউশন মডেল তত্ত্ব: সং এবং অন্যরা (२०२१), ডি বোর্টোলি (२०२२) ইত্যাদি
  • ম্যানিফোল্ড লার্নিং সম্পর্কিত: লি (२०१२, २०१८) ইত্যাদি ডিফারেনশিয়াল জ্যামিতি পাঠ্যপুস্তক

সংক্ষিপ্তসার: এটি একটি উচ্চ-মানের তাত্ত্বিক পেপার যা গুরুত্বপূর্ণ ব্যবহারিক পদ্ধতি এফএলআইপিডির জন্য কঠোর গাণিতিক ভিত্তি প্রদান করে। যদিও পরীক্ষামূলক যাচাইকরণের অভাব রয়েছে, তবে এর তাত্ত্বিক অবদান জেনারেটিভ মডেল এবং ম্যানিফোল্ড জ্যামিতির সম্পর্ক বোঝার জন্য উল্লেখযোগ্য মূল্য রাখে।