2025-11-19T18:58:14.309516

A Connection Between Score Matching and Local Intrinsic Dimension

Yeats, Jacobson, Hannan et al.
The local intrinsic dimension (LID) of data is a fundamental quantity in signal processing and learning theory, but quantifying the LID of high-dimensional, complex data has been a historically challenging task. Recent works have discovered that diffusion models capture the LID of data through the spectra of their score estimates and through the rate of change of their density estimates under various noise perturbations. While these methods can accurately quantify LID, they require either many forward passes of the diffusion model or use of gradient computation, limiting their applicability in compute- and memory-constrained scenarios. We show that the LID is a lower bound on the denoising score matching loss, motivating use of the denoising score matching loss as a LID estimator. Moreover, we show that the equivalent implicit score matching loss also approximates LID via the normal dimension and is closely related to a recent LID estimator, FLIPD. Our experiments on a manifold benchmark and with Stable Diffusion 3.5 indicate that the denoising score matching loss is a highly competitive and scalable LID estimator, achieving superior accuracy and memory footprint under increasing problem size and quantization level.
academic

স্কোর ম্যাচিং এবং স্থানীয় অন্তর্নিহিত মাত্রার মধ্যে একটি সংযোগ

মৌলিক তথ্য

  • পেপার আইডি: 2510.12975
  • শিরোনাম: স্কোর ম্যাচিং এবং স্থানীয় অন্তর্নিহিত মাত্রার মধ্যে একটি সংযোগ
  • লেখক: এরিক ইয়েটস, আরন জ্যাকবসন, ড্যারিল হ্যানান, ইরান জিয়া, টিমোথি ডোস্টার, হেনরি কভিঞ্জ, স্কট মাহান (PNNL, UNC চ্যাপেল হিল, UC সান ডিয়েগো)
  • শ্রেণীবিভাগ: cs.LG stat.ML
  • প্রকাশনার সময়/সম্মেলন: NeurIPS 2025-এ 3য় SPIGM ওয়ার্কশপে গৃহীত
  • পেপার লিংক: https://arxiv.org/abs/2510.12975

সারসংক্ষেপ

স্থানীয় অন্তর্নিহিত মাত্রা (Local Intrinsic Dimension, LID) সংকেত প্রক্রিয়াকরণ এবং শেখার তত্ত্বে একটি মৌলিক পরিমাণ, কিন্তু উচ্চ-মাত্রিক জটিল ডেটার LID পরিমাপ করা ঐতিহাসিকভাবে একটি চ্যালেঞ্জিং কাজ। সাম্প্রতিক গবেষণা দেখায় যে বিস্তার মডেলগুলি তাদের স্কোর অনুমানের বর্ণালী এবং বিভিন্ন শব্দ বিঘ্নের অধীনে ঘনত্ব অনুমানের পরিবর্তনের হার মাধ্যমে ডেটার LID ক্যাপচার করে। যদিও এই পদ্ধতিগুলি LID সঠিকভাবে পরিমাপ করতে পারে, তবে তাদের বিস্তার মডেলের একাধিক ফরওয়ার্ড পাস বা গ্রেডিয়েন্ট গণনা ব্যবহার প্রয়োজন, যা গণনা এবং মেমরি সীমাবদ্ধ পরিস্থিতিতে এর প্রয়োগযোগ্যতা সীমাবদ্ধ করে।

এই পেপারটি প্রমাণ করে যে LID হল ডিনোইজিং স্কোর ম্যাচিং ক্ষতির একটি নিম্ন সীমা, যা ডিনোইজিং স্কোর ম্যাচিং ক্ষতি ব্যবহার করে LID অনুমানকারী হিসাবে ব্যবহারের জন্য তাত্ত্বিক ভিত্তি প্রদান করে। অতিরিক্তভাবে, লেখকরা প্রমাণ করেন যে সমতুল্য অন্তর্নিহিত স্কোর ম্যাচিং ক্ষতিও সাধারণ মাত্রার মাধ্যমে LID অনুমান করে এবং সাম্প্রতিক LID অনুমানকারী FLIPD-এর সাথে ঘনিষ্ঠভাবে সম্পর্কিত। ম্যানিফোল্ড বেঞ্চমার্ক এবং Stable Diffusion 3.5-এ পরিচালিত পরীক্ষাগুলি দেখায় যে ডিনোইজিং স্কোর ম্যাচিং ক্ষতি একটি অত্যন্ত প্রতিযোগিতামূলক এবং স্কেলেবল LID অনুমানকারী, যা সমস্যার আকার এবং পরিমাপের স্তর বৃদ্ধির সাথে সাথে উচ্চতর নির্ভুলতা এবং মেমরি ব্যবহার অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

উচ্চ-মাত্রিক ডেটা সাধারণত নিম্ন-মাত্রিক কাঠামো ধারণ করে, যা ম্যানিফোল্ড অনুমান হিসাবে পরিচিত এবং মেশিন লার্নিংয়ের মূল অনুমান। স্থানীয় অন্তর্নিহিত মাত্রা (LID) হল ডেটার নিম্ন-মাত্রিক কাঠামো সংক্ষিপ্ত করার মৌলিক পরিমাণ, বিন্দু x-এর জন্য, LID হল x-এর চারপাশে ডেটা নির্বিঘ্নে এনকোড করার জন্য প্রয়োজনীয় স্থানীয় মাত্রা।

গুরুত্ব

  1. সংকেত প্রক্রিয়াকরণ তাৎপর্য: LID বিতরণের (স্থানীয়) সংকোচনযোগ্যতার সীমানা নির্ধারণ করে
  2. গভীর শেখার মূল্য: নিম্ন LID শেখার পরিসংখ্যানগত দক্ষতা উন্নত করে, শেখা এবং সাধারণীকরণ সহজ করে
  3. ব্যবহারিক প্রয়োগ: অসামান্যতা সনাক্তকরণ, ক্লাস্টারিং এবং বিভাজনের মতো প্রকৌশল কাজে ব্যাপকভাবে প্রয়োগ করা হয়

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. অ-প্যারামেট্রিক পদ্ধতি: বিশাল নমুনা ডেটা প্রয়োজন, হাইপারপ্যারামিটার নির্বাচনের দ্বারা দৃঢ়ভাবে প্রভাবিত, নিম্ন ডেটা সেটিংসে সাধারণীকরণ করতে পারে না
  2. প্যারামেট্রিক পদ্ধতি: গভীর উৎপাদনশীল মডেল ব্যবহার করে স্কেলেবিলিটি থাকলেও, LIDL একাধিক উৎপাদনশীল মডেল প্রয়োজন, FLIPD এবং সাধারণ বান্ডেল পদ্ধতি গ্রেডিয়েন্ট গণনা বা প্রচুর ফরওয়ার্ড পাস প্রয়োজন

গবেষণা প্রেরণা

বিদ্যমান প্যারামেট্রিক LID অনুমান পদ্ধতিগুলি গণনা এবং মেমরি দক্ষতার ক্ষেত্রে সীমাবদ্ধতা রয়েছে, বিশেষত বড় আকারের প্রয়োগে। এই পেপারটি আরও দক্ষ, স্কেলেবল LID অনুমান পদ্ধতি আবিষ্কার করার লক্ষ্য রাখে।

মূল অবদান

  1. তাত্ত্বিক অবদান: প্রমাণ করে যে ডিনোইজিং স্কোর ম্যাচিং ক্ষতি LID-কে নিম্ন সীমা হিসাবে রাখে, এটি স্কেলেবল LID অনুমানকারী হিসাবে ব্যবহারের জন্য তাত্ত্বিক ভিত্তি প্রদান করে
  2. পদ্ধতি সংযোগ: স্কোর ম্যাচিং ক্ষতি এবং বর্তমান শীর্ষস্থানীয় অনুমানকারীদের (FLIPD এবং সাধারণ বান্ডেল পদ্ধতি) মধ্যে ঘনিষ্ঠ সম্পর্ক প্রতিষ্ঠা করে
  3. পরীক্ষামূলক যাচাইকরণ: ম্যানিফোল্ড বেঞ্চমার্ক এবং Stable Diffusion 3.5/2.0-এ পরীক্ষা দেখায় যে ডিনোইজিং স্কোর ম্যাচিং ক্ষতি একটি অত্যন্ত প্রতিযোগিতামূলক LID অনুমানকারী
  4. ব্যবহারিক সুবিধা: মেমরি ব্যবহার এবং পরিমাপ সামঞ্জস্যতার ক্ষেত্রে উচ্চতর স্কেলেবিলিটি প্রদর্শন করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

d-মাত্রিক ডেটা ম্যানিফোল্ড M⊂Rⁿ থেকে নমুনা করা বিন্দু x দেওয়া, এর স্থানীয় অন্তর্নিহিত মাত্রা d অনুমান করুন। ইনপুট হল উচ্চ-মাত্রিক ডেটা পয়েন্ট, আউটপুট হল সংশ্লিষ্ট LID অনুমান মূল্য।

মূল তত্ত্ব

উপপাদ্য 3.1: ডিনোইজিং স্কোর ম্যাচিং ক্ষতি নিম্ন সীমা

d-মাত্রিক ম্যানিফোল্ড M থেকে নমুনা করা র্যান্ডম ভেরিয়েবল x-এর জন্য, যখন σ→0⁺ যথেষ্ট ছোট হয়:

E_x[L_DSM(x,σ,θ)] ≥ d

যেখানে ডিনোইজিং স্কোর ম্যাচিং ক্ষতি সংজ্ঞায়িত করা হয়:

E_x[L_DSM(x,σ,θ)] := E_{x~p(x),ε~N(0,I)} σ²||ε/σ + s_θ(x+σε)||²

প্রমাণের কৌশল:

  1. শব্দ ε-কে স্পর্শ স্থান এবং সাধারণ স্থান উপাদানে বিভক্ত করুন
  2. স্পর্শ স্থান উপাদান: প্রতিটি মাত্রার প্রত্যাশিত বর্গ ত্রুটি প্রায় 1
  3. সাধারণ স্থান উপাদান: ম্যানিফোল্ড কাঠামোর কারণে, প্রত্যাশিত বর্গ ত্রুটি প্রায় 0
  4. মোট LID-কে নিম্ন সীমা হিসাবে পান

উপপাদ্য 3.3: অন্তর্নিহিত স্কোর ম্যাচিং ক্ষতি নিম্ন সীমা

E_{x̃}[L_ISM(x̃,σ,θ)] ≥ -(n-d)

এটি দেখায় যে অন্তর্নিহিত স্কোর ম্যাচিং ক্ষতি নেতিবাচক সাধারণ মাত্রার নিম্ন সীমা।

বিদ্যমান পদ্ধতির সাথে সংযোগ

FLIPD-এর সাথে সম্পর্ক

বিন্দু x-এ FLIPD-এর গণনা:

FLIPD(x,σ,θ) := L_ISM(x,σ,θ) + σ²/2||s_θ(x)||² + n

উপপাদ্য 3.3 মাধ্যমে প্রমাণ করা যায়:

E_{x̃}[FLIPD(x̃,σ,θ)] ≥ d

সাধারণ বান্ডেল পদ্ধতির সাথে সম্পর্ক

সাধারণ বান্ডেল পদ্ধতি m×n ম্যাট্রিক্সের একবচন মূল্য গণনা করে, যখন এই পেপারে প্রস্তাবিত ত্রুটি বান্ডেল পদ্ধতি ত্রুটি ভেক্টর ম্যাট্রিক্সের আইজেনভ্যালু গণনা করে। ডিনোইজিং ক্ষতি গ্রাম ম্যাট্রিক্স আইজেনভ্যালুর ট্রেসের সমান (ক্ষেত্র), ছোট নমুনায় এখনও নির্ভুল।

পরীক্ষামূলক সেটআপ

ডেটাসেট

scikit-dimension প্যাকেজে পরিচিত LID সহ ম্যানিফোল্ড ব্যবহার করুন:

  • d=16, n=64 এর হাইপারস্ফিয়ার এবং হাইপারবল
  • d=128, n=256 এর HyperTwinPeaks
  • d=32, n=128 এর Clifford টোরাস এবং অ-রৈখিক ম্যানিফোল্ড

মডেল আর্কিটেকচার

  1. DiT (Diffusion Transformer): প্যাচ আকার=4, লুকানো মাত্রা=128, 16 মনোযোগ মাথা, 8 স্তর
  2. MLP: স্কিপ সংযোগ সহ, FLIPD-এ ব্যবহৃত আর্কিটেকচারের মতো

মূল্যায়ন মেট্রিক্স

  • প্রধান মেট্রিক: সত্য LID এবং অনুমানিত LID-এর মধ্যে গড় পরম ত্রুটি (MAE)
  • সহায়ক মেট্রিক: শীর্ষ GPU মেমরি ব্যবহার, পরিমাপের পরে কর্মক্ষমতা পরিবর্তন

তুলনা পদ্ধতি

  • অ-প্যারামেট্রিক পদ্ধতি: MLE, TwoNN, ESS
  • প্যারামেট্রিক পদ্ধতি: FLIPD
  • শব্দ স্তর: σ = 0.01, 0.02, 0.05

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

ম্যানিফোল্ড বেঞ্চমার্ক পরীক্ষা

টেবিল 1 দ্বারা প্রদর্শিত মূল আবিষ্কার:

  1. DiT আর্কিটেকচারের অধীনে:
    • ডিনোইজিং ক্ষতি পদ্ধতি গড় MAE: 2.21 (σ=0.05)
    • FLIPD গড় MAE: 23.05 (σ=0.05)
    • উচ্চ-মাত্রিক উচ্চ বক্রতা ম্যানিফোল্ডে উল্লেখযোগ্য পার্থক্য
  2. MLP আর্কিটেকচারের অধীনে:
    • ডিনোইজিং ক্ষতি পদ্ধতি গড় MAE: 7.27 (σ=0.05)
    • FLIPD গড় MAE: 11.11 (σ=0.05)
    • FLIPD MLP-এ আরও ভাল কর্মক্ষমতা
  3. অ-প্যারামেট্রিক পদ্ধতি:
    • ESS সেরা কর্মক্ষমতা: MAE 7.12 (k=100)
    • উচ্চ-মাত্রিক ম্যানিফোল্ডে গুরুতর কর্মক্ষমতা হ্রাস

স্কেলেবিলিটি পরীক্ষা

চিত্র 2 ফলাফল:

  • ম্যানিফোল্ড মাত্রা বৃদ্ধির সাথে সাথে উভয় প্যারামেট্রিক পদ্ধতি কম MAE বজায় রাখে
  • FLIPD মেমরি ব্যবহার গ্রেডিয়েন্ট গণনার কারণে দ্রুত বৃদ্ধি পায়
  • ডিনোইজিং ক্ষতি পদ্ধতি মেমরি বৃদ্ধি ধীর

Stable Diffusion পরীক্ষা

SD 3.5 পরীক্ষা আবিষ্কার

  1. সম্পর্ক: FLIPD এবং ডিনোইজিং ক্ষতি অনুমান অত্যন্ত সম্পর্কিত
  2. সংখ্যাগত পার্থক্য: FLIPD সাধারণত উচ্চতর LID অনুমান প্রদান করে
  3. পরিমাপ স্থিতিশীলতা: ডিনোইজিং ক্ষতি পরিমাপের পরে কম পরিবর্তন
  4. মেমরি দক্ষতা: ডিনোইজিং ক্ষতি শীর্ষ মেমরি FLIPD-এর প্রায় 60%

SD 2.0 পরীক্ষা

  • অনুরূপ উচ্চ সম্পর্ক প্যাটার্ন
  • FLIPD উচ্চ শব্দ স্তরে নেতিবাচক মূল্য প্রদর্শন করে (অবৈধ অনুমান)
  • U-Net আর্কিটেকচারের উচ্চ Lipschitz ধ্রুবকের কারণে

বিলোপন পরীক্ষা

বিভিন্ন σ মূল্যের পরীক্ষার মাধ্যমে আবিষ্কৃত:

  • σ=0.05 সাধারণত সেরা কর্মক্ষমতা প্রদান করে
  • ছোট σ মূল্য সংখ্যাগত অস্থিরতা হতে পারে
  • DiT আর্কিটেকচার σ নির্বাচনের জন্য আরও শক্তিশালী

সম্পর্কিত কাজ

অ-প্যারামেট্রিক LID অনুমান

  • MLE পদ্ধতি: পয়সন বিতরণ প্যারামিটার সর্বাধিক সম্ভাবনা ফিটিং মাধ্যমে
  • TwoNN পদ্ধতি: দ্বিতীয় এবং প্রথম নিকটতম প্রতিবেশী দূরত্ব অনুপাত বিশ্লেষণ
  • ESS পদ্ধতি: বিন্দু এবং তার প্রতিবেশী দ্বারা গঠিত সিম্পলেক্স ভলিউম তির্যকতা পরিমাপ
  • ফ্র্যাক্টাল মাত্রা পদ্ধতি: স্ব-সমান বা ফ্র্যাক্টাল কাঠামো ডেটা প্রক্রিয়া করা

প্যারামেট্রিক LID অনুমান

  • LIDL: স্বাভাবিকীকৃত প্রবাহের সমন্বিত মডেল ব্যবহার করা
  • সাধারণ বান্ডেল পদ্ধতি: স্কোর অনুমান ম্যাট্রিক্সের একবচন মূল্য গণনার মাধ্যমে
  • FLIPD: Fokker-Planck সমীকরণ ব্যবহার করে, একক বিস্তার মডেল প্রয়োজন

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. ডিনোইজিং স্কোর ম্যাচিং ক্ষতি LID-এর জন্য তাত্ত্বিকভাবে ভিত্তিযুক্ত নিম্ন সীমা প্রদান করে
  2. এই পদ্ধতি নির্ভুলতা এবং গণনা দক্ষতার মধ্যে ভাল ভারসাম্য অর্জন করে
  3. বিদ্যমান অত্যাধুনিক পদ্ধতির সাথে গভীর তাত্ত্বিক সংযোগ রয়েছে

তাত্ত্বিক অন্তর্দৃষ্টি

  1. ধ্রুবক পদ সমর্থন: C_DSM হল ডেটা গড় LID-এর নেতিবাচক মূল্য
  2. বহু-স্কেল প্রশিক্ষণ: প্রতিটি স্কেলের প্রশিক্ষণ সেই নির্দিষ্ট শব্দ ম্যানিফোল্ডের গড় LID সনাক্তকরণ হিসাবে দেখা যায়
  3. সম্ভাবনা গণনা: উচ্চতর সম্ভাবনা উচ্চতর শেখা সাধারণ মাত্রার সাথে যুক্ত হতে পারে

সীমাবদ্ধতা

  1. পরীক্ষা শুধুমাত্র একটি H100 GPU ব্যবহার করে, বিতরণকৃত গণনা ব্যবহার করে না
  2. পরিমাপ শুধুমাত্র অর্ধ নির্ভুলতার মধ্যে সীমাবদ্ধ
  3. LID বক্ররেখার "হাঁটু পয়েন্ট অনুসন্ধান" অন্তর্ভুক্ত করে না
  4. তাত্ত্বিক অনুমান σ যথেষ্ট ছোট এবং ম্যানিফোল্ড বক্রতা উপেক্ষাযোগ্য প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

  1. বৃহত্তর স্কেলের বিতরণকৃত পরীক্ষায় সম্প্রসারণ
  2. আরও চরম পরিমাপ শর্তে কর্মক্ষমতা গবেষণা করুন
  3. স্ব-অভিযোজিত σ নির্বাচন কৌশল বিকাশ করুন
  4. আরও জটিল ম্যানিফোল্ড কাঠামোতে প্রয়োগ অন্বেষণ করুন

গভীর মূল্যায়ন

শক্তি

  1. কঠিন তাত্ত্বিক অবদান: কঠোর গাণিতিক প্রমাণ প্রদান করে, স্কোর ম্যাচিং এবং LID-এর মধ্যে মৌলিক সংযোগ প্রতিষ্ঠা করে
  2. সহজ এবং দক্ষ পদ্ধতি: গ্রেডিয়েন্ট গণনা বা একাধিক ফরওয়ার্ড পাস প্রয়োজন নেই, উচ্চ গণনা দক্ষতা
  3. ব্যাপক পরীক্ষা: সিন্থেটিক ম্যানিফোল্ড, বাস্তব ডেটা এবং বড় আকারের মডেল অন্তর্ভুক্ত করে
  4. উচ্চ ব্যবহারিক মূল্য: মেমরি-সীমাবদ্ধ পরিস্থিতিতে স্পষ্ট সুবিধা রয়েছে

অপূর্ণতা

  1. তাত্ত্বিক অনুমান সীমাবদ্ধতা: σ যথেষ্ট ছোট এবং ম্যানিফোল্ড বক্রতা উপেক্ষাযোগ্য শর্ত প্রয়োজন
  2. আর্কিটেকচার নির্ভরতা: বিভিন্ন স্নায়ু নেটওয়ার্ক আর্কিটেকচারে কর্মক্ষমতা পার্থক্য বিদ্যমান
  3. প্যারামিটার সংবেদনশীলতা: σ-এর নির্বাচন ফলাফলে গুরুত্বপূর্ণ প্রভাব রাখে
  4. সীমিত যাচাইকরণ পরিসীমা: প্রধানত তুলনামূলকভাবে সহজ সিন্থেটিক ম্যানিফোল্ডে যাচাই করা হয়

প্রভাব

  1. তাত্ত্বিক মূল্য: বিস্তার মডেল এবং ম্যানিফোল্ড শেখা বোঝার জন্য নতুন দৃষ্টিভঙ্গি প্রদান করে
  2. ব্যবহারিক তাৎপর্য: বড় আকারের LID অনুমানের জন্য সম্ভাব্য সমাধান প্রদান করে
  3. পদ্ধতিগত অবদান: প্রশিক্ষণ ক্ষতি থেকে জ্যামিতিক তথ্য কীভাবে আহরণ করতে হয় তা প্রদর্শন করে

প্রযোজ্য পরিস্থিতি

  1. বড় আকারের ডেটা বিশ্লেষণ: মেমরি এবং গণনা সীমাবদ্ধ পরিস্থিতি
  2. রিয়েল-টাইম LID অনুমান: দ্রুত প্রতিক্রিয়া প্রয়োজন এমন প্রয়োগ
  3. প্রশিক্ষিত বিস্তার মডেল: বিদ্যমান মডেল সরাসরি LID অনুমানের জন্য ব্যবহার করা যায়
  4. ম্যানিফোল্ড শেখার গবেষণা: ডেটা জ্যামিতিক কাঠামো বোঝার জন্য একটি সরঞ্জাম হিসাবে

সংদর্ভ

পেপারটি একাধিক গুরুত্বপূর্ণ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • Vincent (2011): ডিনোইজিং এবং উৎপাদনশীল মডেলিংয়ের সংযোগ
  • Hyvärinen & Dayan (2005): স্কোর ম্যাচিংয়ের ভিত্তি তত্ত্ব
  • Kamkari et al. (2024): FLIPD পদ্ধতি
  • Stanczuk et al. (2024): সাধারণ বান্ডেল পদ্ধতি
  • এবং বিস্তার মডেল এবং প্রবাহ ম্যাচিংয়ের সম্পর্কিত সাহিত্য

সামগ্রিক মূল্যায়ন: এটি তত্ত্ব এবং অনুশীলন উভয়ই গুরুত্বপূর্ণ একটি চমৎকার পেপার, LID অনুমানের জন্য নতুন তাত্ত্বিক দৃষ্টিভঙ্গি এবং ব্যবহারিক পদ্ধতি প্রদান করে। যদিও কিছু প্রযুক্তিগত বিবরণে উন্নতির জায়গা রয়েছে, তবে এর মূল অবদান বিস্তার মডেলের জ্যামিতিক বৈশিষ্ট্য বোঝা এবং LID অনুমান পদ্ধতি উন্নত করার জন্য গুরুত্বপূর্ণ মূল্য রাখে।