2025-11-19T05:43:14.227603

torchsom: The Reference PyTorch Library for Self-Organizing Maps

Berthier, Shokry, Moreaud et al.

This paper introduces torchsom, an open-source Python library that provides a reference implementation of the Self-Organizing Map (SOM) in PyTorch. This package offers three main features: (i) dimensionality reduction, (ii) clustering, and (iii) friendly data visualization. It relies on a PyTorch backend, enabling (i) fast and efficient training of SOMs through GPU acceleration, and (ii) easy and scalable integrations with PyTorch ecosystem. Moreover, torchsom follows the scikit-learn API for ease of use and extensibility. The library is released under the Apache 2.0 license with 90% test coverage, and its source code and documentation are available at https://github.com/michelin/TorchSOM.

academic

torchsom: স্ব-সংগঠিত মানচিত্রের জন্য রেফারেন্স PyTorch লাইব্রেরি

মৌলিক তথ্য

পেপার আইডি: 2510.11147
শিরোনাম: torchsom: স্ব-সংগঠিত মানচিত্রের জন্য রেফারেন্স PyTorch লাইব্রেরি
লেখক: Louis Berthier, Ahmed Shokry, Maxime Moreaud, Guillaume Ramelet, Eric Moulines
শ্রেণীবিভাগ: stat.ML cs.LG
প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর
পেপার লিঙ্ক: https://arxiv.org/abs/2510.11147

সারসংক্ষেপ

এই পেপারটি torchsom উপস্থাপন করে, যা PyTorch-ভিত্তিক একটি ওপেন-সোর্স Python লাইব্রেরি যা স্ব-সংগঠিত মানচিত্র (SOM)-এর জন্য রেফারেন্স বাস্তবায়ন প্রদান করে। লাইব্রেরিটি তিনটি প্রধান কার্যকারিতা প্রদান করে: (১) মাত্রা হ্রাস, (२) ক্লাস্টারিং, (३) ব্যবহারকারী-বান্ধব ডেটা ভিজ্যুয়ালাইজেশন। PyTorch ব্যাকএন্ডের মাধ্যমে, লাইব্রেরিটি (१) GPU ত্বরণের মাধ্যমে দ্রুত এবং দক্ষ SOM প্রশিক্ষণ এবং (२) PyTorch ইকোসিস্টেমের সাথে সহজ সম্প্রসারণযোগ্য একীকরণ বাস্তবায়ন করে। অতিরিক্তভাবে, torchsom scikit-learn API ডিজাইন অনুসরণ করে, যা ব্যবহার এবং সম্প্রসারণ সহজ করে। লাইব্রেরিটি Apache 2.0 লাইসেন্সের অধীনে প্রকাশিত হয়েছে, যার পরীক্ষা কভারেজ ৯০%।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

যদিও স্ব-সংগঠিত মানচিত্র (SOM) একটি মূল্যবান এবং দীর্ঘস্থায়ী মেশিন লার্নিং কৌশল হিসাবে আধুনিক ডেটা বিশ্লেষণে গুরুত্বপূর্ণ রয়ে গেছে, বিদ্যমান Python SOM বাস্তবায়নগুলিতে উল্লেখযোগ্য ত্রুটি রয়েছে: ১. প্রযুক্তিগত স্থাপত্য পুরানো: GPU ত্বরণ সমর্থনের অভাব २. ইকোসিস্টেম একীকরণ অপর্যাপ্ত: আধুনিক গভীর শিক্ষা কাঠামোর সাথে একীকরণ কঠিন ३. ব্যবহারকারীর অভিজ্ঞতা দুর্বল: ব্যবহারকারী-বান্ধব API এবং ভিজ্যুয়ালাইজেশন কার্যকারিতার অভাব ४. রক্ষণাবেক্ষণ সমস্যা: বিদ্যমান লাইব্রেরি অপর্যাপ্তভাবে রক্ষণাবেক্ষণ করা হয়, ডকুমেন্টেশন অসম্পূর্ণ

গবেষণার গুরুত্ব

SOM একাধিক ক্ষেত্রে ব্যাপক প্রয়োগ মূল্য রয়েছে:

শক্তি শিল্প: সিস্টেম পর্যবেক্ষণ এবং নিয়ন্ত্রণ
জৈব চিকিৎসা: জিন অভিব্যক্তি বিশ্লেষণ, চিকিৎসা চিত্র প্রক্রিয়াকরণ
IoT সিস্টেম: অসামান্যতা সনাক্তকরণ এবং প্যাটার্ন স্বীকৃতি
রাসায়নিক পরিবেশগত প্রয়োগ: দূষক বিশ্লেষণ এবং পরিবেশগত পর্যবেক্ষণ
ব্যবসায়িক ক্ষেত্রে: বাজার বিভাজন এবং গ্রাহক বিশ্লেষণ

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিদ্যমান Python SOM লাইব্রেরি (MiniSom, SimpSOM, SOMPY, somoclu, som-pbc) এর তুলনামূলক বিশ্লেষণের মাধ্যমে, নিম্নলিখিত সমস্যাগুলি চিহ্নিত করা হয়েছে: १. কর্মক্ষমতা সীমাবদ্ধতা: অধিকাংশ NumPy-ভিত্তিক, CUDA ত্বরণের অভাব २. অসম্পূর্ণ কার্যকারিতা: অন্তর্নির্মিত ক্লাস্টারিং এবং উন্নত ভিজ্যুয়ালাইজেশন কার্যকারিতার অভাব ३. সফটওয়্যার ইঞ্জিনিয়ারিং অনুশীলন অপর্যাপ্ত: কম পরীক্ষা কভারেজ, অসম্পূর্ণ ডকুমেন্টেশন ४. সম্প্রসারণযোগ্যতা দুর্বল: কম মডুলারিটি, কাস্টমাইজেশন এবং সম্প্রসারণ কঠিন

মূল অবদান

१. প্রথম ব্যাপক PyTorch-ভিত্তিক SOM লাইব্রেরি: সম্পূর্ণ SOM বাস্তবায়ন প্রদান করে, GPU ত্বরণ এবং আধুনিক গভীর শিক্ষা কর্মপ্রবাহ একীকরণ সমর্থন করে २. মানক API ডিজাইন: scikit-learn API শৈলী অনুসরণ করে, সামঞ্জস্যপূর্ণ ব্যবহারের অভিজ্ঞতা প্রদান করে ३. সমৃদ্ধ ভিজ্যুয়ালাইজেশন সরঞ্জাম: ৯টি ভিজ্যুয়ালাইজেশন কার্যকারিতা প্রদান করে, আয়তক্ষেত্র এবং ষড়ভুজ টপোলজি সমর্থন করে ४. অন্তর্নির্মিত ক্লাস্টারিং কার্যকারিতা: K-means, GMM এবং HDBSCAN ক্লাস্টারিং অ্যালগরিদম একীভূত করে ५. উচ্চ মানের সফটওয়্যার ইঞ্জিনিয়ারিং: ৯০% পরীক্ষা কভারেজ, সম্পূর্ণ ডকুমেন্টেশন, মডুলার ডিজাইন

পদ্ধতির বিস্তারিত বিবরণ

কাজের সংজ্ঞা

torchsom একটি আধুনিক SOM বাস্তবায়ন প্রদান করার লক্ষ্য রাখে, যা সমর্থন করে:

ইনপুট: উচ্চ-মাত্রিক ডেটাসেট X ∈ R^(N×k), যেখানে N নমুনার সংখ্যা, k বৈশিষ্ট্য মাত্রা
আউটপুট: প্রশিক্ষিত SOM নেটওয়ার্ক, নিম্ন-মাত্রিক ম্যাপিং প্রতিনিধিত্ব, ক্লাস্টারিং ফলাফল
সীমাবদ্ধতা: টপোলজি কাঠামো বজায় রাখা, পরিমাণকরণ ত্রুটি এবং টপোলজিক্যাল ত্রুটি ন্যূনতম করা

মডেল স্থাপত্য

१. মূল মডিউল (torchsom.core)

ক্লাসিক্যাল SOM অ্যালগরিদমের মূল কার্যকারিতা বাস্তবায়ন করে:

fit(): স্বয়ংক্রিয় GPU ত্বরণ সমর্থিত মডেল প্রশিক্ষণ
cluster(): ক্লাস্টারিং কার্যকারিতা
build_map(): ভিজ্যুয়ালাইজেশনের জন্য উপযুক্ত ম্যাপিং তৈরি করা
collect_sample(): টপোলজি এবং সম্ভাব্য স্থান দূরত্ব ব্যবহার করে সর্বোত্তম নমুনা চিহ্নিত করা

२. ইউটিলিটি মডিউল (torchsom.utils)

SOM প্যারামিটারাইজেশন এবং প্রশিক্ষণের মৌলিক উপাদান প্রদান করে:

ক্ষয় ফাংশন: শিক্ষার হার এবং প্রতিবেশী প্রস্থ সময়সূচী
দূরত্ব মেট্রিক্স: ইউক্লিডীয়, কোসাইন, ম্যানহাটন, চেবিশেভ দূরত্ব
প্রতিবেশী কার্নেল: গাউসীয়, মেক্সিকান হ্যাট, বাবল, ত্রিভুজাকার কার্নেল ফাংশন
ক্লাস্টারিং পদ্ধতি: K-means, GMM, HDBSCAN

३. ভিজ্যুয়ালাইজেশন মডিউল (torchsom.visualization)

९টি ব্যাপক ভিজ্যুয়ালাইজেশন কার্যকারিতা প্রদান করে:

U-matrix: ম্যাপিং টপোলজি এবং ক্লাস্টারিং কাঠামো
Hit maps: নিউরন সক্রিয়করণ প্যাটার্ন
Component planes: বৈশিষ্ট্য-স্তরের বিশ্লেষণ
Classification/metric maps: লক্ষ্য পরিসংখ্যান
Score/rank maps: গুণমান মূল্যায়ন
Training curves: সংগ্রহ পর্যবেক্ষণ
Clustering maps: ক্লাস্টারিং গুণমান সূচক

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. PyTorch একীকরণ সুবিধা

# ওজন আপডেট সমীকরণ
w_ij(t+1) = w_ij(t) + α(t) · h_ij(t) · (x - w_ij(t))

যেখানে:

α(t): শিক্ষার হার
h_ij(t): প্রতিবেশী ফাংশন
x: ইনপুট বৈশিষ্ট্য ভেক্টর

२. দক্ষ ব্যাচ প্রসেসিং বাস্তবায়ন

PyTorch এর টেনসর অপারেশন এবং GPU সমান্তরাল গণনার মাধ্যমে, ব্যাচ প্রসেসিং বাস্তবায়ন করে, প্রশিক্ষণ দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে।

३. একাধিক প্রতিবেশী ফাংশন

চারটি প্রতিবেশী ফাংশন সমর্থন করে:

গাউসীয় কার্নেল: h^Gaussian_ij(t) = exp(-d²_ij / (2σ(t)²))
মেক্সিকান হ্যাট কার্নেল: আরও জটিল প্রতিবেশী সম্পর্ক প্রদান করে
বাবল কার্নেল: ধাপ ফাংশন ফর্ম
ত্রিভুজাকার কার্নেল: রৈখিক ক্ষয়

४. স্ব-অভিযোজনশীল সময়সূচী কৌশল

একাধিক প্যারামিটার ক্ষয় কৌশল বাস্তবায়ন করে:

বিপরীত ক্ষয়: α(t+1) = α(t) · γ/(γ + t)
রৈখিক ক্ষয়: α(t+1) = α(t) · (1 - t/T)
অ্যাসিম্পটোটিক ক্ষয়: সূচকীয় সংগ্রহের জন্য

পরীক্ষামূলক সেটআপ

ডেটাসেট

scikit-learn এর make_blobs() ব্যবহার করে সিন্থেটিক ডেটাসেট তৈরি করা হয়েছে:

নমুনা স্কেল: {२४०, ४०००, १६०००}
বৈশিষ্ট্য মাত্রা: {४, ५०, ३००}
গ্রিড আকার: २५×१५ (ছোট), ९०×७० (বড়)

মূল্যায়ন মেট্রিক্স

१. পরিমাণকরণ ত্রুটি (QE): QE = (१/N) Σ ||x_i - w_BMU(x_i)||₂ २. টপোলজিক্যাল ত্রুটি (TE): প্রতিবেশী সম্পর্ক সংরক্ষণ পরিমাপ করে ३. চালানোর সময়: আরম্ভকরণ এবং প্রশিক্ষণ সময় অন্তর্ভুক্ত

তুলনামূলক পদ্ধতি

MiniSom (CPU): সবচেয়ে ব্যাপকভাবে ব্যবহৃত SOM লাইব্রেরি
torchsom (CPU): CPU সংস্করণ বাস্তবায়ন
torchsom (GPU): GPU ত্বরণ সংস্করণ

বাস্তবায়ন বিবরণ

PCA আরম্ভকরণ
আয়তক্ষেত্র টপোলজি
१०० প্রশিক্ষণ পুনরাবৃত্তি
গাউসীয় প্রতিবেশী ফাংশন
ইউক্লিডীয় দূরত্ব

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

কর্মক্ষমতা তুলনা (२५×१५ গ্রিড)

ডেটাসেট	MiniSom(CPU)	torchsom(CPU)	torchsom(GPU)
QE	०.१५-५.४३	०.२३-५.२१	०.२३-५.२१
TE উন্নতি	বেসলাইন	३४-८१%↓	३४-८१%↓
গতি বৃদ্ধি	বেসলাইন	७७-९९%↑	७७-९९%↑

মূল আবিষ্কার

१. টপোলজি সংরক্ষণ সুবিধা: MiniSom এর তুলনায় TE ३४-८१% হ্রাস २. গণনা দক্ষতা বৃদ্ধি: প্রশিক্ষণ সময় হাজার সেকেন্ড থেকে কয়েক দশ সেকেন্ডে হ্রাস ३. তুলনীয় পরিমাণকরণ গুণমান: সমস্ত ডেটাসেটে সমান QE অর্জন করে ४. স্কেলেবিলিটি: GPU সংস্করণ উচ্চ-মাত্রিক বড় ডেটাসেটে সর্বোত্তম কর্মক্ষমতা প্রদান করে

অ্যাবলেশন পরীক্ষা

পরীক্ষা প্রতিটি উপাদানের অবদান যাচাই করেছে:

ব্যাচ প্রসেসিং অপ্টিমাইজেশন: প্রশিক্ষণ গতি উল্লেখযোগ্যভাবে উন্নত করে
GPU ত্বরণ: বড় আকারের ডেটায় সংখ্যার ক্রম কর্মক্ষমতা বৃদ্ধি প্রদান করে
PyTorch ব্যাকএন্ড: উন্নত মেমরি ব্যবস্থাপনা এবং সমান্তরাল গণনা বাস্তবায়ন করে

কেস বিশ্লেষণ

ওয়াইন ডেটাসেট এবং বোস্টন হাউস প্রাইস ডেটাসেটের ভিজ্যুয়ালাইজেশন বিশ্লেষণের মাধ্যমে, প্রদর্শিত হয়েছে:

স্পষ্ট ক্লাস্টারিং সীমানা: U-matrix কার্যকরভাবে ক্লাস্টারিং কাঠামো প্রদর্শন করে
যুক্তিসঙ্গত বৈশিষ্ট্য ম্যাপিং: Component planes বৈশিষ্ট্য বিতরণ প্রতিফলিত করে
ভাল শ্রেণীবিভাগ প্রভাব: Classification maps স্পষ্ট সিদ্ধান্ত সীমানা প্রদর্শন করে

বৈশিষ্ট্য	torchsom	MiniSom	SimpSOM	SOMPY	somoclu
ফ্রেমওয়ার্ক	PyTorch	NumPy	NumPy	NumPy	C++
GPU সমর্থন	CUDA	✗	CuPY	✗	CUDA
API ডিজাইন	scikit-learn	কাস্টম	কাস্টম	MATLAB	কাস্টম
ভিজ্যুয়ালাইজেশন	উন্নত	✗	মধ্যম	মধ্যম	মৌলিক
ক্লাস্টারিং	✓	✗	✗	✗	✗

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

१. torchsom প্রথম ব্যাপক PyTorch-ভিত্তিক SOM বাস্তবায়ন প্রদান করে २. তুলনীয় পরিমাণকরণ গুণমান বজায় রেখে, টপোলজি সংরক্ষণ এবং গণনা দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে ३. সমৃদ্ধ ভিজ্যুয়ালাইজেশন সরঞ্জাম বিদ্যমান SOM লাইব্রেরির গুরুত্বপূর্ণ ফাঁক পূরণ করে ४. মানক API ডিজাইন আধুনিক ML কর্মপ্রবাহের সাথে একীকরণ প্রচার করে

সীমাবদ্ধতা

१. GPU নির্ভরতা: সর্বোত্তম কর্মক্ষমতার জন্য CUDA সমর্থন প্রয়োজন २. মেমরি প্রয়োজনীয়তা: বড় আকারের ডেটাসেট উল্লেখযোগ্য GPU মেমরি প্রয়োজন হতে পারে ३. হাইপারপ্যারামিটার সংবেদনশীলতা: এখনও সাবধানে প্যারামিটার টিউনিং প্রয়োজন ४. নির্দিষ্ট অ্যাপ্লিকেশন অভিযোজন: কিছু ডোমেইন-নির্দিষ্ট প্রয়োজন অতিরিক্ত কাস্টমাইজেশন প্রয়োজন হতে পারে

ভবিষ্যত দিকনির্দেশনা

१. অ্যালগরিদম সম্প্রসারণ: আরও SOM ভেরিয়েন্ট সমর্থন করা (যেমন Growing SOM) २. বিতরণ করা প্রশিক্ষণ: মাল্টি-GPU এবং বিতরণ করা গণনা সমর্থন করা ३. স্বয়ংক্রিয় হাইপারপ্যারামিটার টিউনিং: হাইপারপ্যারামিটার অপ্টিমাইজেশন কার্যকারিতা একীভূত করা ४. ডোমেইন বিশেষীকরণ: নির্দিষ্ট অ্যাপ্লিকেশন ডোমেইনের জন্য অপ্টিমাইজেশন

গভীর মূল্যায়ন

শক্তি

१. প্রযুক্তিগত উদ্ভাবনী: প্রথমবারের মতো SOM কে আধুনিক গভীর শিক্ষা কাঠামোর সাথে গভীরভাবে একীভূত করা २. প্রকৌশল গুণমান উচ্চ: ९०% পরীক্ষা কভারেজ, সম্পূর্ণ ডকুমেন্টেশন, মডুলার ডিজাইন ३. ব্যবহারিক মূল্য শক্তিশালী: উল্লেখযোগ্য কর্মক্ষমতা বৃদ্ধি এবং সমৃদ্ধ কার্যকারিতা ४. পুনরুৎপাদনযোগ্যতা ভাল: ওপেন-সোর্স বাস্তবায়ন, বিস্তারিত পরীক্ষামূলক সেটআপ

অপূর্ণতা

१. সীমিত তাত্ত্বিক অবদান: প্রধানত প্রকৌশল বাস্তবায়ন, অ্যালগরিদম স্তরে সীমিত উদ্ভাবন २. সীমিত মূল্যায়ন পরিসর: প্রধানত সিন্থেটিক ডেটায় পরীক্ষা করা হয়েছে, বাস্তব অ্যাপ্লিকেশন কেস কম ३. অসম্পূর্ণ তুলনা: সমস্ত বিদ্যমান SOM লাইব্রেরির সাথে বিস্তারিত তুলনা করা হয়নি ४. সম্প্রসারণযোগ্যতা যাচাইকরণ অপর্যাপ্ত: অতি-বড় আকারের ডেটায় কর্মক্ষমতা আরও যাচাইকরণ প্রয়োজন

প্রভাব

१. ডোমেইন অবদান: SOM গবেষণার জন্য একটি আধুনিক সরঞ্জাম প্ল্যাটফর্ম প্রদান করে २. ব্যবহারিক মূল্য: SOM অ্যাপ্লিকেশনের প্রযুক্তিগত বাধা হ্রাস করে ३. ইকোসিস্টেম প্রভাব: ঐতিহ্যবাহী ML অ্যালগরিদম এবং আধুনিক কাঠামোর সংমিশ্রণ প্রচার করে ४. সম্প্রদায় মূল্য: ওপেন-সোর্স অবদান SOM প্রযুক্তির প্রসার এবং উন্নয়নে সহায়তা করে

প্রযোজ্য পরিস্থিতি

१. অন্বেষণমূলক ডেটা বিশ্লেষণ: উচ্চ-মাত্রিক ডেটার ভিজ্যুয়ালাইজেশন এবং বোঝা २. অসামান্যতা সনাক্তকরণ: শিল্প পর্যবেক্ষণ এবং গুণমান নিয়ন্ত্রণ ३. ক্লাস্টারিং বিশ্লেষণ: গ্রাহক বিভাজন, বাজার বিশ্লেষণ ४. বৈশিষ্ট্য শিক্ষা: গভীর শিক্ষা পাইপলাইনের প্রাক-প্রক্রিয়াকরণ পদক্ষেপ হিসাবে ५. শিক্ষা গবেষণা: SOM অ্যালগরিদমের শিক্ষা এবং গবেষণা প্ল্যাটফর্ম

রেফারেন্স

१. Kohonen, T. (१९८२). স্ব-সংগঠিত গঠন টপোলজিক্যালি সঠিক বৈশিষ্ট্য মানচিত্র २. Kohonen, T. (१९९०). স্ব-সংগঠিত মানচিত্র ३. Vettigli, G. (२०१८). MiniSom: স্ব-সংগঠিত মানচিত্রের ন্যূনতম বাস্তবায়ন ४. Pedregosa, F. et al. (२०११). Scikit-learn: Python এ মেশিন লার্নিং

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের সফটওয়্যার প্রকৌশল পেপার, যা আধুনিক বাস্তবায়নের মাধ্যমে SOM এর ব্যবহারযোগ্যতা এবং কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে। যদিও অ্যালগরিদম স্তরে উদ্ভাবন সীমিত, তবে এর প্রকৌশল মূল্য এবং ব্যবহারিক তাৎপর্য উল্লেখযোগ্য, ঐতিহ্যবাহী মেশিন লার্নিং অ্যালগরিদমের আধুনিক গণনা পরিবেশে প্রয়োগের জন্য একটি চমৎকার উদাহরণ প্রদান করে।