Fully Homomorphic Encryption (FHE) allows computations to be performed on encrypted data, significantly enhancing user privacy. However, the I/O challenges associated with deploying FHE applications remains understudied. We analyze the impact of storage I/O on the performance of FHE applications and summarize key lessons from the status quo. Key results include that storage I/O can degrade the performance of ASICs by as much as 357$\times$ and reduce GPUs performance by up to 22$\times$.
- পেপার আইডি: 2511.04946
- শিরোনাম: The Future of Fully Homomorphic Encryption System: from a Storage I/O Perspective
- লেখক: Lei Chen, Erci Xu, Yiming Sun, Shengyu Fan, Xianglong Deng, Guiming Shi, Guang Fan, Liang Kong, Yilan Zhu, Shoumeng Yan, Mingzhe Zhang (অ্যান্ট গ্রুপ, শাংহাই জিয়াও তং বিশ্ববিদ্যালয়, চীন বিজ্ঞান একাডেমি বিশ্ববিদ্যালয়, তিংহুয়া বিশ্ববিদ্যালয় থেকে)
- শ্রেণীবিভাগ: cs.CR (ক্রিপ্টোগ্রাফি এবং নিরাপত্তা), cs.DC (বিতরণকৃত কম্পিউটিং)
- প্রকাশনার সময়: 2025 সালের 7 নভেম্বর arXiv-এ জমা দেওয়া হয়েছে
- পেপার লিঙ্ক: https://arxiv.org/abs/2511.04946
সম্পূর্ণ সমরূপী এনক্রিপশন (FHE) এনক্রিপ্ট করা ডেটার উপর সরাসরি গণনা সম্পাদন করতে দেয়, যা ব্যবহারকারীর গোপনীয়তা সুরক্ষা উল্লেখযোগ্যভাবে বৃদ্ধি করে। তবে FHE অ্যাপ্লিকেশন স্থাপনের সময় সম্মুখীন হওয়া I/O চ্যালেঞ্জগুলি এখনও পর্যাপ্তভাবে অধ্যয়ন করা হয়নি। এই পেপারটি স্টোরেজ I/O এর FHE অ্যাপ্লিকেশন কর্মক্ষমতার উপর প্রভাব বিশ্লেষণ করে এবং বর্তমান অবস্থার মূল শিক্ষা সংক্ষিপ্ত করে। মূল ফলাফল দেখায়: স্টোরেজ I/O ASIC কর্মক্ষমতা 357× পর্যন্ত হ্রাস করতে পারে, GPU কর্মক্ষমতা 22× পর্যন্ত হ্রাস করতে পারে।
এই পেপারটি FHE সিস্টেম স্থাপনে গুরুতরভাবে উপেক্ষা করা স্টোরেজ I/O বাধার সমস্যার উপর দৃষ্টি নিবদ্ধ করে। যদিও বিদ্যমান গবেষণা গণনা ত্বরণে উল্লেখযোগ্য অগ্রগতি অর্জন করেছে (CPU-এর 10^5× ধীরতা থেকে মাত্র 3× পার্থক্যে হ্রাস), স্টোরেজ I/O-এর প্রভাব খুব কমই অধ্যয়ন করা হয়েছে।
- ক্লাউড কম্পিউটিং পরিস্থিতির বাস্তব চাহিদা: বহু-ব্যবহারকারী ক্লাউড পরিবেশে, প্রতিটি ব্যবহারকারীর স্বাধীন সাইফারটেক্সট এবং মূল্যায়ন কী (evaluation keys) রয়েছে, যা ডিভাইস মেমরি ক্ষমতা অতিক্রম করতে পারে
- ডেটা স্কেল বিস্ফোরণ: FHE কর্মপ্রবাহ ডেটা স্কেল উল্লেখযোগ্যভাবে বৃদ্ধি করে (যেমন 3KB ছবি → 8MB স্পষ্ট পাঠ্য বহুপদ → 16MB সাইফারটেক্সট → 5GB মূল্যায়ন কী)
- বহু-ব্যবহারকারী সমসাময়িকতা: সার্ভারকে একযোগে একাধিক ব্যবহারকারীকে পরিষেবা প্রদান করতে হবে, সমস্ত ব্যবহারকারীর ডেটা উচ্চ-ব্যান্ডউইথ মেমরি (HBM)-তে সংরক্ষণ করতে পারে না
বিদ্যমান FHE ত্বরক গবেষণা দুটি অবাস্তব অনুমানের উপর ভিত্তি করে:
- অনুমান 1: সমস্ত ডেটা HBM-তে সংরক্ষিত
- অনুমান 2: HBM থেকে চিপ-অন-চ্যাশে ডেটা আনার খরচ স্ট্যাটিক সর্বোত্তম প্রিফেচ কৌশল, ডেটা পুনঃব্যবহার অ্যালগরিদম অপ্টিমাইজেশন এবং বড় ক্ষমতার চিপ-অন-চ্যাশ (200-500 MiB) দ্বারা সম্পূর্ণভাবে দূর করা যায়
এই অনুমানগুলি বাস্তব ক্লাউড কম্পিউটিং স্থাপনায় ধরে রাখা কঠিন, কারণ:
- HBM ক্ষমতা সীমিত (প্রায় দশ GB)
- বহু-ব্যবহারকারী পরিবেশে সমস্ত ব্যবহারকারীর ডেটার জন্য স্থান সংরক্ষণ করা যায় না
- বড় মডেল (যেমন 13B প্যারামিটার LLM 26GB ওজন + 1.6GB KV ক্যাশ প্রয়োজন) প্রচুর HBM দখল করে
- স্ট্যাটিক প্রিফেচ কৌশল বহু-অ্যাপ্লিকেশন সম্পদ প্রতিযোগিতায় সীমিত কার্যকারিতা রয়েছে
এই পেপারটি সিস্টেমেটিক পরীক্ষার মাধ্যমে I/O এর FHE কর্মক্ষমতার প্রকৃত প্রভাব পরিমাণগতভাবে মূল্যায়ন করে, FHE সিস্টেমের বাস্তব স্থাপনার জন্য নির্দেশনা প্রদান করে।
- প্রথম সিস্টেমেটিক গবেষণা: স্টোরেজ I/O এর FHE ত্বরক কর্মক্ষমতার উপর প্রভাব প্রথমবারের মতো গভীরভাবে বিশ্লেষণ করে, এই ক্ষেত্রের গবেষণা শূন্যতা পূরণ করে
- ব্যাপক পরীক্ষামূলক মূল্যায়ন: SimGrid সিমুলেটর ব্যবহার করে, একাধিক স্টোরেজ ডিভাইস (HBM, DDR5, PCIe, RDMA) এবং নেটওয়ার্ক কনফিগারেশনে প্রতিনিধিত্বমূলক FHE অ্যাপ্লিকেশন পরীক্ষা করে
- তিনটি মূল আবিষ্কার:
- I/O অ্যাক্সেস FHE অ্যাপ্লিকেশন কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস করে (ASIC সর্বোচ্চ 357×, GPU সর্বোচ্চ 22×)
- বিতরণকৃত কম্পিউটিং সর্বদা সমস্যা সমাধান করতে পারে না, কিছু ক্ষেত্রে কর্মক্ষমতা হ্রাস করে
- I/O খরচের প্রভাব অ্যাপ্লিকেশন এবং FHE প্যারামিটার সেটিং অনুযায়ী পরিবর্তিত হয়
- ভবিষ্যত গবেষণা দিকনির্দেশনা: locality-first শিডিউলিং, ডেটা-কাছাকাছি প্রক্রিয়াকরণ, I/O-বান্ধব অ্যাপ্লিকেশন বাস্তবায়ন ইত্যাদি সমাধান প্রস্তাব করে
- খোলা সম্পদ প্রতিশ্রুতি: ট্রেস এবং সফটওয়্যার প্রকাশ্যে করার প্রতিশ্রুতি দেয় যা পরবর্তী গবেষণা প্রচার করে
এই গবেষণা স্টোরেজ I/O এর FHE অ্যাপ্লিকেশন এন্ড-টু-এন্ড কর্মক্ষমতার উপর প্রভাব পরিমাণগতভাবে মূল্যায়ন করার লক্ষ্য রাখে, বিশেষভাবে অন্তর্ভুক্ত:
- ইনপুট: বিভিন্ন স্টোরেজ স্তর (HBM, DDR, PCIe, RDMA), বিভিন্ন নেটওয়ার্ক কনফিগারেশন (Ethernet, FastFabric), বিভিন্ন অ্যাপ্লিকেশন (ResNet-20, HELR)
- আউটপুট: স্বাভাবিকৃত কর্মক্ষমতা মেট্রিক্স, সম্পাদন সময় বিয়োজন (গণনা/I/O/যোগাযোগ)
- সীমাবদ্ধতা: বাস্তব ক্লাউড পরিবেশের ঠান্ডা শুরু এবং বহু-ব্যবহারকারী পরিস্থিতি অনুকরণ করে
- ইনপুট (যেমন দৈর্ঘ্য n এর ভেক্টর) N সহগ সহ বহুপদে এনকোড করে (N/2 ≥ n)
- চীনা অবশিষ্ট উপপাদ্য (CRT) ব্যবহার করে বড় পূর্ণসংখ্যাকে একাধিক ছোট পূর্ণসংখ্যায় বিয়োজন করে (limb বলা হয়)
- মডুলাস Q সাধারণত 1000 বিট অতিক্রম করে
- ডেটা সম্প্রসারণ: 3KB ছবি → 8MB বহুপদ (N=2^16 সহগ)
- জনসাধারণের চাবি ব্যবহার করে স্পষ্ট পাঠ্য বহুপদকে সাইফারটেক্সটে এনক্রিপ্ট করে (দুটি বহুপদ অন্তর্ভুক্ত)
- RLWE নিরাপত্তা নিশ্চিত করতে র্যান্ডম ত্রুটি বহুপদ প্রবর্তন করে
- ডেটা সম্প্রসারণ: 8MB স্পষ্ট পাঠ্য → 16MB সাইফারটেক্সট
5 ধরনের মৌলিক অপারেশন সমর্থন করে (টেবিল 1 দেখুন):
- PAdd/HAdd: স্পষ্ট পাঠ্য-সাইফারটেক্সট/সাইফারটেক্সট-সাইফারটেক্সট যোগ, জটিলতা O(N)
- PMult/HMult: স্পষ্ট পাঠ্য-সাইফারটেক্সট/সাইফারটেক্সট-সাইফারটেক্সট গুণন, NTT ব্যবহার করে O(N logN) এ ত্বরান্বিত
- HRot: চক্রাকার স্থানান্তর অপারেশন, সংগ্রহ অপারেশন বাস্তবায়নের জন্য ব্যবহৃত
- মূল বৈশিষ্ট্য: HMult এবং HRot মূল্যায়ন চাবি অ্যাক্সেস প্রয়োজন (ResNet-20 100+ বিভিন্ন মূল্যায়ন চাবি প্রয়োজন, মোট >5GB)
এনক্রিপশন এবং এনকোডিং এর বিপরীত প্রক্রিয়া
- Sharp: সবচেয়ে উন্নত ASIC ত্বরক (ISCA 2023)
- মূল পেপারের সিমুলেটর ব্যবহার করে
- বেসলাইন: আদর্শ কর্মক্ষমতা (HBM যথেষ্ট বড় অনুমান করে, সমস্ত অপ্টিমাইজেশন সক্ষম)
- TensorFHE: সবচেয়ে উন্নত GPU ত্বরণ সমাধান (HPCA 2023)
- NVIDIA A100 40GB GPU-তে জনসাধারণের কোড চালায়
- বেসলাইন: সমস্ত ডেটা GPU মেমরিতে সর্বোত্তম কর্মক্ষমতা
- HBM: 1 TiB/s ব্যান্ডউইথ
- DDR5-5600: 358.4 GiB/s (8 চ্যানেল)
- PCIe5 ×16: 64 GiB/s
- RDMA ডিস্ক: 12.5 GiB/s
- ঠান্ডা শুরু: ডিভাইস ক্যাশ বাইপাস করে, বহু-ব্যবহারকারী ক্লাউড পরিবেশ অনুকরণ করে
- শুধুমাত্র থ্রুপুট মূল্যায়ন: FHE ডেটা অ্যাক্সেস সাধারণত দশ থেকে শত MB
- বিতরণকৃত অনুকরণ: SimGrid সিমুলেটর ব্যবহার করে, তারকা টপোলজি, Ethernet(400Gb/s) এবং FastFabric(300GiB/s) সমর্থন করে
- HELR: লজিস্টিক রিগ্রেশন প্রশিক্ষণ (MNIST ডেটাসেট, 1024 ছবি/ব্যাচ, 32 বার প্রশিক্ষণ)
- ResNet-20: CNN অনুমান (CIFAR-10 ডেটাসেট, CKKS বাস্তবায়ন ব্যবহার করে)
residue-polynomial-level parallelism (rPLP) মডেল গ্রহণ করে:
- বড় সহগ বহুপদকে ছোট সহগ অবশিষ্ট বহুপদের একটি সিরিজ হিসাবে উপস্থাপন করে
- প্রতিটি সার্ভার স্বাধীন অবশিষ্ট বহুপদ গণনা করে
- বেশিরভাগ অপারেশন স্থানীয়ভাবে গণনা করা যায়, যোগাযোগ হ্রাস করে
- প্রথম I/O প্রভাব পরিমাণ: বিদ্যমান গবেষণা I/O উপেক্ষা করার সীমাবদ্ধতা ভেঙে, বাস্তব স্থাপনা পরিস্থিতি সিস্টেমেটিকভাবে মূল্যায়ন করে
- বহু-মাত্রিক মূল্যায়ন কাঠামো: স্টোরেজ স্তর, নেটওয়ার্ক কনফিগারেশন, ত্বরক প্রকার, অ্যাপ্লিকেশন বৈশিষ্ট্যের সমন্বিত বিশ্লেষণ
- ক্যাশ হিট রেট বিশ্লেষণ: বিভিন্ন স্টোরেজ ব্যান্ডউইথে লক্ষ্য কর্মক্ষমতা অর্জনের জন্য প্রয়োজনীয় ক্যাশ হিট রেট প্রকাশ করে (যেমন 80% কর্মক্ষমতা 90.2%-99.9% হিট রেট প্রয়োজন)
- বিতরণকৃত কম্পিউটিং প্যারাডক্স: বিতরণকৃত কম্পিউটিং কিছু কনফিগারেশনে কর্মক্ষমতা হ্রাস করে, ঐতিহ্যবাহী জ্ঞানকে চ্যালেঞ্জ করে
- MNIST: HELR লজিস্টিক রিগ্রেশন প্রশিক্ষণের জন্য ব্যবহৃত
- ব্যাচ আকার: 1024 ছবি
- প্রশিক্ষণ পুনরাবৃত্তি: 32 বার
- CIFAR-10: ResNet-20 অনুমানের জন্য ব্যবহৃত
- একক ছবি অনুমান
- ছবি আকার: 32×32×3
- স্বাভাবিকৃত কর্মক্ষমতা: আদর্শ বেসলাইনের সাপেক্ষে কর্মক্ষমতা অনুপাত
- সম্পাদন সময়: পরম সম্পাদন সময় (সেকেন্ড)
- সময় বিয়োজন: গণনা/I/O/যোগাযোগ খরচ অনুপাত
- ত্বরণ অনুপাত: বিতরণকৃত কম্পিউটিং একক মেশিনের সাপেক্ষে কর্মক্ষমতা উন্নতি
- I/O চাপ: প্রতি চক্রে গড় অ্যাক্সেস বাইট সংখ্যা
- বেসলাইন 1 (Sharp): HBM ক্ষমতা অসীম অনুমান করে, প্রিফেচ, শিডিউলিং, ডেটা পুনঃব্যবহার অপ্টিমাইজেশন সক্ষম করে
- বেসলাইন 2 (TensorFHE): সমস্ত ডেটা GPU মেমরিতে সর্বোত্তম কনফিগারেশন
- তুলনা মাত্রা: বিভিন্ন স্টোরেজ স্তর, বিভিন্ন নেটওয়ার্ক, বিভিন্ন সার্ভার সংখ্যা (1/2/4/8/16/32)
- Sharp সিমুলেটর:
- বহুপদ সহগ: 1555-বিট পূর্ণসংখ্যা
- চিপ-অন-চ্যাশ: শত MB
- I/O চাপ: প্রতি চক্রে গড় 3381 বাইট
- TensorFHE কনফিগারেশন:
- ResNet-20: 840-বিট পূর্ণসংখ্যা
- HELR: 1092-বিট পূর্ণসংখ্যা
- I/O চাপ: প্রতি চক্রে গড় 101 বাইট
- মূল্যায়ন চাবি আকার: Sharp এর 5.5×
- SimGrid কনফিগারেশন:
- টপোলজি: তারকা নেটওয়ার্ক
- অফলাইন প্রোফাইলিং সমস্ত GPU কার্নেল
- প্রোফাইলিং ফলাফল বিতরণকৃত সম্পাদন অনুকরণ করতে আমদানি করে
ASIC (Sharp) কর্মক্ষমতা হ্রাস:
- HBM: ResNet-20 2.63× হ্রাস, HELR 5.5× হ্রাস (গড় 4.0×)
- DDR5: ResNet-20 5.56× হ্রাস, HELR 13.4× হ্রাস
- PCIe: ResNet-20 26.5× হ্রাস, HELR 70.6× হ্রাস
- RDMA: ResNet-20 131.7× হ্রাস, HELR 357.2× হ্রাস (সর্বোচ্চ হ্রাস)
GPU (TensorFHE) কর্মক্ষমতা হ্রাস:
- HBM: সামান্য হ্রাস 1.2×
- DDR5: 1.5× হ্রাস
- PCIe: 3.8× হ্রাস
- RDMA: ResNet-20 15.2× হ্রাস, HELR 22× হ্রাস
মূল কারণ:
- Sharp এর I/O চাপ অত্যন্ত উচ্চ (3381 বাইট/চক্র) বনাম TensorFHE (101 বাইট/চক্র)
- GPU প্রক্রিয়াকরণ ক্ষমতা তুলনামূলকভাবে কম, I/O চাপ তুলনামূলকভাবে হ্রাস পায়
80% বেসলাইন কর্মক্ষমতা অর্জনের জন্য প্রয়োজনীয় ক্যাশ হিট রেট:
- ResNet-20: HBM 90.2%, DDR 96.2%, PCIe 99.3%, RDMA 99.9%
- HELR: উচ্চতর প্রয়োজনীয়তা, RDMA 100% এর কাছাকাছি হিট রেট প্রয়োজন
অন্তর্দৃষ্টি: কম ব্যান্ডউইথ স্টোরেজ অত্যন্ত উচ্চ ক্যাশ হিট রেট প্রয়োজন, বাস্তবে অর্জন করা কঠিন
TensorFHE কর্মক্ষমতা:
- 32 সার্ভার ত্বরণ অনুপাত:
- Ethernet: 6.6× (কার্যকর)
- FastFabric: 9.7× (আরও কার্যকর)
Sharp কর্মক্ষমতা (জটিল পরিস্থিতি):
Ethernet সহ 32 সার্ভার ব্যবহার করে:
- HBM: কর্মক্ষমতা 6.08× হ্রাস (নেতিবাচক অপ্টিমাইজেশন!)
- DDR: কর্মক্ষমতা 2.74× হ্রাস (নেতিবাচক অপ্টিমাইজেশন!)
- PCIe: 1.72× ত্বরণ
- RDMA: 5.78× ত্বরণ
FastFabric সহ 32 সার্ভার ব্যবহার করে:
- HBM: প্রায় কোন উন্নতি নেই (0.94×)
- DDR: 1.99× ত্বরণ
- PCIe: 6.42× ত্বরণ
- RDMA: 11.96× ত্বরণ
মূল কারণ (চিত্র 7 সময় বিয়োজন):
Sharp 32 সার্ভার ব্যবহার করে (PCIe+Ethernet):
- গণনা খরচ: 3.8%→0.3% (উল্লেখযোগ্য হ্রাস)
- I/O খরচ: 96.2%→7.2% (উল্লেখযোগ্য হ্রাস)
- যোগাযোগ খরচ: 0%→92.5% (নতুন বাধা হয়ে ওঠে!)
TensorFHE 32 সার্ভার ব্যবহার করে:
- গণনা খরচ: 40.1% (এখনও উল্লেখযোগ্য, GPU ব্যাচ প্রক্রিয়াকরণ বৈশিষ্ট্য)
- I/O খরচ: 18.1%
- যোগাযোগ খরচ: 41.8%
HELR বনাম ResNet-20:
- HELR বিপুল সংখ্যক ঘূর্ণন অপারেশন অন্তর্ভুক্ত করে (ভেক্টর অভ্যন্তরীণ পণ্য বাস্তবায়ন), মূল্যায়ন চাবি ঘন ঘন অ্যাক্সেস প্রয়োজন
- Sharp-এ HELR এর I/O চাহিদা: 5130 বাইট/চক্র বনাম ResNet-20 এর 1633 বাইট/চক্র (3.1×)
- HELR কর্মক্ষমতা আরও গুরুতরভাবে হ্রাস পায় (যেমন RDMA-তে 357×)
বিভিন্ন FHE প্যারামিটারের প্রভাব:
- Sharp বহুপদ আকার: TensorFHE এর 1.85× (ResNet-20) এবং 1.43× (HELR)
- কিন্তু TensorFHE মূল্যায়ন চাবি আকার: Sharp এর 5.5×
- TensorFHE মোট I/O ডেটা পরিমাণ: Sharp এর 2.8× (ResNet-20) এবং 4.5× (HELR)
যদিও পেপারটি ঐতিহ্যবাহী অর্থে অপসারণ পরীক্ষা পরিচালনা করে না, তবে বহু-মাত্রিক তুলনার মাধ্যমে অনুরূপ প্রভাব অর্জন করে:
- স্টোরেজ স্তর অপসারণ: HBM→DDR→PCIe→RDMA, ক্রমান্বয়ে ব্যান্ডউইথ হ্রাস, কর্মক্ষমতা পরিবর্তন পর্যবেক্ষণ করে
- নেটওয়ার্ক কনফিগারেশন অপসারণ: Ethernet বনাম FastFabric, যোগাযোগ ব্যান্ডউইথ প্রভাব যাচাই করে
- সার্ভার সংখ্যা অপসারণ: 1/2/4/8/16/32 সার্ভার, স্কেলেবিলিটি বিশ্লেষণ করে
- ত্বরক প্রকার তুলনা: ASIC বনাম GPU, বিভিন্ন আর্কিটেকচারের I/O সংবেদনশীলতা প্রকাশ করে
Sharp-এ ResNet-20 এর সাধারণ পরিস্থিতি (PCIe স্টোরেজ+Ethernet নেটওয়ার্ক):
- একক মেশিন: সম্পাদন সময় প্রায় 3.8 সেকেন্ড, I/O 96.2% দখল করে
- 32 সার্ভার: সম্পাদন সময় প্রায় 2.2 সেকেন্ড, যোগাযোগ 92.5% দখল করে
- কর্মক্ষমতা উন্নতি সীমিত: মাত্র 1.72× ত্বরণ, তাত্ত্বিক 32× থেকে অনেক কম
RDMA স্টোরেজে HELR এর চরম পরিস্থিতি:
- Sharp কর্মক্ষমতা 357× হ্রাস, প্রায় অব্যবহারযোগ্য
- মূল কারণ: কম ব্যান্ডউইথ (12.5 GiB/s) + উচ্চ I/O চাহিদা (5130 বাইট/চক্র)
- I/O বাধা সর্বব্যাপী: এমনকি HBM-ও 4× কর্মক্ষমতা হ্রাস ঘটায়
- ASIC আরও সংবেদনশীল: অত্যন্ত উচ্চ প্রক্রিয়াকরণ ক্ষমতার কারণে, I/O গুরুতর বাধা হয়ে ওঠে
- বিতরণকৃত সর্বজনীন সমাধান নয়: উচ্চ ব্যান্ডউইথ স্টোরেজ + কম ব্যান্ডউইথ নেটওয়ার্ক সময়, বিতরণকৃত কর্মক্ষমতা হ্রাস করে
- অ্যাপ্লিকেশন বৈশিষ্ট্য গুরুত্বপূর্ণ: ঘূর্ণন-নিবিড় অ্যাপ্লিকেশন (যেমন HELR) I/O দ্বারা আরও প্রভাবিত হয়
- প্যারামিটার নির্বাচন গুরুত্বপূর্ণ: বিভিন্ন FHE প্যারামিটার বিভিন্ন I/O প্যাটার্ন এবং কর্মক্ষমতা সৃষ্টি করে
পেপারটি FHE ত্বরক এর বিকাশ ইতিহাস পর্যালোচনা করে (চিত্র 1):
- CPU বেসলাইন: স্পষ্ট পাঠ্য গণনা থেকে 10^5× ধীর
- প্রাথমিক ত্বরক (2021-2022):
- F1+ (MICRO'21)
- BTS (ISCA'22)
- CraterLake (ISCA'22)
- ARK (MICRO'22)
- সাম্প্রতিক অগ্রগতি (2023-2024):
- Sharp (ISCA'23): মাত্র 3× পার্থক্য
- TensorFHE (HPCA'23)
- Trinity (MICRO'24)
- HEAP (HPCA'24)
বেশিরভাগ ত্বরক গবেষণা অনুমান করে:
- ডেটা অবস্থান: সমস্ত ডেটা HBM-তে
- অপ্টিমাইজেশন কৌশল:
- স্ট্যাটিক সর্বোত্তম প্রিফেচ কৌশল
- ডেটা পুনঃব্যবহার অ্যালগরিদম অপ্টিমাইজেশন (যেমন ARK এর ঘূর্ণন অপ্টিমাইজেশন)
- বড় ক্ষমতার চিপ-অন-চ্যাশ (200-500 MiB)
- ARK 30: অ্যালগরিদম অপ্টিমাইজেশন শুধুমাত্র নির্দিষ্ট গণনা প্যাটার্নে প্রযোজ্য (যেমন ResNet-20 এর একই পদক্ষেপ ঘূর্ণন), HELR এবং সাজানোর জন্য অনুপযুক্ত
- Sharp 29: আদর্শ কর্মক্ষমতা রিপোর্ট করে, বাস্তব I/O সীমাবদ্ধতা বিবেচনা করে না
- TensorFHE 21: GPU বাস্তবায়ন, তুলনামূলক I/O চাপ কম কিন্তু এখনও প্রভাবিত
- শূন্যতা পূরণ: প্রথম সিস্টেমেটিক I/O প্রভাব গবেষণা
- বাস্তব পরিস্থিতি: বহু-ব্যবহারকারী ক্লাউড পরিবেশ বিবেচনা করে
- পরিমাণগত বিশ্লেষণ: নির্দিষ্ট কর্মক্ষমতা ডেটা প্রদান করে
- ব্যাপক মূল্যায়ন: একাধিক কনফিগারেশন এবং অ্যাপ্লিকেশন কভার করে
- I/O হল FHE স্থাপনার মূল বাধা: স্টোরেজ I/O ASIC কর্মক্ষমতা 357× পর্যন্ত হ্রাস করতে পারে, GPU 22× পর্যন্ত হ্রাস করতে পারে, গণনা অপ্টিমাইজেশন দ্বারা অর্জিত সুবিধা অনেক বেশি
- বিদ্যমান অনুমান অবাস্তব: সমস্ত ডেটা HBM-তে এবং খরচ দূর করা যায় এমন অনুমান ক্লাউড পরিবেশে ধরে রাখা কঠিন
- বিতরণকৃত কম্পিউটিং রূপকথার ওষুধ নয়: নির্দিষ্ট কনফিগারেশনে (উচ্চ ব্যান্ডউইথ স্টোরেজ+কম ব্যান্ডউইথ নেটওয়ার্ক), বিতরণকৃত কর্মক্ষমতা হ্রাস করে
- অ্যাপ্লিকেশন এবং প্যারামিটার সংবেদনশীল: বিভিন্ন অ্যাপ্লিকেশন এবং FHE প্যারামিটার নির্বাচন উল্লেখযোগ্যভাবে ভিন্ন I/O আচরণ সৃষ্টি করে
- অনুকরণ পরীক্ষা: SimGrid সিমুলেটর ব্যবহার করে বাস্তব হার্ডওয়্যারের পরিবর্তে, নির্ভুলতায় পার্থক্য থাকতে পারে
- অ্যাপ্লিকেশন কভারেজ সংকীর্ণ: মাত্র দুটি অ্যাপ্লিকেশন, FHE অ্যাপ্লিকেশন ইকোসিস্টেম সম্পূর্ণভাবে প্রতিনিধিত্ব করতে কঠিন
- একক FHE স্কিম: শুধুমাত্র CKKS স্কিম মূল্যায়ন, BGV, BFV, TFHE ইত্যাদি কভার করে না
- স্ট্যাটিক কর্মভার: ব্যবহারকারী অনুরোধের গতিশীল আগমন, লোড ওঠানামা, অগ্রাধিকার বিবেচনা করে না
- নেটওয়ার্ক মডেল সরলীকৃত: তারকা টপোলজি ব্যবহার করে, আরও জটিল নেটওয়ার্ক টপোলজি বিবেচনা করে না (যেমন Clos, Fat-tree)
- বাস্তব স্থাপনা যাচাইকরণ অনুপস্থিত: বাস্তব ক্লাউড পরিবেশে আবিষ্কার যাচাই করা হয়নি
পেপারটি তিনটি গবেষণা দিকনির্দেশনা প্রস্তাব করে:
- সমস্যা: বিতরণকৃত কম্পিউটিং সর্বদা উপকারী নয়
- সমাধান:
- ব্যবহারকারীদের জন্য নিবেদিত সার্ভার বরাদ্দ করে I/O অ্যাক্সেস হ্রাস করে
- ব্যবহারকারী অ্যাক্সেস প্যাটার্ন গবেষণা করে
- প্রবাহপথ অ্যাক্সেস করে প্রসঙ্গ স্যুইচ খরচ লুকায়
- চ্যালেঞ্জ: সম্পদ দক্ষতা এবং কর্মক্ষমতা ভারসাম্য রাখে
- প্রেরণা: মূল্যায়ন চাবি শুধুমাত্র নির্দিষ্ট অপারেশনে অ্যাক্সেস করা হয় (HRot, HMult)
- সমাধান:
- FHE গণনা উপাদান স্টোরেজ ডিভাইসে একীভূত করে
- নির্দিষ্ট অপারেশন পরিচালনার জন্য নিবেদিত গণনা ইউনিট ডিজাইন করে
- স্টোরেজ শেষে I/O-নিবিড় গণনা সম্পাদন করে
- সুবিধা: হোস্ট এবং স্টোরেজ মধ্যে I/O খরচ উল্লেখযোগ্যভাবে হ্রাস করে
- পর্যবেক্ষণ: FHE যোগ মূল্যায়ন চাবি অ্যাক্সেস প্রয়োজন করে না
- সমাধান:
- প্রোগ্রাম পুনর্গঠন করে I/O বৈশিষ্ট্য ব্যবহার করে
- গণনা খরচ বৃদ্ধি করতে পারে কিন্তু I/O হ্রাস করে
- দ্রুত বৃদ্ধিশীল FHE ত্বরক প্রক্রিয়াকরণ ক্ষমতা সহ একত্রিত করে
- উদাহরণ: কিছু গুণন/ঘূর্ণন অপারেশন একাধিক যোগ দ্বারা প্রতিস্থাপন করে
- মূল শূন্যতা পূরণ: FHE এর I/O বাধা প্রথম সিস্টেমেটিক গবেষণা, গণনা ত্বরণ গবেষণার একক দৃষ্টিকোণ ভেঙে দেয়
- বাস্তব তাৎপর্য: আদর্শকৃত পরীক্ষাগার পরিবেশের পরিবর্তে ক্লাউড স্থাপনার বাস্তব পরিস্থিতি লক্ষ্য করে
- সময়োপযোগী: FHE গণনা ত্বরণ উল্লেখযোগ্য অগ্রগতি অর্জনের পরে, পরবর্তী মূল চ্যালেঞ্জ সময়মত নির্দেশ করে
- বহু-মাত্রিক মূল্যায়ন: স্টোরেজ স্তর×নেটওয়ার্ক কনফিগারেশন×ত্বরক প্রকার×অ্যাপ্লিকেশন×সার্ভার সংখ্যা
- বাস্তব কনফিগারেশন: ঠান্ডা শুরু, ক্যাশ বাইপাস, বহু-ব্যবহারকারী ক্লাউড পরিবেশ অনুকরণ করে
- তুলনা ব্যাপক: HBM থেকে RDMA পর্যন্ত সম্পূর্ণ স্টোরেজ স্তর কভার করে
- পরিমাণ নির্ভুল: নির্দিষ্ট কর্মক্ষমতা ডেটা (যেমন 357×, 22×) অস্পষ্ট বর্ণনার পরিবর্তে প্রদান করে
- প্রত্যাশা বিরুদ্ধ সিদ্ধান্ত: বিতরণকৃত কম্পিউটিং কর্মক্ষমতা হ্রাস করতে পারে, ঐতিহ্যবাহী জ্ঞান চ্যালেঞ্জ করে
- ক্যাশ হিট রেট বিশ্লেষণ: 99.9% হিট রেট প্রয়োজনীয়তার অবাস্তবতা প্রকাশ করে
- সময় বিয়োজন: I/O থেকে যোগাযোগে বাধা স্থানান্তরের প্রক্রিয়া স্পষ্টভাবে প্রদর্শন করে
- অ্যাপ্লিকেশন পার্থক্য: বিভিন্ন অ্যাপ্লিকেশন এবং প্যারামিটারের প্রভাব প্রক্রিয়া গভীরভাবে বিশ্লেষণ করে
- পটভূমি পরিচয় যথেষ্ট: FHE কর্মপ্রবাহ এবং ডেটা সম্প্রসারণ বিস্তারিত ব্যাখ্যা করে
- চার্ট সমৃদ্ধ: 11 চার্ট কার্যকরভাবে যুক্তি সমর্থন করে
- যুক্তি কঠোর: সমস্যা→পরীক্ষা→আবিষ্কার→দিকনির্দেশনা, স্তর স্পষ্ট
- পুনরুৎপাদনযোগ্যতা প্রতিশ্রুতি: ট্রেস এবং সফটওয়্যার প্রকাশ্য করার প্রতিশ্রুতি দেয়
- অনুকরণ বনাম পরিমাপ: SimGrid অনুকরণ সম্ভবত বাস্তব হার্ডওয়্যার আচরণ সম্পূর্ণভাবে ক্যাপচার করতে পারে না (যেমন ক্যাশ সামঞ্জস্য, শিডিউলিং বিলম্ব)
- অ্যাপ্লিকেশন কভারেজ সংকীর্ণ: মাত্র দুটি অ্যাপ্লিকেশন, FHE অ্যাপ্লিকেশন ইকোসিস্টেম সম্পূর্ণভাবে প্রতিনিধিত্ব করতে কঠিন
- একক FHE স্কিম: CKKS শুধুমাত্র ভাসমান-বিন্দু সংখ্যার জন্য, পূর্ণসংখ্যা স্কিম (BGV, BFV) বা বাইনারি স্কিম (TFHE, FHEW) মূল্যায়ন করা হয়নি
- স্ট্যাটিক লোড: ব্যবহারকারী অনুরোধ গতিশীল আগমন, লোড ওঠানামা, অগ্রাধিকার বিবেচনা করা হয়নি
- তাত্ত্বিক মডেল অনুপস্থিত: I/O খরচ এবং সিস্টেম প্যারামিটারের মধ্যে গাণিতিক মডেল প্রতিষ্ঠা করা হয়নি
- প্রিফেচ কৌশল গভীর নয়: বিভিন্ন প্রিফেচ কৌশলের প্রভাব বিস্তারিত বিশ্লেষণ করা হয়নি
- ক্যাশ ব্যবস্থাপনা সরলীকৃত: জটিল ক্যাশ প্রতিস্থাপন কৌশল এবং বহু-স্তরের ক্যাশ বিবেচনা করা হয়নি
- শক্তি বিশ্লেষণ অনুপস্থিত: I/O খরচের শক্তি খরচের উপর প্রভাব অন্তর্ভুক্ত করা হয়নি
- ভবিষ্যত দিকনির্দেশনা বিস্তারিত অনুপস্থিত: তিনটি দিকনির্দেশনা শুধুমাত্র ধারণাগত বর্ণনা, নির্দিষ্ট ডিজাইন অনুপস্থিত
- প্রোটোটাইপ যাচাইকরণ নেই: ডেটা-কাছাকাছি প্রক্রিয়াকরণ ইত্যাদি সমাধান প্রোটোটাইপ যাচাইকরণ সম্ভাব্যতা বাস্তবায়ন করা হয়নি
- ট্রেড-অফ বিশ্লেষণ অপর্যাপ্ত: প্রতিটি সমাধানের খরচ, জটিলতা, প্রযোজ্য পরিস্থিতি সম্পূর্ণভাবে আলোচনা করা হয়নি
- Sharp সিমুলেটর নির্ভরতা: মূল পেপার সিমুলেটরের উপর নির্ভর করে, এর নির্ভুলতা যাচাই করা যায় না
- নেটওয়ার্ক মডেল সরলীকৃত: তারকা টপোলজি বাস্তব ডেটা সেন্টার নেটওয়ার্ক প্রতিনিধিত্ব করে না (যেমন Clos, Fat-tree)
- নিরাপত্তা বিবেচনা করা হয়নি: বহু-ব্যবহারকারী মধ্যে বিচ্ছিন্নতা, পার্শ্ব-চ্যানেল আক্রমণ ইত্যাদি নিরাপত্তা সমস্যা অন্তর্ভুক্ত করা হয়নি
- প্যারাডাইম পরিবর্তন: FHE গবেষণা ফোকাস বিশুদ্ধ গণনা থেকে সিস্টেম স্তরে প্রসারিত করে
- সতর্কতা প্রভাব: গবেষকদের I/O বাধা মনোযোগ দিতে সতর্ক করে, গণনা অত্যধিক অপ্টিমাইজেশন এড়ায়
- বেঞ্চমার্ক ডেটা: বিভিন্ন কনফিগারেশনে কর্মক্ষমতা ডেটা প্রদান করে, পরবর্তী গবেষণার জন্য রেফারেন্স হিসাবে কাজ করে
- গবেষণা উদ্দীপনা: তিনটি ভবিষ্যত দিকনির্দেশনা সিরিজ পরবর্তী কাজ অনুপ্রাণিত করতে পারে
- স্থাপনা নির্দেশনা: ক্লাউড সেবা প্রদানকারীদের FHE স্থাপনের জন্য পরিমাণগত প্রমাণ প্রদান করে
- আর্কিটেকচার ডিজাইন: পরবর্তী প্রজন্মের FHE ত্বরক I/O সাবসিস্টেম ডিজাইন নির্দেশনা দেয়
- প্যারামিটার নির্বাচন: অ্যাপ্লিকেশন ডেভেলপারদের I/O বৈশিষ্ট্যের উপর ভিত্তি করে FHE প্যারামিটার নির্বাচন করতে সাহায্য করে
- খরচ মূল্যায়ন: FHE ক্লাউড সেবা মূল্য নির্ধারণের জন্য কর্মক্ষমতা পূর্বাভাস প্রদান করে
- ওপেন সোর্স প্রতিশ্রুতি: ট্রেস এবং সফটওয়্যার প্রকাশ্য করা হবে, যাচাইকরণ এবং সম্প্রসারণ সহজতর করে
- বিস্তারিত কনফিগারেশন: পরীক্ষামূলক সেটআপ বর্ণনা যথেষ্ট, পুনরুৎপাদন সম্ভব
- জনসাধারণের কোড নির্ভরতা: TensorFHE জনসাধারণের বাস্তবায়ন ব্যবহার করে
- কিন্তু চ্যালেঞ্জ বিদ্যমান: Sharp সিমুলেটর প্রকাশ্য নয়, সম্পূর্ণ পুনরুৎপাদন কঠিন
- ক্লাউড FHE সেবা পরিকল্পনা: ক্লাউড সেবা প্রদানকারীরা FHE সেবা সম্ভাব্যতা এবং সম্পদ প্রয়োজনীয়তা মূল্যায়ন করে
- FHE ত্বরক ডিজাইন: হার্ডওয়্যার ডিজাইনকারীরা গণনা ক্ষমতা এবং I/O সাবসিস্টেম ভারসাম্য রাখে
- অ্যাপ্লিকেশন অপ্টিমাইজেশন: FHE অ্যাপ্লিকেশন ডেভেলপাররা I/O বৈশিষ্ট্যের উপর ভিত্তি করে অ্যালগরিদম অপ্টিমাইজ করে
- সিস্টেম গবেষণা: স্টোরেজ সিস্টেম গবেষকরা FHE এর বিশেষ I/O প্যাটার্ন অন্বেষণ করে
- একক-ব্যবহারকারী পরিস্থিতি: এই পেপার বহু-ব্যবহারকারী ক্লাউড পরিবেশ ফোকাস করে, একক ব্যবহারকারী I/O সীমাবদ্ধতা দ্বারা প্রভাবিত নাও হতে পারে
- ছোট-স্কেল ডেটা: ডেটা সম্পূর্ণভাবে HBM-এ ফিট করলে, I/O প্রভাব ছোট
- অ-CKKS স্কিম: অন্যান্য FHE স্কিম বিভিন্ন I/O বৈশিষ্ট্য থাকতে পারে
- এজ কম্পিউটিং: এজ ডিভাইসের সম্পদ সীমাবদ্ধতা এবং ব্যবহার প্যাটার্ন ক্লাউড থেকে ভিন্ন
- বাস্তব হার্ডওয়্যার যাচাইকরণ: বাস্তব ক্লাউড পরিবেশে স্থাপনা এবং পরিমাপ করে
- আরও FHE স্কিম: BGV, BFV, TFHE ইত্যাদিতে সম্প্রসারিত করে
- আরও অ্যাপ্লিকেশন: ডাটাবেস প্রশ্ন, জিনোম বিশ্লেষণ, আর্থিক গণনা ইত্যাদি
- গতিশীল লোড: বাস্তব ব্যবহারকারী অনুরোধ আগমন প্যাটার্ন অনুকরণ করে
- নিরাপত্তা বিশ্লেষণ: I/O অপ্টিমাইজেশন পার্শ্ব-চ্যানেল আক্রমণের প্রভাব
- প্রোটোটাইপ বাস্তবায়ন: ডেটা-কাছাকাছি প্রক্রিয়াকরণ FHE স্টোরেজ ডিভাইস প্রোটোটাইপ বাস্তবায়ন করে
- তাত্ত্বিক মডেলিং: I/O খরচের কর্মক্ষমতা মডেল প্রতিষ্ঠা করে
- শিডিউলিং অ্যালগরিদম: locality-aware FHE কাজ শিডিউলার ডিজাইন করে
পেপারটি 46টি রেফারেন্স উদ্ধৃত করে, মূল রেফারেন্স অন্তর্ভুক্ত:
- 29 Sharp (ISCA'23): সবচেয়ে উন্নত ASIC ত্বরক, এই পেপারের প্রধান তুলনা বস্তু
- 21 TensorFHE (HPCA'23): GPU ত্বরণ সমাধান
- 30 ARK (MICRO'22): ডেটা পুনঃব্যবহার অপ্টিমাইজেশন প্রস্তাব করে
- 40 CraterLake (ISCA'22): প্রাথমিক ASIC ডিজাইন
- 15 CKKS: ভাসমান-বিন্দু সংখ্যা সমর্থন করে এমন FHE স্কিম, এই পেপার গ্রহণ করে
- 12 BGV: পূর্ণসংখ্যা FHE স্কিম
- 11,20 BFV: অন্য পূর্ণসংখ্যা স্কিম
- 16 TFHE: বাইনারি FHE স্কিম
- 24 HELR: লজিস্টিক রিগ্রেশন প্রশিক্ষণ
- 34 ResNet-20: CNN অনুমান
- 13 SimGrid: বিতরণকৃত সিস্টেম সিমুলেটর
সামগ্রিক মূল্যায়ন: এটি একটি অনন্য দৃষ্টিকোণ, কঠোর পরীক্ষা, গুরুত্বপূর্ণ আবিষ্কার সহ একটি সিস্টেম গবেষণা পেপার। এটি FHE গবেষণায় I/O বাধা এই মূল শূন্যতা পূরণ করে, FHE এর বাস্তব স্থাপনার জন্য গুরুত্বপূর্ণ সতর্কতা এবং নির্দেশনা প্রদান করে। যদিও অনুকরণ পরীক্ষা, সীমিত অ্যাপ্লিকেশন কভারেজ ইত্যাদি সীমাবদ্ধতা রয়েছে, তবে এর মূল অবদান—I/O বাধার গুরুত্ব প্রকাশ করা—উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে। পেপারটি প্রস্তাবিত তিনটি ভবিষ্যত দিকনির্দেশনা, বিশেষত ডেটা-কাছাকাছি প্রক্রিয়াকরণ, FHE সিস্টেম গবেষণার নতুন দিকনির্দেশনা নেতৃত্ব দিতে পারে। ক্লাউড সেবা প্রদানকারী, হার্ডওয়্যার ডিজাইনকারী এবং FHE অ্যাপ্লিকেশন ডেভেলপারদের জন্য, এটি একটি অবশ্য-পড়া সাহিত্য।