2025-11-14T18:25:11.461015

The Future of Fully Homomorphic Encryption System: from a Storage I/O Perspective

Chen, Xu, Sun et al.

Fully Homomorphic Encryption (FHE) allows computations to be performed on encrypted data, significantly enhancing user privacy. However, the I/O challenges associated with deploying FHE applications remains understudied. We analyze the impact of storage I/O on the performance of FHE applications and summarize key lessons from the status quo. Key results include that storage I/O can degrade the performance of ASICs by as much as 357$\times$ and reduce GPUs performance by up to 22$\times$.

academic

সম্পূর্ণ সমরূপী এনক্রিপশন সিস্টেমের ভবিষ্যৎ: স্টোরেজ I/O দৃষ্টিকোণ থেকে

মৌলিক তথ্য

পেপার আইডি: 2511.04946
শিরোনাম: The Future of Fully Homomorphic Encryption System: from a Storage I/O Perspective
লেখক: Lei Chen, Erci Xu, Yiming Sun, Shengyu Fan, Xianglong Deng, Guiming Shi, Guang Fan, Liang Kong, Yilan Zhu, Shoumeng Yan, Mingzhe Zhang (অ্যান্ট গ্রুপ, শাংহাই জিয়াও তং বিশ্ববিদ্যালয়, চীন বিজ্ঞান একাডেমি বিশ্ববিদ্যালয়, তিংহুয়া বিশ্ববিদ্যালয় থেকে)
শ্রেণীবিভাগ: cs.CR (ক্রিপ্টোগ্রাফি এবং নিরাপত্তা), cs.DC (বিতরণকৃত কম্পিউটিং)
প্রকাশনার সময়: 2025 সালের 7 নভেম্বর arXiv-এ জমা দেওয়া হয়েছে
পেপার লিঙ্ক: https://arxiv.org/abs/2511.04946

সারসংক্ষেপ

সম্পূর্ণ সমরূপী এনক্রিপশন (FHE) এনক্রিপ্ট করা ডেটার উপর সরাসরি গণনা সম্পাদন করতে দেয়, যা ব্যবহারকারীর গোপনীয়তা সুরক্ষা উল্লেখযোগ্যভাবে বৃদ্ধি করে। তবে FHE অ্যাপ্লিকেশন স্থাপনের সময় সম্মুখীন হওয়া I/O চ্যালেঞ্জগুলি এখনও পর্যাপ্তভাবে অধ্যয়ন করা হয়নি। এই পেপারটি স্টোরেজ I/O এর FHE অ্যাপ্লিকেশন কর্মক্ষমতার উপর প্রভাব বিশ্লেষণ করে এবং বর্তমান অবস্থার মূল শিক্ষা সংক্ষিপ্ত করে। মূল ফলাফল দেখায়: স্টোরেজ I/O ASIC কর্মক্ষমতা 357× পর্যন্ত হ্রাস করতে পারে, GPU কর্মক্ষমতা 22× পর্যন্ত হ্রাস করতে পারে।

গবেষণা পটভূমি এবং প্রেরণা

সমাধান করার সমস্যা

এই পেপারটি FHE সিস্টেম স্থাপনে গুরুতরভাবে উপেক্ষা করা স্টোরেজ I/O বাধার সমস্যার উপর দৃষ্টি নিবদ্ধ করে। যদিও বিদ্যমান গবেষণা গণনা ত্বরণে উল্লেখযোগ্য অগ্রগতি অর্জন করেছে (CPU-এর 10^5× ধীরতা থেকে মাত্র 3× পার্থক্যে হ্রাস), স্টোরেজ I/O-এর প্রভাব খুব কমই অধ্যয়ন করা হয়েছে।

সমস্যার গুরুত্ব

ক্লাউড কম্পিউটিং পরিস্থিতির বাস্তব চাহিদা: বহু-ব্যবহারকারী ক্লাউড পরিবেশে, প্রতিটি ব্যবহারকারীর স্বাধীন সাইফারটেক্সট এবং মূল্যায়ন কী (evaluation keys) রয়েছে, যা ডিভাইস মেমরি ক্ষমতা অতিক্রম করতে পারে
ডেটা স্কেল বিস্ফোরণ: FHE কর্মপ্রবাহ ডেটা স্কেল উল্লেখযোগ্যভাবে বৃদ্ধি করে (যেমন 3KB ছবি → 8MB স্পষ্ট পাঠ্য বহুপদ → 16MB সাইফারটেক্সট → 5GB মূল্যায়ন কী)
বহু-ব্যবহারকারী সমসাময়িকতা: সার্ভারকে একযোগে একাধিক ব্যবহারকারীকে পরিষেবা প্রদান করতে হবে, সমস্ত ব্যবহারকারীর ডেটা উচ্চ-ব্যান্ডউইথ মেমরি (HBM)-তে সংরক্ষণ করতে পারে না

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিদ্যমান FHE ত্বরক গবেষণা দুটি অবাস্তব অনুমানের উপর ভিত্তি করে:

অনুমান 1: সমস্ত ডেটা HBM-তে সংরক্ষিত
অনুমান 2: HBM থেকে চিপ-অন-চ্যাশে ডেটা আনার খরচ স্ট্যাটিক সর্বোত্তম প্রিফেচ কৌশল, ডেটা পুনঃব্যবহার অ্যালগরিদম অপ্টিমাইজেশন এবং বড় ক্ষমতার চিপ-অন-চ্যাশ (200-500 MiB) দ্বারা সম্পূর্ণভাবে দূর করা যায়

এই অনুমানগুলি বাস্তব ক্লাউড কম্পিউটিং স্থাপনায় ধরে রাখা কঠিন, কারণ:

HBM ক্ষমতা সীমিত (প্রায় দশ GB)
বহু-ব্যবহারকারী পরিবেশে সমস্ত ব্যবহারকারীর ডেটার জন্য স্থান সংরক্ষণ করা যায় না
বড় মডেল (যেমন 13B প্যারামিটার LLM 26GB ওজন + 1.6GB KV ক্যাশ প্রয়োজন) প্রচুর HBM দখল করে
স্ট্যাটিক প্রিফেচ কৌশল বহু-অ্যাপ্লিকেশন সম্পদ প্রতিযোগিতায় সীমিত কার্যকারিতা রয়েছে

গবেষণা প্রেরণা

এই পেপারটি সিস্টেমেটিক পরীক্ষার মাধ্যমে I/O এর FHE কর্মক্ষমতার প্রকৃত প্রভাব পরিমাণগতভাবে মূল্যায়ন করে, FHE সিস্টেমের বাস্তব স্থাপনার জন্য নির্দেশনা প্রদান করে।

মূল অবদান

প্রথম সিস্টেমেটিক গবেষণা: স্টোরেজ I/O এর FHE ত্বরক কর্মক্ষমতার উপর প্রভাব প্রথমবারের মতো গভীরভাবে বিশ্লেষণ করে, এই ক্ষেত্রের গবেষণা শূন্যতা পূরণ করে
ব্যাপক পরীক্ষামূলক মূল্যায়ন: SimGrid সিমুলেটর ব্যবহার করে, একাধিক স্টোরেজ ডিভাইস (HBM, DDR5, PCIe, RDMA) এবং নেটওয়ার্ক কনফিগারেশনে প্রতিনিধিত্বমূলক FHE অ্যাপ্লিকেশন পরীক্ষা করে
তিনটি মূল আবিষ্কার:
- I/O অ্যাক্সেস FHE অ্যাপ্লিকেশন কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস করে (ASIC সর্বোচ্চ 357×, GPU সর্বোচ্চ 22×)
- বিতরণকৃত কম্পিউটিং সর্বদা সমস্যা সমাধান করতে পারে না, কিছু ক্ষেত্রে কর্মক্ষমতা হ্রাস করে
- I/O খরচের প্রভাব অ্যাপ্লিকেশন এবং FHE প্যারামিটার সেটিং অনুযায়ী পরিবর্তিত হয়
ভবিষ্যত গবেষণা দিকনির্দেশনা: locality-first শিডিউলিং, ডেটা-কাছাকাছি প্রক্রিয়াকরণ, I/O-বান্ধব অ্যাপ্লিকেশন বাস্তবায়ন ইত্যাদি সমাধান প্রস্তাব করে
খোলা সম্পদ প্রতিশ্রুতি: ট্রেস এবং সফটওয়্যার প্রকাশ্যে করার প্রতিশ্রুতি দেয় যা পরবর্তী গবেষণা প্রচার করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

এই গবেষণা স্টোরেজ I/O এর FHE অ্যাপ্লিকেশন এন্ড-টু-এন্ড কর্মক্ষমতার উপর প্রভাব পরিমাণগতভাবে মূল্যায়ন করার লক্ষ্য রাখে, বিশেষভাবে অন্তর্ভুক্ত:

ইনপুট: বিভিন্ন স্টোরেজ স্তর (HBM, DDR, PCIe, RDMA), বিভিন্ন নেটওয়ার্ক কনফিগারেশন (Ethernet, FastFabric), বিভিন্ন অ্যাপ্লিকেশন (ResNet-20, HELR)
আউটপুট: স্বাভাবিকৃত কর্মক্ষমতা মেট্রিক্স, সম্পাদন সময় বিয়োজন (গণনা/I/O/যোগাযোগ)
সীমাবদ্ধতা: বাস্তব ক্লাউড পরিবেশের ঠান্ডা শুরু এবং বহু-ব্যবহারকারী পরিস্থিতি অনুকরণ করে

FHE কর্মপ্রবাহ বিস্তারিত

1. এনকোড (Encode)

ইনপুট (যেমন দৈর্ঘ্য n এর ভেক্টর) N সহগ সহ বহুপদে এনকোড করে (N/2 ≥ n)
চীনা অবশিষ্ট উপপাদ্য (CRT) ব্যবহার করে বড় পূর্ণসংখ্যাকে একাধিক ছোট পূর্ণসংখ্যায় বিয়োজন করে (limb বলা হয়)
মডুলাস Q সাধারণত 1000 বিট অতিক্রম করে
ডেটা সম্প্রসারণ: 3KB ছবি → 8MB বহুপদ (N=2^16 সহগ)

2. এনক্রিপ্ট (Encrypt)

জনসাধারণের চাবি ব্যবহার করে স্পষ্ট পাঠ্য বহুপদকে সাইফারটেক্সটে এনক্রিপ্ট করে (দুটি বহুপদ অন্তর্ভুক্ত)
RLWE নিরাপত্তা নিশ্চিত করতে র্যান্ডম ত্রুটি বহুপদ প্রবর্তন করে
ডেটা সম্প্রসারণ: 8MB স্পষ্ট পাঠ্য → 16MB সাইফারটেক্সট

3. গণনা (Compute)

5 ধরনের মৌলিক অপারেশন সমর্থন করে (টেবিল 1 দেখুন):

PAdd/HAdd: স্পষ্ট পাঠ্য-সাইফারটেক্সট/সাইফারটেক্সট-সাইফারটেক্সট যোগ, জটিলতা O(N)
PMult/HMult: স্পষ্ট পাঠ্য-সাইফারটেক্সট/সাইফারটেক্সট-সাইফারটেক্সট গুণন, NTT ব্যবহার করে O(N logN) এ ত্বরান্বিত
HRot: চক্রাকার স্থানান্তর অপারেশন, সংগ্রহ অপারেশন বাস্তবায়নের জন্য ব্যবহৃত
মূল বৈশিষ্ট্য: HMult এবং HRot মূল্যায়ন চাবি অ্যাক্সেস প্রয়োজন (ResNet-20 100+ বিভিন্ন মূল্যায়ন চাবি প্রয়োজন, মোট >5GB)

4. ডিক্রিপ্ট এবং ডিকোড (Decrypt & Decode)

এনক্রিপশন এবং এনকোডিং এর বিপরীত প্রক্রিয়া

পরীক্ষামূলক আর্কিটেকচার ডিজাইন

ত্বরক নির্বাচন

Sharp: সবচেয়ে উন্নত ASIC ত্বরক (ISCA 2023)
- মূল পেপারের সিমুলেটর ব্যবহার করে
- বেসলাইন: আদর্শ কর্মক্ষমতা (HBM যথেষ্ট বড় অনুমান করে, সমস্ত অপ্টিমাইজেশন সক্ষম)
TensorFHE: সবচেয়ে উন্নত GPU ত্বরণ সমাধান (HPCA 2023)
- NVIDIA A100 40GB GPU-তে জনসাধারণের কোড চালায়
- বেসলাইন: সমস্ত ডেটা GPU মেমরিতে সর্বোত্তম কর্মক্ষমতা

স্টোরেজ স্তর

HBM: 1 TiB/s ব্যান্ডউইথ
DDR5-5600: 358.4 GiB/s (8 চ্যানেল)
PCIe5 ×16: 64 GiB/s
RDMA ডিস্ক: 12.5 GiB/s

পরীক্ষামূলক কনফিগারেশন

ঠান্ডা শুরু: ডিভাইস ক্যাশ বাইপাস করে, বহু-ব্যবহারকারী ক্লাউড পরিবেশ অনুকরণ করে
শুধুমাত্র থ্রুপুট মূল্যায়ন: FHE ডেটা অ্যাক্সেস সাধারণত দশ থেকে শত MB
বিতরণকৃত অনুকরণ: SimGrid সিমুলেটর ব্যবহার করে, তারকা টপোলজি, Ethernet(400Gb/s) এবং FastFabric(300GiB/s) সমর্থন করে

অ্যাপ্লিকেশন লোড

HELR: লজিস্টিক রিগ্রেশন প্রশিক্ষণ (MNIST ডেটাসেট, 1024 ছবি/ব্যাচ, 32 বার প্রশিক্ষণ)
ResNet-20: CNN অনুমান (CIFAR-10 ডেটাসেট, CKKS বাস্তবায়ন ব্যবহার করে)

সমান্তরাল মডেল

residue-polynomial-level parallelism (rPLP) মডেল গ্রহণ করে:

বড় সহগ বহুপদকে ছোট সহগ অবশিষ্ট বহুপদের একটি সিরিজ হিসাবে উপস্থাপন করে
প্রতিটি সার্ভার স্বাধীন অবশিষ্ট বহুপদ গণনা করে
বেশিরভাগ অপারেশন স্থানীয়ভাবে গণনা করা যায়, যোগাযোগ হ্রাস করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

প্রথম I/O প্রভাব পরিমাণ: বিদ্যমান গবেষণা I/O উপেক্ষা করার সীমাবদ্ধতা ভেঙে, বাস্তব স্থাপনা পরিস্থিতি সিস্টেমেটিকভাবে মূল্যায়ন করে
বহু-মাত্রিক মূল্যায়ন কাঠামো: স্টোরেজ স্তর, নেটওয়ার্ক কনফিগারেশন, ত্বরক প্রকার, অ্যাপ্লিকেশন বৈশিষ্ট্যের সমন্বিত বিশ্লেষণ
ক্যাশ হিট রেট বিশ্লেষণ: বিভিন্ন স্টোরেজ ব্যান্ডউইথে লক্ষ্য কর্মক্ষমতা অর্জনের জন্য প্রয়োজনীয় ক্যাশ হিট রেট প্রকাশ করে (যেমন 80% কর্মক্ষমতা 90.2%-99.9% হিট রেট প্রয়োজন)
বিতরণকৃত কম্পিউটিং প্যারাডক্স: বিতরণকৃত কম্পিউটিং কিছু কনফিগারেশনে কর্মক্ষমতা হ্রাস করে, ঐতিহ্যবাহী জ্ঞানকে চ্যালেঞ্জ করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

MNIST: HELR লজিস্টিক রিগ্রেশন প্রশিক্ষণের জন্য ব্যবহৃত
- ব্যাচ আকার: 1024 ছবি
- প্রশিক্ষণ পুনরাবৃত্তি: 32 বার
CIFAR-10: ResNet-20 অনুমানের জন্য ব্যবহৃত
- একক ছবি অনুমান
- ছবি আকার: 32×32×3

মূল্যায়ন মেট্রিক্স

স্বাভাবিকৃত কর্মক্ষমতা: আদর্শ বেসলাইনের সাপেক্ষে কর্মক্ষমতা অনুপাত
সম্পাদন সময়: পরম সম্পাদন সময় (সেকেন্ড)
সময় বিয়োজন: গণনা/I/O/যোগাযোগ খরচ অনুপাত
ত্বরণ অনুপাত: বিতরণকৃত কম্পিউটিং একক মেশিনের সাপেক্ষে কর্মক্ষমতা উন্নতি
I/O চাপ: প্রতি চক্রে গড় অ্যাক্সেস বাইট সংখ্যা

তুলনা পদ্ধতি

বেসলাইন 1 (Sharp): HBM ক্ষমতা অসীম অনুমান করে, প্রিফেচ, শিডিউলিং, ডেটা পুনঃব্যবহার অপ্টিমাইজেশন সক্ষম করে
বেসলাইন 2 (TensorFHE): সমস্ত ডেটা GPU মেমরিতে সর্বোত্তম কনফিগারেশন
তুলনা মাত্রা: বিভিন্ন স্টোরেজ স্তর, বিভিন্ন নেটওয়ার্ক, বিভিন্ন সার্ভার সংখ্যা (1/2/4/8/16/32)

বাস্তবায়ন বিবরণ

Sharp সিমুলেটর:
- বহুপদ সহগ: 1555-বিট পূর্ণসংখ্যা
- চিপ-অন-চ্যাশ: শত MB
- I/O চাপ: প্রতি চক্রে গড় 3381 বাইট
TensorFHE কনফিগারেশন:
- ResNet-20: 840-বিট পূর্ণসংখ্যা
- HELR: 1092-বিট পূর্ণসংখ্যা
- I/O চাপ: প্রতি চক্রে গড় 101 বাইট
- মূল্যায়ন চাবি আকার: Sharp এর 5.5×
SimGrid কনফিগারেশন:
- টপোলজি: তারকা নেটওয়ার্ক
- অফলাইন প্রোফাইলিং সমস্ত GPU কার্নেল
- প্রোফাইলিং ফলাফল বিতরণকৃত সম্পাদন অনুকরণ করতে আমদানি করে

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

পর্যবেক্ষণ 1: স্টোরেজ I/O উল্লেখযোগ্যভাবে কর্মক্ষমতা হ্রাস করে (চিত্র 4)

ASIC (Sharp) কর্মক্ষমতা হ্রাস:

HBM: ResNet-20 2.63× হ্রাস, HELR 5.5× হ্রাস (গড় 4.0×)
DDR5: ResNet-20 5.56× হ্রাস, HELR 13.4× হ্রাস
PCIe: ResNet-20 26.5× হ্রাস, HELR 70.6× হ্রাস
RDMA: ResNet-20 131.7× হ্রাস, HELR 357.2× হ্রাস (সর্বোচ্চ হ্রাস)

GPU (TensorFHE) কর্মক্ষমতা হ্রাস:

HBM: সামান্য হ্রাস 1.2×
DDR5: 1.5× হ্রাস
PCIe: 3.8× হ্রাস
RDMA: ResNet-20 15.2× হ্রাস, HELR 22× হ্রাস

মূল কারণ:

Sharp এর I/O চাপ অত্যন্ত উচ্চ (3381 বাইট/চক্র) বনাম TensorFHE (101 বাইট/চক্র)
GPU প্রক্রিয়াকরণ ক্ষমতা তুলনামূলকভাবে কম, I/O চাপ তুলনামূলকভাবে হ্রাস পায়

পর্যবেক্ষণ 2: ক্যাশ হিট রেট প্রয়োজনীয়তা (চিত্র 5)

80% বেসলাইন কর্মক্ষমতা অর্জনের জন্য প্রয়োজনীয় ক্যাশ হিট রেট:

ResNet-20: HBM 90.2%, DDR 96.2%, PCIe 99.3%, RDMA 99.9%
HELR: উচ্চতর প্রয়োজনীয়তা, RDMA 100% এর কাছাকাছি হিট রেট প্রয়োজন

অন্তর্দৃষ্টি: কম ব্যান্ডউইথ স্টোরেজ অত্যন্ত উচ্চ ক্যাশ হিট রেট প্রয়োজন, বাস্তবে অর্জন করা কঠিন

বিতরণকৃত কম্পিউটিং ফলাফল

পর্যবেক্ষণ 3: বিতরণকৃত কম্পিউটিং এর দ্বিমুখী প্রকৃতি (চিত্র 6)

TensorFHE কর্মক্ষমতা:

32 সার্ভার ত্বরণ অনুপাত:
- Ethernet: 6.6× (কার্যকর)
- FastFabric: 9.7× (আরও কার্যকর)

Sharp কর্মক্ষমতা (জটিল পরিস্থিতি): Ethernet সহ 32 সার্ভার ব্যবহার করে:

HBM: কর্মক্ষমতা 6.08× হ্রাস (নেতিবাচক অপ্টিমাইজেশন!)
DDR: কর্মক্ষমতা 2.74× হ্রাস (নেতিবাচক অপ্টিমাইজেশন!)
PCIe: 1.72× ত্বরণ
RDMA: 5.78× ত্বরণ

FastFabric সহ 32 সার্ভার ব্যবহার করে:

HBM: প্রায় কোন উন্নতি নেই (0.94×)
DDR: 1.99× ত্বরণ
PCIe: 6.42× ত্বরণ
RDMA: 11.96× ত্বরণ

মূল কারণ (চিত্র 7 সময় বিয়োজন): Sharp 32 সার্ভার ব্যবহার করে (PCIe+Ethernet):

গণনা খরচ: 3.8%→0.3% (উল্লেখযোগ্য হ্রাস)
I/O খরচ: 96.2%→7.2% (উল্লেখযোগ্য হ্রাস)
যোগাযোগ খরচ: 0%→92.5% (নতুন বাধা হয়ে ওঠে!)

TensorFHE 32 সার্ভার ব্যবহার করে:

গণনা খরচ: 40.1% (এখনও উল্লেখযোগ্য, GPU ব্যাচ প্রক্রিয়াকরণ বৈশিষ্ট্য)
I/O খরচ: 18.1%
যোগাযোগ খরচ: 41.8%

অ্যাপ্লিকেশন পার্থক্য বিশ্লেষণ

পর্যবেক্ষণ 4: বিভিন্ন অ্যাপ্লিকেশনের I/O সংবেদনশীলতা

HELR বনাম ResNet-20:

HELR বিপুল সংখ্যক ঘূর্ণন অপারেশন অন্তর্ভুক্ত করে (ভেক্টর অভ্যন্তরীণ পণ্য বাস্তবায়ন), মূল্যায়ন চাবি ঘন ঘন অ্যাক্সেস প্রয়োজন
Sharp-এ HELR এর I/O চাহিদা: 5130 বাইট/চক্র বনাম ResNet-20 এর 1633 বাইট/চক্র (3.1×)
HELR কর্মক্ষমতা আরও গুরুতরভাবে হ্রাস পায় (যেমন RDMA-তে 357×)

বিভিন্ন FHE প্যারামিটারের প্রভাব:

Sharp বহুপদ আকার: TensorFHE এর 1.85× (ResNet-20) এবং 1.43× (HELR)
কিন্তু TensorFHE মূল্যায়ন চাবি আকার: Sharp এর 5.5×
TensorFHE মোট I/O ডেটা পরিমাণ: Sharp এর 2.8× (ResNet-20) এবং 4.5× (HELR)

অপসারণ পরীক্ষা

যদিও পেপারটি ঐতিহ্যবাহী অর্থে অপসারণ পরীক্ষা পরিচালনা করে না, তবে বহু-মাত্রিক তুলনার মাধ্যমে অনুরূপ প্রভাব অর্জন করে:

স্টোরেজ স্তর অপসারণ: HBM→DDR→PCIe→RDMA, ক্রমান্বয়ে ব্যান্ডউইথ হ্রাস, কর্মক্ষমতা পরিবর্তন পর্যবেক্ষণ করে
নেটওয়ার্ক কনফিগারেশন অপসারণ: Ethernet বনাম FastFabric, যোগাযোগ ব্যান্ডউইথ প্রভাব যাচাই করে
সার্ভার সংখ্যা অপসারণ: 1/2/4/8/16/32 সার্ভার, স্কেলেবিলিটি বিশ্লেষণ করে
ত্বরক প্রকার তুলনা: ASIC বনাম GPU, বিভিন্ন আর্কিটেকচারের I/O সংবেদনশীলতা প্রকাশ করে

কেস স্টাডি

Sharp-এ ResNet-20 এর সাধারণ পরিস্থিতি (PCIe স্টোরেজ+Ethernet নেটওয়ার্ক):

একক মেশিন: সম্পাদন সময় প্রায় 3.8 সেকেন্ড, I/O 96.2% দখল করে
32 সার্ভার: সম্পাদন সময় প্রায় 2.2 সেকেন্ড, যোগাযোগ 92.5% দখল করে
কর্মক্ষমতা উন্নতি সীমিত: মাত্র 1.72× ত্বরণ, তাত্ত্বিক 32× থেকে অনেক কম

RDMA স্টোরেজে HELR এর চরম পরিস্থিতি:

Sharp কর্মক্ষমতা 357× হ্রাস, প্রায় অব্যবহারযোগ্য
মূল কারণ: কম ব্যান্ডউইথ (12.5 GiB/s) + উচ্চ I/O চাহিদা (5130 বাইট/চক্র)

পরীক্ষামূলক আবিষ্কার

I/O বাধা সর্বব্যাপী: এমনকি HBM-ও 4× কর্মক্ষমতা হ্রাস ঘটায়
ASIC আরও সংবেদনশীল: অত্যন্ত উচ্চ প্রক্রিয়াকরণ ক্ষমতার কারণে, I/O গুরুতর বাধা হয়ে ওঠে
বিতরণকৃত সর্বজনীন সমাধান নয়: উচ্চ ব্যান্ডউইথ স্টোরেজ + কম ব্যান্ডউইথ নেটওয়ার্ক সময়, বিতরণকৃত কর্মক্ষমতা হ্রাস করে
অ্যাপ্লিকেশন বৈশিষ্ট্য গুরুত্বপূর্ণ: ঘূর্ণন-নিবিড় অ্যাপ্লিকেশন (যেমন HELR) I/O দ্বারা আরও প্রভাবিত হয়
প্যারামিটার নির্বাচন গুরুত্বপূর্ণ: বিভিন্ন FHE প্যারামিটার বিভিন্ন I/O প্যাটার্ন এবং কর্মক্ষমতা সৃষ্টি করে

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

I/O হল FHE স্থাপনার মূল বাধা: স্টোরেজ I/O ASIC কর্মক্ষমতা 357× পর্যন্ত হ্রাস করতে পারে, GPU 22× পর্যন্ত হ্রাস করতে পারে, গণনা অপ্টিমাইজেশন দ্বারা অর্জিত সুবিধা অনেক বেশি
বিদ্যমান অনুমান অবাস্তব: সমস্ত ডেটা HBM-তে এবং খরচ দূর করা যায় এমন অনুমান ক্লাউড পরিবেশে ধরে রাখা কঠিন
বিতরণকৃত কম্পিউটিং রূপকথার ওষুধ নয়: নির্দিষ্ট কনফিগারেশনে (উচ্চ ব্যান্ডউইথ স্টোরেজ+কম ব্যান্ডউইথ নেটওয়ার্ক), বিতরণকৃত কর্মক্ষমতা হ্রাস করে
অ্যাপ্লিকেশন এবং প্যারামিটার সংবেদনশীল: বিভিন্ন অ্যাপ্লিকেশন এবং FHE প্যারামিটার নির্বাচন উল্লেখযোগ্যভাবে ভিন্ন I/O আচরণ সৃষ্টি করে

সীমাবদ্ধতা

অনুকরণ পরীক্ষা: SimGrid সিমুলেটর ব্যবহার করে বাস্তব হার্ডওয়্যারের পরিবর্তে, নির্ভুলতায় পার্থক্য থাকতে পারে
অ্যাপ্লিকেশন কভারেজ সংকীর্ণ: মাত্র দুটি অ্যাপ্লিকেশন, FHE অ্যাপ্লিকেশন ইকোসিস্টেম সম্পূর্ণভাবে প্রতিনিধিত্ব করতে কঠিন
একক FHE স্কিম: শুধুমাত্র CKKS স্কিম মূল্যায়ন, BGV, BFV, TFHE ইত্যাদি কভার করে না
স্ট্যাটিক কর্মভার: ব্যবহারকারী অনুরোধের গতিশীল আগমন, লোড ওঠানামা, অগ্রাধিকার বিবেচনা করে না
নেটওয়ার্ক মডেল সরলীকৃত: তারকা টপোলজি ব্যবহার করে, আরও জটিল নেটওয়ার্ক টপোলজি বিবেচনা করে না (যেমন Clos, Fat-tree)
বাস্তব স্থাপনা যাচাইকরণ অনুপস্থিত: বাস্তব ক্লাউড পরিবেশে আবিষ্কার যাচাই করা হয়নি

ভবিষ্যত দিকনির্দেশনা

পেপারটি তিনটি গবেষণা দিকনির্দেশনা প্রস্তাব করে:

1. Locality-first শিডিউলিং

সমস্যা: বিতরণকৃত কম্পিউটিং সর্বদা উপকারী নয়
সমাধান:
- ব্যবহারকারীদের জন্য নিবেদিত সার্ভার বরাদ্দ করে I/O অ্যাক্সেস হ্রাস করে
- ব্যবহারকারী অ্যাক্সেস প্যাটার্ন গবেষণা করে
- প্রবাহপথ অ্যাক্সেস করে প্রসঙ্গ স্যুইচ খরচ লুকায়
চ্যালেঞ্জ: সম্পদ দক্ষতা এবং কর্মক্ষমতা ভারসাম্য রাখে

2. ডেটা-কাছাকাছি প্রক্রিয়াকরণ (সবচেয়ে প্রতিশ্রুতিশীল)

প্রেরণা: মূল্যায়ন চাবি শুধুমাত্র নির্দিষ্ট অপারেশনে অ্যাক্সেস করা হয় (HRot, HMult)
সমাধান:
- FHE গণনা উপাদান স্টোরেজ ডিভাইসে একীভূত করে
- নির্দিষ্ট অপারেশন পরিচালনার জন্য নিবেদিত গণনা ইউনিট ডিজাইন করে
- স্টোরেজ শেষে I/O-নিবিড় গণনা সম্পাদন করে
সুবিধা: হোস্ট এবং স্টোরেজ মধ্যে I/O খরচ উল্লেখযোগ্যভাবে হ্রাস করে

3. I/O-বান্ধব অ্যাপ্লিকেশন বাস্তবায়ন

পর্যবেক্ষণ: FHE যোগ মূল্যায়ন চাবি অ্যাক্সেস প্রয়োজন করে না
সমাধান:
- প্রোগ্রাম পুনর্গঠন করে I/O বৈশিষ্ট্য ব্যবহার করে
- গণনা খরচ বৃদ্ধি করতে পারে কিন্তু I/O হ্রাস করে
- দ্রুত বৃদ্ধিশীল FHE ত্বরক প্রক্রিয়াকরণ ক্ষমতা সহ একত্রিত করে
উদাহরণ: কিছু গুণন/ঘূর্ণন অপারেশন একাধিক যোগ দ্বারা প্রতিস্থাপন করে

গভীর মূল্যায়ন

শক্তি

1. গবেষণা দৃষ্টিকোণ অনন্য এবং গুরুত্বপূর্ণ

মূল শূন্যতা পূরণ: FHE এর I/O বাধা প্রথম সিস্টেমেটিক গবেষণা, গণনা ত্বরণ গবেষণার একক দৃষ্টিকোণ ভেঙে দেয়
বাস্তব তাৎপর্য: আদর্শকৃত পরীক্ষাগার পরিবেশের পরিবর্তে ক্লাউড স্থাপনার বাস্তব পরিস্থিতি লক্ষ্য করে
সময়োপযোগী: FHE গণনা ত্বরণ উল্লেখযোগ্য অগ্রগতি অর্জনের পরে, পরবর্তী মূল চ্যালেঞ্জ সময়মত নির্দেশ করে

2. পরীক্ষামূলক ডিজাইন ব্যাপক কঠোর

বহু-মাত্রিক মূল্যায়ন: স্টোরেজ স্তর×নেটওয়ার্ক কনফিগারেশন×ত্বরক প্রকার×অ্যাপ্লিকেশন×সার্ভার সংখ্যা
বাস্তব কনফিগারেশন: ঠান্ডা শুরু, ক্যাশ বাইপাস, বহু-ব্যবহারকারী ক্লাউড পরিবেশ অনুকরণ করে
তুলনা ব্যাপক: HBM থেকে RDMA পর্যন্ত সম্পূর্ণ স্টোরেজ স্তর কভার করে
পরিমাণ নির্ভুল: নির্দিষ্ট কর্মক্ষমতা ডেটা (যেমন 357×, 22×) অস্পষ্ট বর্ণনার পরিবর্তে প্রদান করে

3. আবিষ্কার অন্তর্দৃষ্টিপূর্ণ

প্রত্যাশা বিরুদ্ধ সিদ্ধান্ত: বিতরণকৃত কম্পিউটিং কর্মক্ষমতা হ্রাস করতে পারে, ঐতিহ্যবাহী জ্ঞান চ্যালেঞ্জ করে
ক্যাশ হিট রেট বিশ্লেষণ: 99.9% হিট রেট প্রয়োজনীয়তার অবাস্তবতা প্রকাশ করে
সময় বিয়োজন: I/O থেকে যোগাযোগে বাধা স্থানান্তরের প্রক্রিয়া স্পষ্টভাবে প্রদর্শন করে
অ্যাপ্লিকেশন পার্থক্য: বিভিন্ন অ্যাপ্লিকেশন এবং প্যারামিটারের প্রভাব প্রক্রিয়া গভীরভাবে বিশ্লেষণ করে

4. লেখা স্পষ্ট কাঠামো সম্পূর্ণ

পটভূমি পরিচয় যথেষ্ট: FHE কর্মপ্রবাহ এবং ডেটা সম্প্রসারণ বিস্তারিত ব্যাখ্যা করে
চার্ট সমৃদ্ধ: 11 চার্ট কার্যকরভাবে যুক্তি সমর্থন করে
যুক্তি কঠোর: সমস্যা→পরীক্ষা→আবিষ্কার→দিকনির্দেশনা, স্তর স্পষ্ট
পুনরুৎপাদনযোগ্যতা প্রতিশ্রুতি: ট্রেস এবং সফটওয়্যার প্রকাশ্য করার প্রতিশ্রুতি দেয়

অপূর্ণতা

1. পরীক্ষামূলক সীমাবদ্ধতা

অনুকরণ বনাম পরিমাপ: SimGrid অনুকরণ সম্ভবত বাস্তব হার্ডওয়্যার আচরণ সম্পূর্ণভাবে ক্যাপচার করতে পারে না (যেমন ক্যাশ সামঞ্জস্য, শিডিউলিং বিলম্ব)
অ্যাপ্লিকেশন কভারেজ সংকীর্ণ: মাত্র দুটি অ্যাপ্লিকেশন, FHE অ্যাপ্লিকেশন ইকোসিস্টেম সম্পূর্ণভাবে প্রতিনিধিত্ব করতে কঠিন
একক FHE স্কিম: CKKS শুধুমাত্র ভাসমান-বিন্দু সংখ্যার জন্য, পূর্ণসংখ্যা স্কিম (BGV, BFV) বা বাইনারি স্কিম (TFHE, FHEW) মূল্যায়ন করা হয়নি
স্ট্যাটিক লোড: ব্যবহারকারী অনুরোধ গতিশীল আগমন, লোড ওঠানামা, অগ্রাধিকার বিবেচনা করা হয়নি

2. বিশ্লেষণ গভীরতা উন্নত করা যায়

তাত্ত্বিক মডেল অনুপস্থিত: I/O খরচ এবং সিস্টেম প্যারামিটারের মধ্যে গাণিতিক মডেল প্রতিষ্ঠা করা হয়নি
প্রিফেচ কৌশল গভীর নয়: বিভিন্ন প্রিফেচ কৌশলের প্রভাব বিস্তারিত বিশ্লেষণ করা হয়নি
ক্যাশ ব্যবস্থাপনা সরলীকৃত: জটিল ক্যাশ প্রতিস্থাপন কৌশল এবং বহু-স্তরের ক্যাশ বিবেচনা করা হয়নি
শক্তি বিশ্লেষণ অনুপস্থিত: I/O খরচের শক্তি খরচের উপর প্রভাব অন্তর্ভুক্ত করা হয়নি

3. সমাধান প্রাথমিক

ভবিষ্যত দিকনির্দেশনা বিস্তারিত অনুপস্থিত: তিনটি দিকনির্দেশনা শুধুমাত্র ধারণাগত বর্ণনা, নির্দিষ্ট ডিজাইন অনুপস্থিত
প্রোটোটাইপ যাচাইকরণ নেই: ডেটা-কাছাকাছি প্রক্রিয়াকরণ ইত্যাদি সমাধান প্রোটোটাইপ যাচাইকরণ সম্ভাব্যতা বাস্তবায়ন করা হয়নি
ট্রেড-অফ বিশ্লেষণ অপর্যাপ্ত: প্রতিটি সমাধানের খরচ, জটিলতা, প্রযোজ্য পরিস্থিতি সম্পূর্ণভাবে আলোচনা করা হয়নি

4. পরীক্ষামূলক সেটআপ সমস্যা

Sharp সিমুলেটর নির্ভরতা: মূল পেপার সিমুলেটরের উপর নির্ভর করে, এর নির্ভুলতা যাচাই করা যায় না
নেটওয়ার্ক মডেল সরলীকৃত: তারকা টপোলজি বাস্তব ডেটা সেন্টার নেটওয়ার্ক প্রতিনিধিত্ব করে না (যেমন Clos, Fat-tree)
নিরাপত্তা বিবেচনা করা হয়নি: বহু-ব্যবহারকারী মধ্যে বিচ্ছিন্নতা, পার্শ্ব-চ্যানেল আক্রমণ ইত্যাদি নিরাপত্তা সমস্যা অন্তর্ভুক্ত করা হয়নি

প্রভাব

ক্ষেত্রের অবদান

প্যারাডাইম পরিবর্তন: FHE গবেষণা ফোকাস বিশুদ্ধ গণনা থেকে সিস্টেম স্তরে প্রসারিত করে
সতর্কতা প্রভাব: গবেষকদের I/O বাধা মনোযোগ দিতে সতর্ক করে, গণনা অত্যধিক অপ্টিমাইজেশন এড়ায়
বেঞ্চমার্ক ডেটা: বিভিন্ন কনফিগারেশনে কর্মক্ষমতা ডেটা প্রদান করে, পরবর্তী গবেষণার জন্য রেফারেন্স হিসাবে কাজ করে
গবেষণা উদ্দীপনা: তিনটি ভবিষ্যত দিকনির্দেশনা সিরিজ পরবর্তী কাজ অনুপ্রাণিত করতে পারে

ব্যবহারিক মূল্য

স্থাপনা নির্দেশনা: ক্লাউড সেবা প্রদানকারীদের FHE স্থাপনের জন্য পরিমাণগত প্রমাণ প্রদান করে
আর্কিটেকচার ডিজাইন: পরবর্তী প্রজন্মের FHE ত্বরক I/O সাবসিস্টেম ডিজাইন নির্দেশনা দেয়
প্যারামিটার নির্বাচন: অ্যাপ্লিকেশন ডেভেলপারদের I/O বৈশিষ্ট্যের উপর ভিত্তি করে FHE প্যারামিটার নির্বাচন করতে সাহায্য করে
খরচ মূল্যায়ন: FHE ক্লাউড সেবা মূল্য নির্ধারণের জন্য কর্মক্ষমতা পূর্বাভাস প্রদান করে

পুনরুৎপাদনযোগ্যতা

ওপেন সোর্স প্রতিশ্রুতি: ট্রেস এবং সফটওয়্যার প্রকাশ্য করা হবে, যাচাইকরণ এবং সম্প্রসারণ সহজতর করে
বিস্তারিত কনফিগারেশন: পরীক্ষামূলক সেটআপ বর্ণনা যথেষ্ট, পুনরুৎপাদন সম্ভব
জনসাধারণের কোড নির্ভরতা: TensorFHE জনসাধারণের বাস্তবায়ন ব্যবহার করে
কিন্তু চ্যালেঞ্জ বিদ্যমান: Sharp সিমুলেটর প্রকাশ্য নয়, সম্পূর্ণ পুনরুৎপাদন কঠিন

প্রযোজ্য পরিস্থিতি

উপযুক্ত পরিস্থিতি

ক্লাউড FHE সেবা পরিকল্পনা: ক্লাউড সেবা প্রদানকারীরা FHE সেবা সম্ভাব্যতা এবং সম্পদ প্রয়োজনীয়তা মূল্যায়ন করে
FHE ত্বরক ডিজাইন: হার্ডওয়্যার ডিজাইনকারীরা গণনা ক্ষমতা এবং I/O সাবসিস্টেম ভারসাম্য রাখে
অ্যাপ্লিকেশন অপ্টিমাইজেশন: FHE অ্যাপ্লিকেশন ডেভেলপাররা I/O বৈশিষ্ট্যের উপর ভিত্তি করে অ্যালগরিদম অপ্টিমাইজ করে
সিস্টেম গবেষণা: স্টোরেজ সিস্টেম গবেষকরা FHE এর বিশেষ I/O প্যাটার্ন অন্বেষণ করে

কম উপযুক্ত পরিস্থিতি

একক-ব্যবহারকারী পরিস্থিতি: এই পেপার বহু-ব্যবহারকারী ক্লাউড পরিবেশ ফোকাস করে, একক ব্যবহারকারী I/O সীমাবদ্ধতা দ্বারা প্রভাবিত নাও হতে পারে
ছোট-স্কেল ডেটা: ডেটা সম্পূর্ণভাবে HBM-এ ফিট করলে, I/O প্রভাব ছোট
অ-CKKS স্কিম: অন্যান্য FHE স্কিম বিভিন্ন I/O বৈশিষ্ট্য থাকতে পারে
এজ কম্পিউটিং: এজ ডিভাইসের সম্পদ সীমাবদ্ধতা এবং ব্যবহার প্যাটার্ন ক্লাউড থেকে ভিন্ন

সম্ভাব্য সম্প্রসারণ দিকনির্দেশনা

বাস্তব হার্ডওয়্যার যাচাইকরণ: বাস্তব ক্লাউড পরিবেশে স্থাপনা এবং পরিমাপ করে
আরও FHE স্কিম: BGV, BFV, TFHE ইত্যাদিতে সম্প্রসারিত করে
আরও অ্যাপ্লিকেশন: ডাটাবেস প্রশ্ন, জিনোম বিশ্লেষণ, আর্থিক গণনা ইত্যাদি
গতিশীল লোড: বাস্তব ব্যবহারকারী অনুরোধ আগমন প্যাটার্ন অনুকরণ করে
নিরাপত্তা বিশ্লেষণ: I/O অপ্টিমাইজেশন পার্শ্ব-চ্যানেল আক্রমণের প্রভাব
প্রোটোটাইপ বাস্তবায়ন: ডেটা-কাছাকাছি প্রক্রিয়াকরণ FHE স্টোরেজ ডিভাইস প্রোটোটাইপ বাস্তবায়ন করে
তাত্ত্বিক মডেলিং: I/O খরচের কর্মক্ষমতা মডেল প্রতিষ্ঠা করে
শিডিউলিং অ্যালগরিদম: locality-aware FHE কাজ শিডিউলার ডিজাইন করে

রেফারেন্স

পেপারটি 46টি রেফারেন্স উদ্ধৃত করে, মূল রেফারেন্স অন্তর্ভুক্ত:

FHE ত্বরক

29 Sharp (ISCA'23): সবচেয়ে উন্নত ASIC ত্বরক, এই পেপারের প্রধান তুলনা বস্তু
21 TensorFHE (HPCA'23): GPU ত্বরণ সমাধান
30 ARK (MICRO'22): ডেটা পুনঃব্যবহার অপ্টিমাইজেশন প্রস্তাব করে
40 CraterLake (ISCA'22): প্রাথমিক ASIC ডিজাইন

FHE স্কিম

15 CKKS: ভাসমান-বিন্দু সংখ্যা সমর্থন করে এমন FHE স্কিম, এই পেপার গ্রহণ করে
12 BGV: পূর্ণসংখ্যা FHE স্কিম
11,20 BFV: অন্য পূর্ণসংখ্যা স্কিম
16 TFHE: বাইনারি FHE স্কিম

অ্যাপ্লিকেশন

24 HELR: লজিস্টিক রিগ্রেশন প্রশিক্ষণ
34 ResNet-20: CNN অনুমান

সিস্টেম সরঞ্জাম

13 SimGrid: বিতরণকৃত সিস্টেম সিমুলেটর

সামগ্রিক মূল্যায়ন: এটি একটি অনন্য দৃষ্টিকোণ, কঠোর পরীক্ষা, গুরুত্বপূর্ণ আবিষ্কার সহ একটি সিস্টেম গবেষণা পেপার। এটি FHE গবেষণায় I/O বাধা এই মূল শূন্যতা পূরণ করে, FHE এর বাস্তব স্থাপনার জন্য গুরুত্বপূর্ণ সতর্কতা এবং নির্দেশনা প্রদান করে। যদিও অনুকরণ পরীক্ষা, সীমিত অ্যাপ্লিকেশন কভারেজ ইত্যাদি সীমাবদ্ধতা রয়েছে, তবে এর মূল অবদান—I/O বাধার গুরুত্ব প্রকাশ করা—উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে। পেপারটি প্রস্তাবিত তিনটি ভবিষ্যত দিকনির্দেশনা, বিশেষত ডেটা-কাছাকাছি প্রক্রিয়াকরণ, FHE সিস্টেম গবেষণার নতুন দিকনির্দেশনা নেতৃত্ব দিতে পারে। ক্লাউড সেবা প্রদানকারী, হার্ডওয়্যার ডিজাইনকারী এবং FHE অ্যাপ্লিকেশন ডেভেলপারদের জন্য, এটি একটি অবশ্য-পড়া সাহিত্য।