This paper pioneers a novel data-centric paradigm to maximize the utility of unlabeled data, tackling a critical question: How can we enhance the efficiency and sustainability of deep learning training by optimizing the data itself? We begin by identifying three key limitations in existing model-centric approaches, all rooted in a shared bottleneck: knowledge extracted from data is locked to model parameters, hindering its reusability and scalability. To this end, we propose CoOpt, a highly efficient, parallelized framework for collaborative unlabeled data optimization, thereby effectively encoding knowledge into the data itself. By distributing unlabeled data and leveraging publicly available task-agnostic models, CoOpt facilitates scalable, reusable, and sustainable training pipelines. Extensive experiments across diverse datasets and architectures demonstrate its efficacy and efficiency, achieving 13.6% and 6.8% improvements on Tiny-ImageNet and ImageNet-1K, respectively, with training speedups of $1.94 \times $ and $1.2 \times$.
- পেপার আইডি: 2505.14117
- শিরোনাম: Beyond Model-Centric: Collaborative Data Optimization for Reusing and Sharing
- লেখক: Xinyi Shang (UCL), Peng Sun (Zhejiang University & Westlake University), Fengyuan Liu (USTC), Tao Lin (Westlake University)
- শ্রেণীবিভাগ: cs.LG cs.AI
- প্রকাশনার সময়/সম্মেলন: প্রি-প্রিন্ট (arXiv:2505.14117v2)
- পেপার লিঙ্ক: https://arxiv.org/abs/2505.14117v2
এই পেপারটি একটি উদ্ভাবনী ডেটা-কেন্দ্রিক প্যারাডাইম প্রবর্তন করে যা অলেবেলড ডেটার উপযোগিতা সর্বাধিক করার লক্ষ্যে কাজ করে। এটি একটি গুরুত্বপূর্ণ প্রশ্নের সমাধান করে: কীভাবে ডেটা নিজেই অপটিমাইজ করে গভীর শিক্ষার প্রশিক্ষণের স্থায়িত্ব এবং দক্ষতা বৃদ্ধি করা যায়? লেখকরা প্রথমে বিদ্যমান মডেল-কেন্দ্রিক পদ্ধতির দুটি মূল সীমাবদ্ধতা চিহ্নিত করেন, যা একটি সাধারণ বাধা থেকে উদ্ভূত: ডেটা থেকে নিষ্কাশিত জ্ঞান মডেল পরামিতিতে আবদ্ধ থাকে, যা এর পুনর্ব্যবহারযোগ্যতা এবং স্কেলেবিলিটি বাধাগ্রস্ত করে। এই উদ্দেশ্যে, তারা COOPT প্রস্তাব করেন - একটি দক্ষ সমান্তরালকৃত সহযোগিতামূলক অলেবেলড ডেটা অপটিমাইজেশন ফ্রেমওয়ার্ক। বিতরণকৃত অলেবেলড ডেটা প্রক্রিয়াকরণ এবং জনসাধারণের জন্য উপলব্ধ কাজ-অজ্ঞেয় পূর্ববর্তী মডেল ব্যবহার করে, COOPT কাঁচা অলেবেলড ডেটাকে জ্ঞান-সমৃদ্ধ প্রশিক্ষণ সেটে রূপান্তরিত করে যা কার্যকর, দক্ষ, পুনর্ব্যবহারযোগ্য এবং সহজে শেয়ারযোগ্য। ImageNet-1K-তে BYOL-এর তুলনায় 7.9% উন্নতি অর্জন করা হয়েছে।
বিগ ডেটা যুগে, যদিও ডেটা প্রচুর, তবুও বেশিরভাগ ডেটা এখনও অলেবেলড। অলেবেলড ডেটা ব্যবহারের বর্তমান প্রধান প্যারাডাইম হল স্ব-তত্ত্বাবধানী শিক্ষা (SSL), যা একটি মডেল-কেন্দ্রিক পদ্ধতি যা সাবধানে ডিজাইন করা প্রক্সি কাজ এবং ক্ষতি ফাংশনের মাধ্যমে ডেটা তথ্য মডেল পরামিতিতে এনকোড করে।
বিদ্যমান মডেল-কেন্দ্রিক পদ্ধতিতে দুটি মূল চ্যালেঞ্জ রয়েছে:
- স্থাপত্য সংযোগ: প্রশিক্ষণ প্রোটোকল নির্দিষ্ট নেটওয়ার্ক আর্কিটেকচারের সাথে ঘনিষ্ঠভাবে সংযুক্ত, যা প্রশিক্ষিত মডেলের অন্যান্য আর্কিটেকচারে স্থানান্তরযোগ্যতা এবং পুনর্ব্যবহারযোগ্যতা গুরুতরভাবে বাধাগ্রস্ত করে
- গণনামূলক দক্ষতা সমস্যা: ত্বরণে অগ্রগতি সত্ত্বেও, বড় আকারের অলেবেলড ডেটাসেটে প্রশিক্ষণ গণনামূলকভাবে নিষিদ্ধ থাকে
এই চ্যালেঞ্জগুলির মূল হল একটি সাধারণ বাধা: ডেটা থেকে নিষ্কাশিত জ্ঞান মডেল পরামিতিতে আবদ্ধ থাকে, যা এর অভিযোজনযোগ্যতা সীমিত করে এবং বিভিন্ন কাজ বা আর্কিটেকচার জুড়ে দক্ষ পুনর্ব্যবহার প্রতিরোধ করে।
মডেল-কেন্দ্রিক প্যারাডাইম অতিক্রম করার জন্য, লেখকরা একটি ডেটা-কেন্দ্রিক প্যারাডাইম প্রস্তাব করেন যা অলেবেলড ডেটা অপটিমাইজেশনের উদ্দেশ্য সরাসরি অপটিমাইজ করে জ্ঞান মডেল পরামিতির পরিবর্তে ডেটা নিজেই এনকোড করতে।
- COOPT ফ্রেমওয়ার্ক প্রস্তাব: অলেবেলড ডেটার সহযোগিতামূলক অপটিমাইজেশনের জন্য প্রথম ডেটা-কেন্দ্রিক ফ্রেমওয়ার্ক, যা কাজ-অজ্ঞেয় পূর্ববর্তী মডেল ব্যবহার করে কাঁচা অলেবেলড নমুনাকে অপটিমাইজড ডেটায় রূপান্তরিত করে, উচ্চ কর্মক্ষমতা, উচ্চ দক্ষতা, শক্তিশালী সাধারণীকরণ এবং পুনর্ব্যবহারযোগ্যতা অর্জন করে
- লক্ষ্য বিতরণ অসামঞ্জস্য সমস্যা চিহ্নিত এবং সমাধান: COOPT ফ্রেমওয়ার্কের মধ্যে একটি মূল সমস্যা চিহ্নিত করা - লক্ষ্য বিতরণ অসামঞ্জস্য (Target Distribution Inconsistency), এবং এটি সমাধানের জন্য একটি হালকা লক্ষ্য সারিবদ্ধকরণ কৌশল প্রবর্তন করা
- ব্যাপক পরীক্ষামূলক যাচাইকরণ: একাধিক ডেটাসেট এবং মডেলে ব্যাপক পরীক্ষা পরিচালনা করা, COOPT-এর সুবিধা যাচাই করা, এমনকি সমস্ত পূর্ববর্তী মডেল দুর্বল হলেও COOPT প্রশিক্ষণের প্রাথমিক পর্যায়কে কার্যকরভাবে ত্বরান্বিত করতে পারে তা প্রমাণ করা
ডেটা অপটিমাইজেশন সংজ্ঞা: বড় আকারের অলেবেলড ডেটাসেট D=DX={xi}i=1N দেওয়া, ডেটা অপটিমাইজেশন এর লক্ষ্য হল এটিকে লক্ষ্য DY={yi}i=1N বরাদ্দ করা যাতে একটি সর্বোত্তম লেবেলযুক্ত ডেটাসেট D′={(xi,yi)}i=1N তৈরি করা যায়, যাতে D′-তে প্রশিক্ষিত মডেল উল্লেখযোগ্যভাবে কম প্রশিক্ষণ খরচে D-তে প্রশিক্ষিত মডেলের চেয়ে উচ্চতর কর্মক্ষমতা অর্জন করতে পারে।
উদ্দেশ্য ফাংশন:
E(x,y)∼PT[ℓ(ϕθD(x),y)]>E(x,y)∼PT[ℓ(ϕθD′(x),y)]
যেখানে PT হল পরীক্ষা বিতরণ, ℓ হল ক্ষতি ফাংশন, এবং θD এবং θD′ যথাক্রমে D এবং D′-তে প্রশিক্ষিত নেটওয়ার্ক পরামিতি।
COOPT একটি সহযোগিতামূলক সমান্তরালকৃত ফ্রেমওয়ার্ক যা একটি খোলা ডেটা প্ল্যাটফর্ম এবং K জন অংশগ্রহণকারী নিয়ে গঠিত, প্রতিটি অংশগ্রহণকারী বিভিন্ন পূর্ববর্তী মডেল দিয়ে সজ্জিত।
ধাপ 1: ডেটা বিতরণ
- খোলা ডেটা প্ল্যাটফর্ম অলেবেলড ডেটা D কে K টি অ-ওভারল্যাপিং সাবসেটে এলোমেলোভাবে বিভক্ত করে
- প্রতিটি অংশগ্রহণকারী একটি সাবসেট D(k) ডাউনলোড করে
ধাপ 2: ডেটা অপটিমাইজেশন
- প্রতিটি অংশগ্রহণকারী তাদের নিজস্ব ডেটাসেট D(k) অপটিমাইজ করতে পূর্ববর্তী মডেল ψk ব্যবহার করে
- সংজ্ঞা 1 অনুযায়ী লক্ষ্য বরাদ্দ: D′={(xi,yi)∣yi=Wψ(xi),∀xi∈DX}
ধাপ 3: ডেটা সারিবদ্ধকরণ
- লক্ষ্য বিতরণ অসামঞ্জস্য সমস্যা সমাধান করা
- শিখনযোগ্য রূপান্তর ম্যাট্রিক্স T(k) ব্যবহার করে লক্ষ্য বিতরণকে সর্বোত্তম পূর্ববর্তী মডেলে সারিবদ্ধ করা
ধাপ 4: ডেটা আপলোড
- অংশগ্রহণকারীরা অপটিমাইজড ডেটাসেট প্ল্যাটফর্মে ফেরত আপলোড করে
ধাপ 5: ডেটা একীকরণ
- প্ল্যাটফর্ম একটি একীভূত ডেটাসেট গঠনের জন্য সমস্ত অপটিমাইজড ডেটাসেট একত্রিত করে
সহযোগিতামূলক ফ্রেমওয়ার্কে, বিভিন্ন অংশগ্রহণকারী বিভিন্ন পূর্ববর্তী মডেল ব্যবহার করে লক্ষ্য বিতরণ অসামঞ্জস্য সৃষ্টি করে, যা মডেল সাধারণীকরণ ক্ষমতা প্রভাবিত করে।
সমানতা ক্ষতি (Uniform Value Loss) ব্যবহার করে পূর্ববর্তী মডেল গুণমান মূল্যায়ন করা:
Vuniform(ψ;S)=logExi,xj∼S[eτ∥ψ(xi)−ψ(xj)∥22]
যেখানে কম সমানতা মান উচ্চতর গুণমানের পূর্ববর্তী মডেল নির্দেশ করে।
রূপান্তর ম্যাট্রিক্স অপটিমাইজ করে লক্ষ্য সারিবদ্ধকরণ অর্জন করা:
T(k)=argminT∈Rn×n{∥T⋅ψ(k)(SX)−SY∗∥22}
যেখানে SY∗ হল সর্বোত্তম পূর্ববর্তী মডেলের ভাগ করা ডেটাসেটে লক্ষ্য।
- ImageNet-1K (224×224)
- Tiny-ImageNet (64×64)
- CIFAR-100 (32×32)
- CIFAR-10 (32×32)
- নির্ভুলতা: প্রতিনিধিত্ব গুণমান মূল্যায়নের জন্য অফলাইন রৈখিক অনুসন্ধান কৌশল ব্যবহার করা
- গণনামূলক দক্ষতা: সময় খরচ (সেকেন্ড) দ্বারা পরিমাপ করা
অত্যাধুনিক স্ব-তত্ত্বাবধানী শিক্ষা পদ্ধতির সাথে তুলনা:
- SimCLR, BYOL, DINO, MoCo, SimSiam, SwAV, DCL
- 4টি NVIDIA RTX 4090 GPU ব্যবহার করা
- পূর্ববর্তী মডেল: একাধিক প্রশিক্ষিত CLIP মডেল
- অপটিমাইজার: AdamW
- ব্যাচ আকার: 128 (ImageNet-1K-এর জন্য 256)
- 3টি র্যান্ডম বীজ ব্যবহার করে গড় এবং বৈচিত্র্য রিপোর্ট করা
স্ব-তত্ত্বাবধানী শিক্ষা পদ্ধতির সাথে তুলনা (সারণী 1):
- CIFAR-10: 89.5% বনাম BYOL 82.8% (↑5.6%), প্রশিক্ষণ গতি 1.87× বৃদ্ধি
- CIFAR-100: 67.3% বনাম DCL 58.2% (↑9.1%), প্রশিক্ষণ গতি 1.95× বৃদ্ধি
- Tiny-ImageNet: 60.3% বনাম DCL 44.6% (↑15.7%), প্রশিক্ষণ গতি 1.94× বৃদ্ধি
- ImageNet-1K: 69.8% বনাম BYOL 61.9% (↑7.9%), প্রশিক্ষণ গতি 1.20× বৃদ্ধি
কেন্দ্রীভূত অপটিমাইজেশনের সাথে তুলনা (সারণী 2):
- COOPT CIFAR-100-তে: 65.8% বনাম কেন্দ্রীভূত 62.1%
- প্রশিক্ষণ সময়: 16.31s বনাম 23.71s
ক্রস-আর্কিটেকচার সাধারণীকরণ (সারণী 3):
COOPT একাধিক নেটওয়ার্ক আর্কিটেকচারে BYOL-এর চেয়ে উল্লেখযোগ্যভাবে উন্নত:
- ResNet-50: 63.8% বনাম 60.4%
- ResNet-101: 65.7% বনাম 61.5%
- MobileNet-v2: 58.1% বনাম 24.0%
- EfficientNet-b0: 70.7% বনাম 2.3%
- ViT: 57.8% বনাম 38.5%
লক্ষ্য সারিবদ্ধকরণের প্রয়োজনীয়তা:
- সারিবদ্ধকরণ ছাড়া: কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস পায়
- সর্বোত্তম মডেলে সারিবদ্ধকরণ: 16.9% কর্মক্ষমতা উন্নতি
- সারিবদ্ধকরণ কৌশলের কার্যকারিতা t-SNE ভিজ্যুয়ালাইজেশনের মাধ্যমে যাচাই করা
ভাগ করা ডেটা আকারের প্রভাব:
- মাত্র 0.05% ভাগ করা ডেটা ভাল ফলাফল অর্জনের জন্য প্রয়োজন
- ImageNet-1K-তে, 0.001% ডেটা যথেষ্ট
গণনামূলক ওভারহেড:
- সমানতা মূল্যায়ন: 139.16s
- সারিবদ্ধকরণ প্রক্রিয়া: 36.97s
- BYOL-এর 133,766.19s-এর তুলনায়, ওভারহেড অত্যন্ত ছোট
- দুর্বল পূর্ববর্তী মডেল এখনও কার্যকর: এমনকি সমস্ত পূর্ববর্তী মডেল দুর্বল হলেও, COOPT প্রশিক্ষণের প্রাথমিক পর্যায়কে উল্লেখযোগ্যভাবে ত্বরান্বিত করতে পারে
- ক্রমাগত অপটিমাইজেশন সম্ভাবনা: পূর্ববর্তী মডেল বিকশিত হওয়ার সাথে সাথে ডেটা গুণমান ক্রমাগত উন্নত হয়, 10 রাউন্ডের পরে 4.6% কর্মক্ষমতা উন্নতি অর্জন করা
- পূর্ববর্তী ডেটাসেট প্রভাব: ImageNet-1K-তে প্রশিক্ষিত পূর্ববর্তী মডেল ব্যবহার করে সমস্ত ডেটাসেটে উল্লেখযোগ্য উন্নতি অর্জন করা
মডেল-কেন্দ্রিক পদ্ধতি, প্রক্সি কাজের মাধ্যমে প্রতিনিধিত্ব শিখা:
- InstDisc: উদাহরণ বৈষম্য
- MoCo: গতিবেগ বৈপরীত্য
- SimCLR: সহজ বৈপরীত্য শিক্ষা ফ্রেমওয়ার্ক
- BYOL: স্ব-বুটস্ট্র্যাপিং শিক্ষা
শিক্ষক মডেল দ্বারা উত্পাদিত নরম লেবেল ব্যবহার করে শিক্ষার্থী প্রশিক্ষণ উন্নত করা, কিন্তু জ্ঞান এখনও মডেল পরামিতিতে আবদ্ধ থাকে।
সংক্ষিপ্ত পাতিত ডেটাসেট শিখা, প্রধানত লেবেলযুক্ত ডেটার অপটিমাইজেশনে ফোকাস করা।
- COOPT সফলভাবে মডেল-কেন্দ্রিক প্যারাডাইমের সীমাবদ্ধতা অতিক্রম করে, ডেটা-কেন্দ্রিক সহযোগিতামূলক অপটিমাইজেশন অর্জন করে
- অপটিমাইজড ডেটা স্থাপত্য-অজ্ঞেয়, পুনর্ব্যবহারযোগ্য এবং দক্ষ
- এমনকি পূর্ববর্তী মডেল দুর্বল হলেও, এখনও প্রশিক্ষণ কার্যকরভাবে ত্বরান্বিত করতে পারে
- যখন সমস্ত পূর্ববর্তী মডেল অত্যন্ত দুর্বল হয়, সামগ্রিক কর্মক্ষমতা অনিবার্যভাবে হ্রাস পায়
- গোপনীয়তা সুরক্ষা ব্যবস্থা আরও উন্নত করা প্রয়োজন
- বর্তমানে প্রধানত খোলা অলেবেলড ডেটার অপটিমাইজেশনে ফোকাস করা
- অত্যন্ত দুর্বল পূর্ববর্তী মডেল দ্বারা অপটিমাইজড ডেটা কার্যকরভাবে ব্যবহার করার জন্য আরও উন্নত কৌশল বিকাশ করা
- গোপনীয়তা সুরক্ষা ব্যবস্থা উন্নত করা
- আরও ধরনের ডেটা এবং কাজে সম্প্রসারণ করা
- প্যারাডাইম উদ্ভাবন: মডেল-কেন্দ্রিক থেকে ডেটা-কেন্দ্রিকে রূপান্তর, গুরুত্বপূর্ণ তাত্ত্বিক তাৎপর্য রয়েছে
- ব্যবহারিক মূল্য: জ্ঞান পুনর্ব্যবহারযোগ্যতা এবং প্রশিক্ষণ দক্ষতার ব্যবহারিক সমস্যা সমাধান করে
- সিস্টেমেটিক পদ্ধতি: সম্পূর্ণ সহযোগিতামূলক অপটিমাইজেশন ফ্রেমওয়ার্ক প্রদান করে, সমস্যা চিহ্নিতকরণ এবং সমাধান অন্তর্ভুক্ত করে
- পর্যাপ্ত পরীক্ষা: একাধিক ডেটাসেট এবং আর্কিটেকচারে ব্যাপক যাচাইকরণ পরিচালনা করা
- অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: ডেটা অপটিমাইজেশন কেন কার্যকর তার গভীর তাত্ত্বিক বিশ্লেষণের অভাব
- সীমিত গোপনীয়তা বিবেচনা: যদিও গোপনীয়তা সমস্যা উল্লেখ করা হয়, সমাধান যথেষ্ট নয়
- পূর্ববর্তী মডেল নির্ভরতা: পদ্ধতির কার্যকারিতা পূর্ববর্তী মডেল গুণমানের উপর গুরুতরভাবে নির্ভর করে
- স্কেলেবিলিটি যাচাইকরণ: বৃহত্তর আকারের ডেটাসেটে স্কেলেবিলিটি যাচাই করা প্রয়োজন
- একাডেমিক অবদান: অলেবেলড ডেটা ব্যবহারের জন্য নতুন চিন্তাভাবনা প্রদান করে, সম্ভবত প্যারাডাইম পরিবর্তন ঘটাতে পারে
- ব্যবহারিক মূল্য: সম্পদ-সীমিত পরিস্থিতিতে গুরুত্বপূর্ণ প্রয়োগ মূল্য রয়েছে
- পুনরুৎপাদনযোগ্যতা: লেখকরা কোড প্রকাশ করার প্রতিশ্রুতি দেন, ফলাফল পুনরুৎপাদনে সহায়তা করে
- বিতরণকৃত সম্পদ পরিস্থিতি: একাধিক পক্ষের সহযোগিতা কিন্তু সম্পদ বিক্ষিপ্ত
- ঘন ঘন মডেল পরিবর্তন: জ্ঞান ক্রস-আর্কিটেকচার পুনর্ব্যবহার করা প্রয়োজন এমন পরিস্থিতি
- বড় আকারের অলেবেলড ডেটা: ঐতিহ্যবাহী স্ব-তত্ত্বাবধানী শিক্ষার খরচ অত্যধিক এমন পরিস্থিতি
এই পেপারটি স্ব-তত্ত্বাবধানী শিক্ষা, জ্ঞান পাতন এবং ডেটাসেট পাতন ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
- Chen et al. (2020): SimCLR
- Grill et al. (2020): BYOL
- He et al. (2020): MoCo
- Wang & Isola (2020): বৈপরীত্য প্রতিনিধিত্ব শিক্ষার তাত্ত্বিক ভিত্তি
- Sun et al. (2024): RELA পদ্ধতির তাত্ত্বিক যাচাইকরণ