2025-11-24T17:34:17.619375

Same model, better performance: the impact of shuffling on DNA Language Models benchmarking

Greco, Rawlik
Large Language Models are increasingly popular in genomics due to their potential to decode complex biological sequences. Hence, researchers require a standardized benchmark to evaluate DNA Language Models (DNA LMs) capabilities. However, evaluating DNA LMs is a complex task that intersects genomic's domain-specific challenges and machine learning methodologies, where seemingly minor implementation details can significantly compromise benchmark validity. We demonstrate this through BEND (Benchmarking DNA Language Models), where hardware-dependent hyperparameters -- number of data loading workers and buffer sizes -- create spurious performance variations of up to 4% for identical models. The problem stems from inadequate data shuffling interacting with domain specific data characteristics. Experiments with three DNA language models (HyenaDNA, DNABERT-2, ResNet-LM) show these artifacts affect both absolute performance and relative model rankings. We propose a simple solution: pre-shuffling data before storage eliminates hardware dependencies while maintaining efficiency. This work highlights how standard ML practices can interact unexpectedly with domain-specific data characteristics, with broader implications for benchmark design in specialized domains.
academic

समान मॉडल, बेहतर प्रदर्शन: DNA भाषा मॉडल बेंचमार्किंग पर शफलिंग का प्रभाव

बुनियादी जानकारी

  • पेपर ID: 2510.12617
  • शीर्षक: Same model, better performance: the impact of shuffling on DNA Language Models benchmarking
  • लेखक: Davide Greco, Konrad Rawlik (University of Edinburgh, Baillie Gifford Pandemic Science Hub)
  • वर्गीकरण: q-bio.GN cs.LG
  • प्रकाशन समय: 15 अक्टूबर, 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.12617

सारांश

बड़े भाषा मॉडल जीनोमिक्स में तेजी से लोकप्रिय हो रहे हैं क्योंकि उनमें जटिल जैविक अनुक्रमों को डिकोड करने की क्षमता है। इसलिए, शोधकर्ताओं को DNA भाषा मॉडल (DNA LMs) की क्षमता का मूल्यांकन करने के लिए मानकीकृत बेंचमार्क की आवश्यकता है। हालांकि, DNA LMs का मूल्यांकन एक जटिल कार्य है जिसमें जीनोमिक्स के क्षेत्र-विशिष्ट चुनौतियों और मशीन लर्निंग पद्धति का संयोजन शामिल है, जहां छोटे कार्यान्वयन विवरण बेंचमार्क की वैधता को महत्वपूर्ण रूप से नुकसान पहुंचा सकते हैं। लेखकों ने BEND (DNA भाषा मॉडल बेंचमार्किंग) के माध्यम से यह प्रदर्शित किया है, जहां हार्डवेयर-संबंधित हाइपरपैरामीटर - डेटा लोडिंग वर्कर्स की संख्या और बफर आकार - समान मॉडल के लिए 4% तक का नकली प्रदर्शन परिवर्तन बनाते हैं। समस्या अपर्याप्त डेटा शफलिंग और क्षेत्र-विशिष्ट डेटा विशेषताओं के बीच परस्पर क्रिया से उत्पन्न होती है। तीन DNA भाषा मॉडल (HyenaDNA, DNABERT-2, ResNet-LM) के साथ प्रयोगों से पता चलता है कि ये कलाकृतियां पूर्ण प्रदर्शन और सापेक्ष मॉडल रैंकिंग दोनों को प्रभावित करती हैं। लेखकों ने एक सरल समाधान प्रस्तावित किया है: भंडारण से पहले डेटा को पूर्व-शफल करने से हार्डवेयर निर्भरता समाप्त हो सकती है, जबकि दक्षता बनी रहती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्या

यह अनुसंधान DNA भाषा मॉडल बेंचमार्किंग में कार्यान्वयन पूर्वाग्रह समस्या को हल करने के लिए है। विशेष रूप से:

  1. हार्डवेयर निर्भरता: बेंचमार्क परिणाम हार्डवेयर-संबंधित हाइपरपैरामीटर (वर्कर्स की संख्या, बफर आकार) से प्रभावित होते हैं
  2. अपर्याप्त डेटा शफलिंग: जीनोमिक डेटा की विशेष प्रकृति (स्थानिक निर्भरता, अनुक्रम ओवरलैप) के कारण, मानक मशीन लर्निंग प्रथाएं अप्रत्याशित पूर्वाग्रह उत्पन्न कर सकती हैं
  3. मूल्यांकन निष्पक्षता: विभिन्न कम्प्यूटेशनल संसाधनों वाले शोधकर्ताओं को विभिन्न बेंचमार्क परिणाम मिल सकते हैं, जो मूल्यांकन की निष्पक्षता को नुकसान पहुंचाता है

समस्या की महत्ता

  1. वैज्ञानिक प्रगति का आधार: मानकीकृत बेंचमार्क मशीन लर्निंग विज्ञान की प्रगति का आधार हैं, जो शोधकर्ताओं को विधियों की तुलना करने और सुधार को ट्रैक करने में सक्षम बनाते हैं
  2. उभरते क्षेत्रों की चुनौतियां: जीनोमिक्स जैसे उभरते क्षेत्रों में, क्षेत्र-विशिष्ट ज्ञान दुर्लभ है और बेंचमार्क डिजाइन सिद्धांत अभी भी स्थापित हो रहे हैं
  3. संसाधन निष्पक्षता: यह सुनिश्चित करना कि बेंचमार्क परीक्षण बेहतर कम्प्यूटेशनल संसाधनों वाले शोधकर्ताओं के पक्ष में न हो

मौजूदा विधियों की सीमाएं

BEND बेंचमार्क फ्रेमवर्क हालांकि व्यापक पर्यवेक्षित जीनोमिक कार्यों का एक सेट प्रदान करता है, लेकिन निम्नलिखित समस्याएं हैं:

  1. जटिल डेटा लोडिंग तंत्र को अपनाता है, बड़े डेटासेट को संभालने के लिए दो-स्तरीय शफलिंग रणनीति के माध्यम से
  2. हार्डवेयर-विशिष्ट हाइपरपैरामीटर पर निर्भरता का परिचय देता है
  3. जीनोमिक डेटा की अंतर्निहित विशेषताओं (सतत DNA अनुक्रम नमूनों के बीच महत्वपूर्ण ओवरलैप) के साथ संयुक्त होने पर, अपर्याप्त डेटा शफलिंग की ओर जाता है

मुख्य योगदान

  1. बेंचमार्किंग में व्यवस्थित पूर्वाग्रह की खोज और मात्रा निर्धारण: यह प्रदर्शित किया कि हार्डवेयर-संबंधित हाइपरपैरामीटर समान मॉडल में 4% तक का प्रदर्शन परिवर्तन ला सकते हैं
  2. समस्या विश्लेषण प्रदान करना: WebDataset फ्रेमवर्क में डेटा शफलिंग तंत्र और जीनोमिक डेटा विशेषताओं के बीच परस्पर क्रिया का गहन विश्लेषण
  3. सरल और प्रभावी समाधान प्रस्तावित करना: पूर्व-शफलिंग विधि हार्डवेयर निर्भरता को समाप्त कर सकती है, जबकि सभी कार्यों पर प्रदर्शन बनाए रखता या बढ़ाता है
  4. क्रॉस-आर्किटेक्चर सत्यापन: तीन विभिन्न DNA भाषा मॉडल आर्किटेक्चर पर समस्या की सार्वभौमिकता और समाधान की प्रभावशीलता को सत्यापित किया
  5. बेंचमार्क डिजाइन के लिए सर्वोत्तम प्रथाएं प्रदान करना: विशेषज्ञ क्षेत्रों के बेंचमार्क डिजाइन के लिए ठोस अनुभव और सिफारिशें प्रदान करता है

विधि विवरण

समस्या विश्लेषण

BEND फ्रेमवर्क का डेटा प्रसंस्करण प्रवाह

  1. एम्बेडिंग जनरेशन: संदर्भ जीनोम से DNA अनुक्रम निकाले जाते हैं और भाषा मॉडल का उपयोग करके एम्बेडिंग उत्पन्न किए जाते हैं
  2. डाउनस्ट्रीम मॉडल प्रशिक्षण: उत्पन्न एम्बेडिंग को लेबल के साथ जोड़कर डाउनस्ट्रीम मॉडल को प्रशिक्षित किया जाता है
  3. मूल्यांकन: डाउनस्ट्रीम मॉडल परीक्षण सेट की एम्बेडिंग DNA अनुक्रमों को संसाधित करता है और वास्तविक लेबल के साथ तुलना करता है

WebDataset भंडारण और लोडिंग तंत्र

BEND एम्बेडिंग को भंडारित, लोड और शफल करने के लिए WebDataset फ्रेमवर्क का उपयोग करता है:

  • शार्ड भंडारण: एम्बेडिंग .tar फाइलों (शार्ड्स) में संग्रहीत होते हैं
  • वर्कर आवंटन: प्रत्येक शार्ड को एक एकल वर्कर को आवंटित किया जाता है
  • बफर शफलिंग: प्रत्येक वर्कर के पास अपना बफर है, जो केवल उस वर्कर को आवंटित शार्ड्स में नमूनों को शफल करता है

डेटा एक्सेस पैटर्न विश्लेषण

पेपर विभिन्न कॉन्फ़िगरेशन के तहत डेटा एक्सेस पैटर्न का विश्लेषण करता है:

  • कोई शफलिंग नहीं: डेटा को क्रमिक रूप से एक्सेस किया जाता है
  • BEND (1 वर्कर): शार्ड्स को क्रमिक रूप से एक्सेस किया जाता है, आंतरिक रूप से क्रमिक रूप से पढ़ा जाता है
  • BEND (अधिकतम वर्कर्स): कई शार्ड्स को समानांतर में एक्सेस किया जाता है, बैच के बीच नमूना विविधता में सुधार करता है लेकिन बैच के भीतर विविधता को प्रभावित नहीं करता है
  • पूर्व-शफलिंग: वर्कर्स की संख्या की परवाह किए बिना, अच्छी नमूना विविधता सुनिश्चित करता है

समाधान: पूर्व-शफलिंग विधि

मुख्य विचार

डेटा को शार्ड्स में संग्रहीत करने से पहले डेटा एनोटेशन को शफल करना, यह सुनिश्चित करता है कि डेटासेट के किसी भी हिस्से से नमूने किसी भी शार्ड में संग्रहीत हो सकते हैं।

कार्यान्वयन विवरण

  1. प्रीप्रोसेसिंग चरण: एम्बेडिंग उत्पन्न करने से पहले अनुक्रम एनोटेशन को शफल किया जाता है
  2. भंडारण चरण: शफल किए गए डेटा को शार्ड्स में संग्रहीत किया जाता है
  3. लोडिंग चरण: सामान्य WebDataset लोडिंग प्रक्रिया, लेकिन चूंकि डेटा पहले से शफल है, वर्कर्स की संख्या अब नमूना विविधता को प्रभावित नहीं करती है

लाभ

  1. हार्डवेयर स्वतंत्रता: वर्कर्स की संख्या और बफर आकार पर निर्भरता को समाप्त करता है
  2. दक्षता संरक्षण: BEND के कार्यान्वयन विवरण को नहीं बदलता है, मूल दक्षता बनाए रखता है
  3. प्रदर्शन सुधार: सभी कार्यों पर प्रदर्शन बनाए रखता या सुधारता है

प्रायोगिक सेटअप

डेटासेट

BEND बेंचमार्क फ्रेमवर्क से सात कार्यों का उपयोग किया गया:

  • पर्यवेक्षित कार्य: CpG मेथिलेशन, हिस्टोन संशोधन, क्रोमेटिन एक्सेसिबिलिटी, जीन खोज, एनहांसर एनोटेशन
  • अनुपर्यवेक्षित कार्य: अभिव्यक्ति और रोग के गैर-कोडिंग वेरिएंट प्रभाव भविष्यवाणी

मॉडल

तीन विभिन्न आर्किटेक्चर के DNA भाषा मॉडल का परीक्षण किया गया:

  1. HyenaDNA-tiny-1k: Hyena आर्किटेक्चर पर आधारित मॉडल
  2. DNABERT-2: BERT-आधारित DNA भाषा मॉडल
  3. ResNet-LM: BEND द्वारा प्रस्तावित बेसलाइन मॉडल

मूल्यांकन मेट्रिक्स

  • AUROC: CpG मेथिलेशन और हिस्टोन संशोधन कार्यों के लिए
  • MCC: जीन खोज कार्य के लिए

प्रायोगिक डिजाइन

  1. हाइपरपैरामीटर प्रभाव प्रयोग: विभिन्न वर्कर्स संख्या और बफर आकार के प्रदर्शन प्रभाव की तुलना
  2. क्रॉस-आर्किटेक्चर सत्यापन: तीन मॉडल आर्किटेक्चर पर पूर्व-शफलिंग विधि की प्रभावशीलता को सत्यापित करना
  3. डेटा विशेषता विश्लेषण: विभिन्न कार्यों में सतत अनुक्रमों के ओवरलैप का विश्लेषण

प्रायोगिक परिणाम

मुख्य परिणाम

हाइपरपैरामीटर प्रभाव

तालिका 1: विभिन्न हाइपरपैरामीटर कॉन्फ़िगरेशन के तहत HyenaDNA-tiny-1k के परीक्षण परिणाम

कार्यमेट्रिकअधिकतम वर्कर्स1 वर्कर1000 बफरकोई बफर नहीं
CpG मेथिलेशनAUROC0.8780.868--
हिस्टोन संशोधनAUROC0.7660.756--
जीन खोजMCC--0.1150.076

पूर्व-शफलिंग परिणाम: सभी कॉन्फ़िगरेशन में सर्वोत्तम या निकट-सर्वोत्तम प्रदर्शन प्राप्त किया, हार्डवेयर निर्भरता को समाप्त किया।

क्रॉस-आर्किटेक्चर सत्यापन

तालिका 2: CpG मेथिलेशन कार्य पर तीन मॉडल की तुलना (AUROC)

मॉडलBENDपूर्व-शफलिंगसुधार
HyenaDNA-tiny-1k0.8680.900+3.2%
DNABERT-20.8930.910+1.7%
ResNet-LM0.8900.919+2.9%

मुख्य निष्कर्ष

डेटा ओवरलैप विश्लेषण

तालिका 3: प्रत्येक कार्य में सतत अनुक्रम ओवरलैप

कार्यओवरलैप अनुक्रम प्रतिशतमध्य ओवरलैप न्यूक्लिओटाइड प्रतिशतभारित ओवरलैप प्रतिशत
CpG मेथिलेशन51.88%87.70%45.50%
हिस्टोन संशोधन17.03%19.92%3.39%
जीन खोज7.09%12.39%0.88%
एनहांसर एनोटेशन1.75%49.27%0.86%
क्रोमेटिन एक्सेसिबिलिटी28.29%20.31%5.75%

CpG मेथिलेशन कार्य सर्वोच्च अनुक्रम ओवरलैप दिखाता है, जो यह समझाता है कि यह कार्य पूर्व-शफलिंग से सबसे अधिक लाभान्वित क्यों होता है।

मॉडल रैंकिंग परिवर्तन

पूर्व-शफलिंग न केवल पूर्ण प्रदर्शन में सुधार करता है, बल्कि मॉडल की सापेक्ष रैंकिंग को भी बदलता है:

  • BEND कॉन्फ़िगरेशन के तहत: DNABERT-2 ≈ ResNet-LM > HyenaDNA-tiny-1k
  • पूर्व-शफलिंग के बाद: ResNet-LM > DNABERT-2 > HyenaDNA-tiny-1k

संबंधित कार्य

बेंचमार्किंग फ्रेमवर्क

  • BEND: DNA भाषा मॉडल के लिए पहला विशेषीकृत व्यापक बेंचमार्क फ्रेमवर्क
  • WebDataset: उच्च-प्रदर्शन I/O के लिए बड़े पैमाने पर गहन शिक्षा फ्रेमवर्क

DNA भाषा मॉडल

  • HyenaDNA: दीर्घ-श्रेणी जीनोमिक अनुक्रम मॉडलिंग, एकल न्यूक्लिओटाइड संकल्प
  • DNABERT-2: बहु-प्रजाति जीनोम के लिए कुशल आधार मॉडल
  • ResNet-LM: अवशिष्ट नेटवर्क पर आधारित बेसलाइन मॉडल

बेंचमार्क डिजाइन सर्वोत्तम प्रथाएं

पेपर बेंचमार्क डिजाइन क्षेत्र में व्यावहारिक अनुभव में योगदान देता है, विशेष रूप से विशेषज्ञ क्षेत्रों में जहां मानक ML प्रथाएं अप्रत्याशित परिणाम दे सकती हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. हार्डवेयर निर्भरता समस्या: कम्प्यूटेशनल संसाधन चयन पर आधारित हाइपरपैरामीटर (वर्कर्स की संख्या और बफर आकार) अनजाने में बेंचमार्क परिणामों को प्रभावित करते हैं
  2. आर्किटेक्चर स्वतंत्रता: विभिन्न बैकबोन आर्किटेक्चर के मॉडल उचित शफलिंग से लाभान्वित होते हैं, प्रदर्शन में 4% तक सुधार होता है
  3. रैंकिंग प्रभाव: अनुचित शफलिंग न केवल पूर्ण प्रदर्शन को प्रभावित करता है, बल्कि मॉडल के बीच सापेक्ष रैंकिंग को भी बदलता है
  4. सरल और प्रभावी समाधान: डेटा को पूर्व-शफल करना बेंचमार्क प्रदर्शन को हार्डवेयर-विशिष्ट हाइपरपैरामीटर से अलग करने का एक सरल सुधार है

सीमाएं

  1. विशिष्ट फ्रेमवर्क: अनुसंधान मुख्य रूप से BEND फ्रेमवर्क पर केंद्रित है, अन्य बेंचमार्क फ्रेमवर्क में विभिन्न समस्याएं हो सकती हैं
  2. कार्य कवरेज: हालांकि कई कार्यों का परीक्षण किया गया, लेकिन यह अभी भी BEND द्वारा प्रदान किए गए कार्य सेट तक सीमित है
  3. मॉडल रेंज: केवल तीन मॉडल आर्किटेक्चर का परीक्षण किया गया, सभी प्रकार के DNA भाषा मॉडल को कवर नहीं कर सकता है

भविष्य की दिशाएं

  1. अन्य बेंचमार्क तक विस्तार: खोजी गई समस्याओं और समाधानों को अन्य बायोइनफॉर्मेटिक्स बेंचमार्क पर लागू करना
  2. स्वचालित पहचान: बेंचमार्क कार्यान्वयन में संभावित पूर्वाग्रहों का पता लगाने के लिए उपकरण विकसित करना
  3. सर्वोत्तम प्रथाएं गाइड: विशेषज्ञ क्षेत्रों के बेंचमार्क डिजाइन के लिए अधिक व्यापक दिशानिर्देश तैयार करना

गहन मूल्यांकन

शक्तियां

  1. उच्च व्यावहारिक मूल्य: वास्तविक बेंचमार्क परीक्षण में महत्वपूर्ण समस्या की खोज, तुरंत उपयोग योग्य समाधान प्रदान करता है
  2. गहन विश्लेषण: दृश्य और मात्रात्मक विश्लेषण के माध्यम से समस्या के मूल को स्पष्ट रूप से प्रदर्शित करता है
  3. पर्याप्त सत्यापन: कई मॉडल और कार्यों पर समस्या की सार्वभौमिकता और समाधान की प्रभावशीलता को सत्यापित करता है
  4. स्पष्ट लेखन: पेपर संरचना स्पष्ट है, समस्या विवरण और समाधान दोनों समझने में आसान हैं
  5. ओपन सोर्स योगदान: सार्वजनिक कोड कार्यान्वयन प्रदान करता है

कमियां

  1. समस्या खोज की आकस्मिकता: पेपर समान समस्याओं को रोकने या पहचानने के लिए व्यवस्थित विधि प्रदान नहीं करता है
  2. अपर्याप्त सैद्धांतिक विश्लेषण: यह समझाने में कमी कि कुछ कार्य अन्य की तुलना में अधिक प्रभावित क्यों होते हैं
  3. समाधान की सीमाएं: पूर्व-शफलिंग प्रभावी है, लेकिन सभी प्रकार के अनुक्रम डेटा पर लागू नहीं हो सकता है
  4. कम्प्यूटेशनल लागत विश्लेषण: पूर्व-शफलिंग विधि की कम्प्यूटेशनल ओवरहेड का विस्तृत विश्लेषण नहीं

प्रभाव

  1. क्षेत्र में योगदान: DNA भाषा मॉडल मूल्यांकन के लिए महत्वपूर्ण पद्धति सुधार प्रदान करता है
  2. व्यावहारिक मूल्य: BEND बेंचमार्क की विश्वसनीयता में सीधे सुधार करता है, पूरे अनुसंधान समुदाय को लाभान्वित करता है
  3. पुनरुत्पादनीयता: विस्तृत कार्यान्वयन और ओपन सोर्स कोड प्रदान करता है, पुनरुत्पादन और अनुप्रयोग में आसान है
  4. प्रेरणादायक महत्व: अन्य विशेषज्ञ क्षेत्रों के बेंचमार्क डिजाइन के लिए मूल्यवान अनुभव प्रदान करता है

लागू परिदृश्य

  1. जीनोमिक्स अनुसंधान: BEND बेंचमार्क का उपयोग करने वाले सभी DNA भाषा मॉडल अनुसंधान
  2. अनुक्रम मॉडलिंग: अन्य अनुक्रम ओवरलैप वाले समय श्रृंखला या अनुक्रम मॉडलिंग कार्य
  3. बेंचमार्क डिजाइन: बड़े डेटासेट को संभालने वाले बेंचमार्क फ्रेमवर्क डिजाइन
  4. वितरित प्रशिक्षण: डेटा लोडिंग और शफलिंग रणनीति पर विचार करने वाली वितरित मशीन लर्निंग प्रणालियां

संदर्भ

  1. Marin et al. (2024). BEND: Benchmarking DNA language models on biologically meaningful tasks.
  2. Aizman et al. (2020). High performance I/O for large scale deep learning.
  3. Nguyen et al. (2023). HyenaDNA: Long-range genomic sequence modeling at single nucleotide resolution.
  4. Zhou et al. (2023). DNABERT-2: Efficient foundation model and benchmark for multi-species genome.

सारांश: यह पेपर DNA भाषा मॉडल बेंचमार्क परीक्षण में एक महत्वपूर्ण व्यावहारिक समस्या की खोज और समाधान करता है। हालांकि समस्या स्वयं अपेक्षाकृत सरल है, लेकिन इसका प्रभाव गहरा है। पेपर का मूल्य अनुसंधान समुदाय को यह याद दिलाने में निहित है कि छोटे कार्यान्वयन विवरण बेंचमार्क परिणामों पर महत्वपूर्ण प्रभाव डाल सकते हैं, और एक व्यावहारिक समाधान प्रदान करता है। यह बेंचमार्क परीक्षण की निष्पक्षता और विश्वसनीयता सुनिश्चित करने के लिए महत्वपूर्ण है।