Large Language Models are increasingly popular in genomics due to their potential to decode complex biological sequences. Hence, researchers require a standardized benchmark to evaluate DNA Language Models (DNA LMs) capabilities. However, evaluating DNA LMs is a complex task that intersects genomic's domain-specific challenges and machine learning methodologies, where seemingly minor implementation details can significantly compromise benchmark validity. We demonstrate this through BEND (Benchmarking DNA Language Models), where hardware-dependent hyperparameters -- number of data loading workers and buffer sizes -- create spurious performance variations of up to 4% for identical models. The problem stems from inadequate data shuffling interacting with domain specific data characteristics. Experiments with three DNA language models (HyenaDNA, DNABERT-2, ResNet-LM) show these artifacts affect both absolute performance and relative model rankings. We propose a simple solution: pre-shuffling data before storage eliminates hardware dependencies while maintaining efficiency. This work highlights how standard ML practices can interact unexpectedly with domain-specific data characteristics, with broader implications for benchmark design in specialized domains.
- معرّف الورقة: 2510.12617
- العنوان: Same model, better performance: the impact of shuffling on DNA Language Models benchmarking
- المؤلفون: ديفيد جريكو، كونراد راولك (جامعة إدنبرة، مركز بيلي جيفورد لعلوم الأوبئة)
- التصنيف: q-bio.GN cs.LG
- تاريخ النشر: 15 أكتوبر 2025 (نسخة أولية من arXiv)
- رابط الورقة: https://arxiv.org/abs/2510.12617
أصبحت نماذج اللغة الكبيرة ذات شعبية متزايدة في علم الجينوميات لقدرتها على فك تشفير التسلسلات البيولوجية المعقدة. لذلك، يحتاج الباحثون إلى معايير موحدة لتقييم قدرات نماذج اللغة للحمض النووي (DNA LMs). ومع ذلك، فإن تقييم نماذج اللغة للحمض النووي مهمة معقدة تتضمن تقاطع التحديات الخاصة بمجال علم الجينوميات ومنهجيات التعلم الآلي، حيث قد تؤثر تفاصيل التنفيذ الدقيقة بشكل كبير على صحة المعايير. أثبت المؤلفون ذلك من خلال BEND (معايير نماذج لغة الحمض النووي)، حيث أنشأت المعاملات الفائقة المتعلقة بالأجهزة - عدد عمال تحميل البيانات وحجم المخزن المؤقت - تباينات أداء وهمية تصل إلى 4% لنفس النموذج. يعود المشكلة إلى التفاعل بين الخلط غير الكافي للبيانات والخصائص البيانية الخاصة بالمجال. أظهرت التجارب باستخدام ثلاثة نماذج لغة للحمض النووي (HyenaDNA و DNABERT-2 و ResNet-LM) أن هذه الأثار تؤثر على كل من الأداء المطلق والترتيب النسبي للنماذج. يقترح المؤلفون حلاً بسيطاً: خلط البيانات مسبقاً قبل التخزين يمكن أن يزيل الاعتماد على الأجهزة مع الحفاظ على الكفاءة.
تركز هذه الدراسة على حل مشكلة الانحياز في التنفيذ في معايير نماذج لغة الحمض النووي. بشكل محدد:
- الاعتماد على الأجهزة: تتأثر نتائج المعايير بالمعاملات الفائقة المتعلقة بالأجهزة (عدد العمال، حجم المخزن المؤقت)
- الخلط غير الكافي للبيانات: نظراً للطبيعة الخاصة لبيانات الجينوميات (الاعتماد المكاني، تداخل التسلسلات)، قد تنتج الممارسات القياسية للتعلم الآلي انحيازات غير متوقعة
- عدالة التقييم: قد يحصل الباحثون ذوو الموارد الحسابية المختلفة على نتائج معايير مختلفة، مما يضر بعدالة التقييم
- أساس التقدم العلمي: المعايير الموحدة هي أساس التقدم العلمي في التعلم الآلي، مما يمكّن الباحثين من مقارنة الطرق وتتبع التحسينات
- تحديات المجالات الناشئة: في المجالات الناشئة مثل علم الجينوميات، المعرفة الخاصة بالمجال نادرة وما تزال مبادئ تصميم المعايير قيد الإنشاء
- عدالة الموارد: ضمان عدم انحياز المعايير لصالح الباحثين الذين يتمتعون بموارد حسابية أفضل
على الرغم من أن إطار معايير BEND يوفر مجموعة شاملة من المهام الجينومية الخاضعة للإشراف، إلا أنه يعاني من المشاكل التالية:
- يستخدم آليات معقدة لتحميل البيانات من خلال استراتيجية خلط على مستويين للتعامل مع مجموعات البيانات الكبيرة
- يقدم اعتماداً على المعاملات الفائقة الخاصة بالأجهزة
- عند دمجه مع الخصائص المتأصلة في بيانات الجينوميات (التداخل الكبير بين عينات تسلسل الحمض النووي المتتالية)، يؤدي إلى خلط بيانات غير كافٍ
- اكتشاف وقياس الانحياز المنهجي في المعايير: إثبات أن المعاملات الفائقة المتعلقة بالأجهزة يمكن أن تؤدي إلى تباينات أداء تصل إلى 4% لنفس النموذج
- توفير تحليل محدد للمشكلة: تحليل عميق لآلية الخلط في إطار WebDataset وتفاعلها مع خصائص بيانات الجينوميات
- اقتراح حل بسيط وفعال: طريقة الخلط المسبق يمكن أن تزيل الاعتماد على الأجهزة مع الحفاظ على الأداء أو تحسينها في جميع المهام
- التحقق عبر الهندسات المعمارية: التحقق من عمومية المشكلة وفعالية الحل على ثلاثة هندسات معمارية مختلفة لنماذج لغة الحمض النووي
- توفير إرشادات أفضل الممارسات لتصميم المعايير: توفير خبرة عملية وتوصيات محددة لتصميم المعايير في المجالات المتخصصة
- توليد التضمينات: استخراج تسلسلات الحمض النووي من الجينوم المرجعي وتوليد التضمينات باستخدام نموذج اللغة
- تدريب النموذج النهائي: استخدام التضمينات المولدة المقترنة بالتسميات لتدريب نموذج نهائي
- التقييم: معالجة النموذج النهائي لتضمينات تسلسل الحمض النووي في مجموعة الاختبار ومقارنتها مع التسميات الحقيقية
يستخدم BEND إطار WebDataset لتخزين وتحميل وخلط التضمينات:
- التخزين المقسم: يتم تخزين التضمينات في ملفات .tar (أقسام)
- تخصيص العمال: يتم تخصيص كل قسم لعامل واحد
- خلط المخزن المؤقت: لكل عامل مخزن مؤقت خاص به، يخلط فقط العينات من الأقسام المخصصة لهذا العامل
قام الباحثون بتحليل أنماط الوصول إلى البيانات تحت تكوينات مختلفة من خلال التصور:
- بدون خلط: الوصول المتسلسل إلى البيانات
- BEND (عامل واحد): الوصول المتسلسل للأقسام، القراءة المتسلسلة داخلياً
- BEND (أقصى عمال): الوصول المتوازي لأقسام متعددة، تحسين تنوع العينات بين الدفعات لكن لا يؤثر على التنوع داخل الدفعة
- الخلط المسبق: ضمان تنوع جيد للعينات بغض النظر عن عدد العمال
خلط التعليقات التوضيحية للبيانات قبل تخزينها في الأقسام، مما يضمن أن العينات من أي جزء من مجموعة البيانات يمكن تخزينها في أي قسم.
- مرحلة المعالجة المسبقة: خلط التعليقات التوضيحية للتسلسل قبل توليد التضمينات
- مرحلة التخزين: تخزين البيانات المخلوطة في الأقسام
- مرحلة التحميل: سير عمل تحميل WebDataset العادي، لكن نظراً لأن البيانات مخلوطة مسبقاً، لا يؤثر عدد العمال على تنوع العينات
- عدم الاعتماد على الأجهزة: إزالة الاعتماد على عدد العمال وحجم المخزن المؤقت
- الحفاظ على الكفاءة: عدم تغيير تفاصيل تنفيذ BEND، الحفاظ على الكفاءة الأصلية
- تحسين الأداء: الحفاظ على الأداء أو تحسينها في جميع المهام
استخدام سبع مهام من إطار معايير BEND:
- المهام الخاضعة للإشراف: ميثيلة CpG، تعديلات الهستون، إمكانية الوصول للكروماتين، اكتشاف الجينات، تعليق المحسنات
- المهام غير الخاضعة للإشراف: التنبؤ بتأثير المتغيرات غير المشفرة على التعبير والمرض
تم اختبار ثلاثة هندسات معمارية مختلفة لنماذج لغة الحمض النووي:
- HyenaDNA-tiny-1k: نموذج قائم على هندسة Hyena
- DNABERT-2: نموذج لغة الحمض النووي القائم على BERT
- ResNet-LM: نموذج خط الأساس المقترح من قبل BEND
- AUROC: للمهام المتعلقة بميثيلة CpG وتعديلات الهستون
- MCC: لمهمة اكتشاف الجينات
- تجارب تأثير المعاملات الفائقة: مقارنة تأثير عدد العمال وحجم المخزن المؤقت على الأداء
- التحقق عبر الهندسات المعمارية: التحقق من فعالية طريقة الخلط المسبق على ثلاثة هندسات معمارية للنماذج
- تحليل خصائص البيانات: تحليل حالة التداخل للتسلسلات المتتالية في المهام المختلفة
الجدول 1: نتائج الاختبار لـ HyenaDNA-tiny-1k تحت تكوينات معاملات فائقة مختلفة
| المهمة | المقياس | أقصى عمال | عامل واحد | مخزن مؤقت 1000 | بدون مخزن مؤقت |
|---|
| ميثيلة CpG | AUROC | 0.878 | 0.868 | - | - |
| تعديلات الهستون | AUROC | 0.766 | 0.756 | - | - |
| اكتشاف الجينات | MCC | - | - | 0.115 | 0.076 |
نتائج الخلط المسبق: تحقيق أفضل أداء أو قريبة منها في جميع التكوينات، مما يزيل الاعتماد على الأجهزة.
الجدول 2: مقارنة ثلاثة نماذج في مهمة ميثيلة CpG (AUROC)
| النموذج | BEND | الخلط المسبق | التحسن |
|---|
| HyenaDNA-tiny-1k | 0.868 | 0.900 | +3.2% |
| DNABERT-2 | 0.893 | 0.910 | +1.7% |
| ResNet-LM | 0.890 | 0.919 | +2.9% |
الجدول 3: حالة تداخل التسلسلات المتتالية في المهام المختلفة
| المهمة | نسبة التسلسلات المتداخلة | نسبة النيوكليوتيدات المتداخلة الوسيطة | النسبة المرجحة للتداخل |
|---|
| ميثيلة CpG | 51.88% | 87.70% | 45.50% |
| تعديلات الهستون | 17.03% | 19.92% | 3.39% |
| اكتشاف الجينات | 7.09% | 12.39% | 0.88% |
| تعليق المحسنات | 1.75% | 49.27% | 0.86% |
| إمكانية الوصول للكروماتين | 28.29% | 20.31% | 5.75% |
تظهر مهمة ميثيلة CpG أعلى درجة تداخل تسلسل، مما يفسر سبب استفادة هذه المهمة أكثر من الخلط المسبق.
لا يحسن الخلط المسبق الأداء المطلقة فحسب، بل يغير أيضاً الترتيب النسبي للنماذج:
- تحت تكوين BEND: DNABERT-2 ≈ ResNet-LM > HyenaDNA-tiny-1k
- بعد الخلط المسبق: ResNet-LM > DNABERT-2 > HyenaDNA-tiny-1k
- BEND: أول إطار معايير شامل متخصص لنماذج لغة الحمض النووي
- WebDataset: إطار عمل للتعلم العميق عالي الأداء للإدخال/الإخراج
- HyenaDNA: نمذجة تسلسلات الجينوم طويلة المدى بدقة نيوكليوتيد واحد
- DNABERT-2: نموذج أساسي فعال لجينوم متعدد الأنواع
- ResNet-LM: نموذج خط أساس قائم على الشبكات العصبية المتبقية
تساهم الورقة بخبرة عملية في مجال تصميم المعايير، خاصة في الحالات التي قد تنتج فيها ممارسات التعلم الآلي القياسية عن عواقب غير متوقعة في المجالات المتخصصة.
- مشكلة الاعتماد على الأجهزة: المعاملات الفائقة المختارة بناءً على موارد الحوسبة (عدد العمال وحجم المخزن المؤقت) قد تؤثر بشكل غير مقصود على نتائج المعايير
- عدم الاعتماد على الهندسة المعمارية: نماذج ذات هندسات معمارية مختلفة تستفيد من الخلط المناسب، مع تحسينات أداء تصل إلى 4%
- تأثير الترتيب: الخلط غير المناسب لا يؤثر فقط على الأداء المطلقة بل يغير أيضاً الترتيب النسبي بين النماذج
- حل بسيط وفعال: الخلط المسبق للبيانات هو إصلاح بسيط لفصل أداء المعايير عن المعاملات الفائقة الخاصة بالأجهزة
- إطار عمل محدد: تركز الدراسة بشكل أساسي على إطار BEND، قد تواجه أطر معايير أخرى مشاكل مختلفة
- تغطية المهام: على الرغم من اختبار مهام متعددة، إلا أنها محدودة بمجموعة المهام التي يوفرها BEND
- نطاق النماذج: تم اختبار ثلاثة هندسات معمارية فقط، قد لا تغطي جميع أنواع نماذج لغة الحمض النووي
- التوسع إلى معايير أخرى: تطبيق الاكتشافات والحلول على معايير المعلوماتية الحيوية الأخرى
- الكشف الآلي: تطوير أدوات للكشف الآلي عن الانحيازات المحتملة في تنفيذ المعايير
- إرشادات أفضل الممارسات: وضع مبادئ توجيهية أكثر شمولاً لتصميم المعايير في المجالات المتخصصة
- قيمة عملية عالية: اكتشاف مشكلة مهمة في المعايير العملية، توفير حل قابل للاستخدام الفوري
- تحليل عميق: عرض واضح لجذور المشكلة من خلال التصور والتحليل الكمي
- تحقق كافٍ: التحقق من عمومية المشكلة وفعالية الحل على نماذج ومهام متعددة
- كتابة واضحة: هيكل الورقة واضح، وصف المشكلة والحل سهل الفهم
- مساهمة مفتوحة المصدر: توفير تنفيذ كود عام
- الطبيعة العرضية لاكتشاف المشكلة: لم توفر الورقة طريقة منهجية للوقاية من أو الكشف عن مشاكل مماثلة
- نقص التحليل النظري: افتقار إلى شرح نظري لسبب تأثر بعض المهام أكثر من غيرها
- قيود الحل: على الرغم من فعالية الخلط المسبق، قد لا ينطبق على جميع أنواع بيانات التسلسل
- تحليل تكلفة الحوسبة: عدم وجود تحليل تفصيلي للتكلفة الحسابية لطريقة الخلط المسبق
- المساهمة في المجال: توفير تحسين منهجي مهم لتقييم نماذج لغة الحمض النووي
- القيمة العملية: تحسين مباشر لموثوقية معايير BEND، مما يفيد مجتمع البحث بأكمله
- قابلية إعادة الإنتاج: توفير تنفيذ مفصل وكود مفتوح المصدر، سهل الإعادة والتطبيق
- القيمة الإرشادية: توفير خبرة قيمة لتصميم المعايير في مجالات متخصصة أخرى
- أبحاث الجينوميات: جميع أبحاث نماذج لغة الحمض النووي التي تستخدم معايير BEND
- نمذجة التسلسلات: مهام السلاسل الزمنية أو نمذجة التسلسلات الأخرى التي تتضمن تداخل التسلسلات
- تصميم المعايير: تصميم أطر معايير تتعامل مع مجموعات بيانات كبيرة الحجم
- التدريب الموزع: أنظمة التعلم الآلي الموزعة التي تحتاج إلى مراعاة استراتيجيات تحميل وخلط البيانات
- Marin et al. (2024). BEND: Benchmarking DNA language models on biologically meaningful tasks.
- Aizman et al. (2020). High performance I/O for large scale deep learning.
- Nguyen et al. (2023). HyenaDNA: Long-range genomic sequence modeling at single nucleotide resolution.
- Zhou et al. (2023). DNABERT-2: Efficient foundation model and benchmark for multi-species genome.
الملخص: تكتشف هذه الورقة وتحل مشكلة عملية مهمة في معايير نماذج لغة الحمض النووي. على الرغم من أن المشكلة نفسها نسبياً بسيطة، إلا أن تأثيرها عميق. تكمن قيمة الورقة في تذكير مجتمع البحث بأن تفاصيل التنفيذ الدقيقة قد تؤثر بشكل كبير على نتائج المعايير، وتوفير حل عملي. هذا ذو أهمية حاسمة لضمان عدالة وموثوقية المعايير.