Large language models (LLMs) have been successfully applied to many tasks, including text-to-SQL generation. However, much of this work has focused on publicly available datasets, such as Fiben, Spider, and Bird. Our earlier work showed that LLMs are much less effective in querying large private enterprise data warehouses and released Beaver, the first private enterprise text-to-SQL benchmark. To create Beaver, we leveraged SQL logs, which are often readily available. However, manually annotating these logs to identify which natural language questions they answer is a daunting task. Asking database administrators, who are highly trained experts, to take on additional work to construct and validate corresponding natural language utterances is not only challenging but also quite costly. To address this challenge, we introduce BenchPress, a human-in-the-loop system designed to accelerate the creation of domain-specific text-to-SQL benchmarks. Given a SQL query, BenchPress uses retrieval-augmented generation (RAG) and LLMs to propose multiple natural language descriptions. Human experts then select, rank, or edit these drafts to ensure accuracy and domain alignment. We evaluated BenchPress on annotated enterprise SQL logs, demonstrating that LLM-assisted annotation drastically reduces the time and effort required to create high-quality benchmarks. Our results show that combining human verification with LLM-generated suggestions enhances annotation accuracy, benchmark reliability, and model evaluation robustness. By streamlining the creation of custom benchmarks, BenchPress offers researchers and practitioners a mechanism for assessing text-to-SQL models on a given domain-specific workload. BenchPress is freely available via our public GitHub repository at https://github.com/fabian-wenz/enterprise-txt2sql and is also accessible on our website at http://dsg-mcgraw.csail.mit.edu:5000.
academic- معرّف الورقة: 2510.13853
- العنوان: BenchPress: نظام التعليق البشري المدمج لإنشاء معايير Text-to-SQL بسرعة
- المؤلفون: Fabian Wenz (جامعة ميونخ التقنية وMIT)، Omar Bouattour (جامعة ميونخ التقنية وMIT)، Devin Yang (MIT)، Justin Choi (MIT)، Cecil Gregg (MIT)، Nesime Tatbul (Intel Labs وMIT)، Çağatay Demiralp (AWS AI Labs وMIT)
- التصنيف: cs.CL, cs.AI, cs.DB, cs.HC
- المؤتمر: CIDR 2026 (المؤتمر السنوي السادس عشر لأنظمة البيانات المبتكرة)
- رابط الورقة: https://arxiv.org/abs/2510.13853
أثبتت نماذج اللغة الكبيرة (LLMs) فعاليتها في عدة مهام بما فيها توليد استعلامات SQL من النصوص الطبيعية. ومع ذلك، ركزت معظم الأعمال على مجموعات البيانات العامة (مثل Fiben و Spider و Bird). أظهرت الأعمال السابقة أن نماذج اللغة الكبيرة تشهد انخفاضاً كبيراً في الأداء عند الاستعلام عن مستودعات البيانات الخاصة الكبيرة، وتم نشر أول معيار خاص بالمؤسسات Beaver. لمعالجة تحديات التعليق اليدوي لسجلات SQL، تقترح هذه الورقة BenchPress - نظام تعاون بشري-آلي مصمم لتسريع إنشاء معايير Text-to-SQL خاصة بالمجال. يستخدم النظام الاسترجاع المعزز بالتوليد (RAG) ونماذج اللغة الكبيرة لتوليد عدة أوصاف باللغة الطبيعية لاستعلامات SQL، يختار الخبراء البشريون بعد ذلك هذه المسودات أو يرتبونها أو يعدلونها لضمان الدقة والمحاذاة مع المجال. تُظهر التجارب أن BenchPress يقلل بشكل كبير من الوقت والجهد المطلوبين لإنشاء معايير عالية الجودة.
- الفجوة بين المعايير العامة والواقع المؤسسي: بينما تتمتع نماذج اللغة الكبيرة بأداء ممتازة على مجموعات البيانات العامة مثل Spider و Bird و Fiben، تنخفض دقة التنفيذ بشكل حاد على مستودعات البيانات المؤسسية (كما هو موضح في الشكل 1، من أكثر من 90% إلى ما يقرب من 0%)
- صعوبة التعليق على سجلات SQL المؤسسية: إنشاء أسئلة باللغة الطبيعية مقابلة لاستعلامات SQL يدويًا يستغرق وقتًا طويلاً وباهظ التكاليف، ويتطلب مشاركة مسؤولي قواعد البيانات ذوي المهارات العالية
- التحديات الخاصة بالمجال: تتميز البيانات المؤسسية بأنماط معقدة ومصطلحات خاصة بالمجال وقيود الخصوصية
- تحتاج المؤسسات إلى تقييم أداء نماذج Text-to-SQL على بيانات خاصة قبل النشر
- تجنب فشل النشر الناجم عن عدم توافق المجال
- دعم التكيف مع المجال والتحسينات الاستراتيجية لضبط النموذج
- تفتقر المعايير العامة إلى التعقيد الخاص بالمؤسسات (غموض الأنماط والمصطلحات الخاصة بالمجال وغيرها)
- التعليق اليدوي بالكامل مكلف وغير فعال
- نماذج اللغة العامة تفتقر إلى السياق المجالي والدعم المنظم
- اقتراح نظام BenchPress: أول نظام تعليق تعاون بشري-آلي متخصص لإنشاء معايير Text-to-SQL خاصة بالمجال بسرعة
- تصميم سير عمل مبتكر: معمارية معيارية تجمع بين الاسترجاع المعزز بالتوليد (RAG) وتحليل الاستعلامات والتغذية الراجعة البشرية
- دراسة مستخدم شاملة: إثبات مزايا BenchPress من خلال تجارب مقارنة في دقة التعليق والكفاءة والحفاظ على الدقة الدلالية
- أداة مفتوحة المصدر: توفير نظام قابل للاستخدام مباشرة يدعم معايير عامة متعددة وبيانات المؤسسات
الإدخال: استعلام SQL + مخطط قاعدة البيانات + عينات تعليق تاريخية اختيارية
الإخراج: وصف مقابل باللغة الطبيعية
القيود: الحفاظ على الدقة الدلالية والاتساق في المصطلحات الخاصة بالمجال وحماية الخصوصية
- إعداد المشروع: اختيار أو إنشاء مشروع تعليق لأحمال عمل مؤسسية محددة
- استيعاب البيانات: تحميل سجلات SQL وملفات المخطط أو اختيار معايير عامة مدعومة
- تكوين المهمة: اختيار اتجاه التعليق (يدعم حالياً SQL إلى لغة طبيعية) ونموذج اللغة
- تحليل الاستعلام (اختياري): إعادة كتابة استعلامات SQL المتداخلة كسلسلة من التعبيرات الجدولية المشتركة (CTEs)
- استرجاع السياق: استخدام تضمينات المتجهات الكثيفة مثل Sentence-BERT لاسترجاع عينات دلالية متشابهة ومخططات الجداول ذات الصلة
- توليد المرشحين: توليد نموذج اللغة لأربعة مرشحين من أوصاف اللغة الطبيعية بناءً على السياق المسترجع
- إعادة التجميع (اختياري): دمج أوصاف مستوى الاستعلام الفرعي في شرح كامل للاستعلام
- التغذية الراجعة البشرية: يقوم المعلقون بترتيب أو تحسين أو رفض مخرجات نموذج اللغة
- المراجعة والتصدير: تقييم جودة المخرجات والتصدير بصيغة معيار
- استخدام البحث عن المتجهات الكثيفة لاسترجاع استعلامات SQL المتشابهة دلالياً وتعليقاتها
- تضمين العينات في الطلب لتوفير أنماط تعبيرية واقعية وإرشادات استخدام المخطط
- موازنة المعلوماتية مع كفاءة الطلب، واختيار أفضل k عينة مسترجعة
- تحليل الاستعلامات المتداخلة المعقدة هيكلياً
- توليد أوصاف باللغة الطبيعية لاستعلامات فرعية بشكل مستقل ثم إعادة تجميعها
- تقليل الحمل المعرفي وتحسين دقة التعليق
- عملية مراجعة تكرارية منظمة تضمن معايير الجودة المؤسسية
- دعم تحسين الطلب وحلقات التحسين المدفوعة بالتغذية الراجعة
- تصميم ذكاء اصطناعي مسؤول يتبع مبادئ Google PAIR
- Beaver: أول معيار Text-to-SQL خاص بالمؤسسات، بناءً على سجلات SQL من MIT والمؤسسات الأخرى، يحتوي على أكثر من 300 مخطط وما يقرب من 4000 استعلام
- Bird: معيار قاعدة بيانات عام واسع النطاق
- إجمالي 30 استعلام SQL لدراسة المستخدم، مأخوذة من مجموعات بيانات Beaver و Bird (معالجة مجهولة الهوية)
- دقة التعليق: فحص يدوي للحفاظ على أوصاف اللغة الطبيعية على استعلامات SQL
- تأخير التعليق: إجمالي وقت التعليق لكل مشارك
- الحفاظ على الدقة الدلالية: التقييم من خلال مهام الترجمة العكسية، باستخدام معيار تقييم من 5 مستويات
- مجموعة BenchPress: استخدام واجهة BenchPress الكاملة
- المجموعة اليدوية: توفير ملفات المخطط والسجل فقط، بدون دعم نموذج اللغة
- مجموعة نموذج اللغة العام: استخدام واجهة ChatGPT القياسية، بدون دعم RAG
- 18 مشاركاً، مقسمين إلى مستويات متقدمة وغير متقدمة بناءً على مهارات SQL
- تصميم مربع لاتيني متوازن يضمن التوازن العكسي
- يقوم كل مشارك بتعليق نفس 30 استعلام SQL
| الطريقة | Beaver | Bird | الإجمالي |
|---|
| BenchPress | 86.1% | 100.0% | 93.0% |
| نموذج اللغة العام | 66.2% | 100.0% | 83.1% |
| يدوي | 60.1% | 87.8% | 73.9% |
| الطريقة | Beaver | Bird | الإجمالي |
|---|
| BenchPress | 16.1 دقيقة | 12.0 دقيقة | 28.1 دقيقة |
| نموذج اللغة العام | 16.2 دقيقة | 15.8 دقيقة | 32.0 دقيقة |
| يدوي | 102.1 دقيقة | 82.8 دقيقة | 183.9 دقيقة |
أنتج BenchPress أعلى نسبة من المخرجات الصحيحة تماماً (المستوى 5) في تقييم الوضوح من 5 مستويات، مما يدل على وضوح دلالي متفوق.
- فعالية الأداة: يتفوق BenchPress على جميع الطرق المقارنة في جميع المقاييس
- تأثير تعقيد مجموعة البيانات: على مجموعات البيانات المؤسسية المعقدة (Beaver)، تكون الاختلافات في الأداء بين الأدوات أكثر وضوحاً
- القابلية للتكيف مع المجال: يتمتع BenchPress بأداء متفوقة في التعامل مع المصطلحات الخاصة بالمؤسسات والأنماط المعقدة
- المعايير العامة: Spider و Bird و Fiben وغيرها دفعت تقدم مهمة Text-to-SQL العامة
- معايير المؤسسات: قدم Beaver للمرة الأولى التعقيد على مستوى المؤسسات، مما كشف عن صعوبات نماذج اللغة الكبيرة على الأنماط غير المتجانسة
- Codex و GPT-4 و DeepSeek وغيرها تتمتع بأداء قوية على مجموعات البيانات العامة
- لكن الأداء تنخفض بشكل كبير في البيئات الخاصة بالمجال أو المؤسسات
- تركز الأنظمة الموجودة بشكل أساسي على البيانات العامة أو الاصطناعية
- BenchPress متخصص في دعم سير عمل التعاون البشري-الآلي لسجلات المؤسسات الخاصة
- يحسن BenchPress بشكل كبير من كفاءة وجودة إنشاء معايير Text-to-SQL الخاصة بالمجال
- تتفوق طريقة التعاون البشري-الآلي على الطرق الآلية بالكامل أو اليدوية بالكامل في التعامل مع تعقيد البيانات المؤسسية
- لا تعكس المعايير العامة بشكل كافٍ التعقيد الهيكلي واللغوي لسجلات SQL المؤسسية
- يركز النظام الحالي بشكل أساسي على التعليق من SQL إلى لغة طبيعية
- يتطلب مشاركة خبراء المجال، مما لا يزال ينطوي على بعض تكاليف العمالة
- بالنسبة للاستعلامات المتداخلة المعقدة جداً، قد تكون استراتيجية التحليل غير كافية
- التعليق ثنائي الاتجاه: دمج توليد Text-to-SQL لدعم التحقق التكراري
- تقييم المتانة: إعادة صياغة منهجية لاستعلامات اللغة الطبيعية في المعايير الموجودة
- تعزيز الأتمتة: تقليل متطلبات التدخل البشري بشكل أكبر
- قيمة عملية عالية: حل المشاكل الفعلية في نشر نماذج Text-to-SQL في المؤسسات
- ابتكار الطريقة قوي: دمج ذكي لـ RAG وتحليل الاستعلامات والتعاون البشري-الآلي
- تصميم التجارب دقيق: تصميم تجارب مقارنة معقول وأبعاد تقييم شاملة
- مساهمة مفتوحة المصدر: توفير أداة قابلة للاستخدام مباشرة وموارد وثائق
- حجم دراسة المستخدم محدود: حجم العينة من 18 مشاركاً نسبياً صغير
- تعميم المجال: التحقق بشكل أساسي في المجالات التعليمية والتكنولوجية، والقابلية للتطبيق في الصناعات الأخرى تحتاج إلى التحقق
- تحليل التكلفة غير كافٍ: افتقار إلى تحليل تفصيلي لفعالية التكلفة
- المساهمة الأكاديمية: توفير منهجية جديدة لتقييم تطبيقات الذكاء الاصطناعي المؤسسية
- القيمة العملية: حل مباشر للاحتياجات الفعلية للصناعة
- قابلية الاستنساخ: دعم الكود مفتوح المصدر والوثائق التفصيلية للاستنساخ والتوسع
- تحتاج المؤسسات إلى تقييم أداء نماذج Text-to-SQL على بيانات خاصة
- إنشاء معايير Text-to-SQL خاصة بالمجال من قبل المؤسسات البحثية
- تحسين استراتيجيات نشر النموذج والضبط الدقيق من قبل فرق البيانات
تستشهد هذه الورقة بـ 21 مرجعاً ذا صلة، تغطي معايير Text-to-SQL وتطبيقات نماذج اللغة الكبيرة وأنظمة التعليق والتحديات المؤسسية الرئيسية، مما يوفر أساساً نظرياً قوياً للبحث.
الملخص: BenchPress هو نظام ذو قيمة عملية مهمة، من خلال تصميم تعاون بشري-آلي مبتكر، يحل بشكل فعال مشاكل الكفاءة والجودة في إنشاء معايير Text-to-SQL على مستوى المؤسسات. لا يقتصر هذا العمل على الابتكار التقني فحسب، بل الأهم من ذلك أنه يوفر أداة عملية لنشر تطبيقات الذكاء الاصطناعي المؤسسية بأمان، مع قيمة أكاديمية وتجارية قوية.