2025-11-10T03:03:44.502546

BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation

Wenz, Bouattour, Yang et al.

Large language models (LLMs) have been successfully applied to many tasks, including text-to-SQL generation. However, much of this work has focused on publicly available datasets, such as Fiben, Spider, and Bird. Our earlier work showed that LLMs are much less effective in querying large private enterprise data warehouses and released Beaver, the first private enterprise text-to-SQL benchmark. To create Beaver, we leveraged SQL logs, which are often readily available. However, manually annotating these logs to identify which natural language questions they answer is a daunting task. Asking database administrators, who are highly trained experts, to take on additional work to construct and validate corresponding natural language utterances is not only challenging but also quite costly. To address this challenge, we introduce BenchPress, a human-in-the-loop system designed to accelerate the creation of domain-specific text-to-SQL benchmarks. Given a SQL query, BenchPress uses retrieval-augmented generation (RAG) and LLMs to propose multiple natural language descriptions. Human experts then select, rank, or edit these drafts to ensure accuracy and domain alignment. We evaluated BenchPress on annotated enterprise SQL logs, demonstrating that LLM-assisted annotation drastically reduces the time and effort required to create high-quality benchmarks. Our results show that combining human verification with LLM-generated suggestions enhances annotation accuracy, benchmark reliability, and model evaluation robustness. By streamlining the creation of custom benchmarks, BenchPress offers researchers and practitioners a mechanism for assessing text-to-SQL models on a given domain-specific workload. BenchPress is freely available via our public GitHub repository at https://github.com/fabian-wenz/enterprise-txt2sql and is also accessible on our website at http://dsg-mcgraw.csail.mit.edu:5000.

academic

BenchPress: نظام التعليق البشري المدمج لإنشاء معايير Text-to-SQL بسرعة

المعلومات الأساسية

معرّف الورقة: 2510.13853
العنوان: BenchPress: نظام التعليق البشري المدمج لإنشاء معايير Text-to-SQL بسرعة
المؤلفون: Fabian Wenz (جامعة ميونخ التقنية وMIT)، Omar Bouattour (جامعة ميونخ التقنية وMIT)، Devin Yang (MIT)، Justin Choi (MIT)، Cecil Gregg (MIT)، Nesime Tatbul (Intel Labs وMIT)، Çağatay Demiralp (AWS AI Labs وMIT)
التصنيف: cs.CL, cs.AI, cs.DB, cs.HC
المؤتمر: CIDR 2026 (المؤتمر السنوي السادس عشر لأنظمة البيانات المبتكرة)
رابط الورقة: https://arxiv.org/abs/2510.13853

الملخص

أثبتت نماذج اللغة الكبيرة (LLMs) فعاليتها في عدة مهام بما فيها توليد استعلامات SQL من النصوص الطبيعية. ومع ذلك، ركزت معظم الأعمال على مجموعات البيانات العامة (مثل Fiben و Spider و Bird). أظهرت الأعمال السابقة أن نماذج اللغة الكبيرة تشهد انخفاضاً كبيراً في الأداء عند الاستعلام عن مستودعات البيانات الخاصة الكبيرة، وتم نشر أول معيار خاص بالمؤسسات Beaver. لمعالجة تحديات التعليق اليدوي لسجلات SQL، تقترح هذه الورقة BenchPress - نظام تعاون بشري-آلي مصمم لتسريع إنشاء معايير Text-to-SQL خاصة بالمجال. يستخدم النظام الاسترجاع المعزز بالتوليد (RAG) ونماذج اللغة الكبيرة لتوليد عدة أوصاف باللغة الطبيعية لاستعلامات SQL، يختار الخبراء البشريون بعد ذلك هذه المسودات أو يرتبونها أو يعدلونها لضمان الدقة والمحاذاة مع المجال. تُظهر التجارب أن BenchPress يقلل بشكل كبير من الوقت والجهد المطلوبين لإنشاء معايير عالية الجودة.

السياق البحثي والدافع

المشاكل الأساسية

الفجوة بين المعايير العامة والواقع المؤسسي: بينما تتمتع نماذج اللغة الكبيرة بأداء ممتازة على مجموعات البيانات العامة مثل Spider و Bird و Fiben، تنخفض دقة التنفيذ بشكل حاد على مستودعات البيانات المؤسسية (كما هو موضح في الشكل 1، من أكثر من 90% إلى ما يقرب من 0%)
صعوبة التعليق على سجلات SQL المؤسسية: إنشاء أسئلة باللغة الطبيعية مقابلة لاستعلامات SQL يدويًا يستغرق وقتًا طويلاً وباهظ التكاليف، ويتطلب مشاركة مسؤولي قواعد البيانات ذوي المهارات العالية
التحديات الخاصة بالمجال: تتميز البيانات المؤسسية بأنماط معقدة ومصطلحات خاصة بالمجال وقيود الخصوصية

الأهمية

تحتاج المؤسسات إلى تقييم أداء نماذج Text-to-SQL على بيانات خاصة قبل النشر
تجنب فشل النشر الناجم عن عدم توافق المجال
دعم التكيف مع المجال والتحسينات الاستراتيجية لضبط النموذج

قيود الطرق الموجودة

تفتقر المعايير العامة إلى التعقيد الخاص بالمؤسسات (غموض الأنماط والمصطلحات الخاصة بالمجال وغيرها)
التعليق اليدوي بالكامل مكلف وغير فعال
نماذج اللغة العامة تفتقر إلى السياق المجالي والدعم المنظم

المساهمات الأساسية

اقتراح نظام BenchPress: أول نظام تعليق تعاون بشري-آلي متخصص لإنشاء معايير Text-to-SQL خاصة بالمجال بسرعة
تصميم سير عمل مبتكر: معمارية معيارية تجمع بين الاسترجاع المعزز بالتوليد (RAG) وتحليل الاستعلامات والتغذية الراجعة البشرية
دراسة مستخدم شاملة: إثبات مزايا BenchPress من خلال تجارب مقارنة في دقة التعليق والكفاءة والحفاظ على الدقة الدلالية
أداة مفتوحة المصدر: توفير نظام قابل للاستخدام مباشرة يدعم معايير عامة متعددة وبيانات المؤسسات

شرح الطريقة

تعريف المهمة

الإدخال: استعلام SQL + مخطط قاعدة البيانات + عينات تعليق تاريخية اختيارية الإخراج: وصف مقابل باللغة الطبيعية القيود: الحفاظ على الدقة الدلالية والاتساق في المصطلحات الخاصة بالمجال وحماية الخصوصية

معمارية النظام

مرحلة الإعداد لمرة واحدة

إعداد المشروع: اختيار أو إنشاء مشروع تعليق لأحمال عمل مؤسسية محددة
استيعاب البيانات: تحميل سجلات SQL وملفات المخطط أو اختيار معايير عامة مدعومة
تكوين المهمة: اختيار اتجاه التعليق (يدعم حالياً SQL إلى لغة طبيعية) ونموذج اللغة

حلقة التعليق التكرارية

تحليل الاستعلام (اختياري): إعادة كتابة استعلامات SQL المتداخلة كسلسلة من التعبيرات الجدولية المشتركة (CTEs)
استرجاع السياق: استخدام تضمينات المتجهات الكثيفة مثل Sentence-BERT لاسترجاع عينات دلالية متشابهة ومخططات الجداول ذات الصلة
توليد المرشحين: توليد نموذج اللغة لأربعة مرشحين من أوصاف اللغة الطبيعية بناءً على السياق المسترجع
إعادة التجميع (اختياري): دمج أوصاف مستوى الاستعلام الفرعي في شرح كامل للاستعلام
التغذية الراجعة البشرية: يقوم المعلقون بترتيب أو تحسين أو رفض مخرجات نموذج اللغة
المراجعة والتصدير: تقييم جودة المخرجات والتصدير بصيغة معيار

نقاط الابتكار التقني

الاسترجاع المعزز بالتوليد (RAG)

استخدام البحث عن المتجهات الكثيفة لاسترجاع استعلامات SQL المتشابهة دلالياً وتعليقاتها
تضمين العينات في الطلب لتوفير أنماط تعبيرية واقعية وإرشادات استخدام المخطط
موازنة المعلوماتية مع كفاءة الطلب، واختيار أفضل k عينة مسترجعة

استراتيجية تحليل الاستعلام

تحليل الاستعلامات المتداخلة المعقدة هيكلياً
توليد أوصاف باللغة الطبيعية لاستعلامات فرعية بشكل مستقل ثم إعادة تجميعها
تقليل الحمل المعرفي وتحسين دقة التعليق

تصميم التعاون البشري-الآلي

عملية مراجعة تكرارية منظمة تضمن معايير الجودة المؤسسية
دعم تحسين الطلب وحلقات التحسين المدفوعة بالتغذية الراجعة
تصميم ذكاء اصطناعي مسؤول يتبع مبادئ Google PAIR

إعداد التجارب

مجموعات البيانات

Beaver: أول معيار Text-to-SQL خاص بالمؤسسات، بناءً على سجلات SQL من MIT والمؤسسات الأخرى، يحتوي على أكثر من 300 مخطط وما يقرب من 4000 استعلام
Bird: معيار قاعدة بيانات عام واسع النطاق
إجمالي 30 استعلام SQL لدراسة المستخدم، مأخوذة من مجموعات بيانات Beaver و Bird (معالجة مجهولة الهوية)

مقاييس التقييم

دقة التعليق: فحص يدوي للحفاظ على أوصاف اللغة الطبيعية على استعلامات SQL
تأخير التعليق: إجمالي وقت التعليق لكل مشارك
الحفاظ على الدقة الدلالية: التقييم من خلال مهام الترجمة العكسية، باستخدام معيار تقييم من 5 مستويات

الطرق المقارنة

مجموعة BenchPress: استخدام واجهة BenchPress الكاملة
المجموعة اليدوية: توفير ملفات المخطط والسجل فقط، بدون دعم نموذج اللغة
مجموعة نموذج اللغة العام: استخدام واجهة ChatGPT القياسية، بدون دعم RAG

تفاصيل التنفيذ

18 مشاركاً، مقسمين إلى مستويات متقدمة وغير متقدمة بناءً على مهارات SQL
تصميم مربع لاتيني متوازن يضمن التوازن العكسي
يقوم كل مشارك بتعليق نفس 30 استعلام SQL

نتائج التجارب

النتائج الرئيسية

دقة التعليق

الطريقة	Beaver	Bird	الإجمالي
BenchPress	86.1%	100.0%	93.0%
نموذج اللغة العام	66.2%	100.0%	83.1%
يدوي	60.1%	87.8%	73.9%

تأخير التعليق

الطريقة	Beaver	Bird	الإجمالي
BenchPress	16.1 دقيقة	12.0 دقيقة	28.1 دقيقة
نموذج اللغة العام	16.2 دقيقة	15.8 دقيقة	32.0 دقيقة
يدوي	102.1 دقيقة	82.8 دقيقة	183.9 دقيقة

الحفاظ على الدقة الدلالية في الترجمة العكسية

أنتج BenchPress أعلى نسبة من المخرجات الصحيحة تماماً (المستوى 5) في تقييم الوضوح من 5 مستويات، مما يدل على وضوح دلالي متفوق.

نتائج التجارب

فعالية الأداة: يتفوق BenchPress على جميع الطرق المقارنة في جميع المقاييس
تأثير تعقيد مجموعة البيانات: على مجموعات البيانات المؤسسية المعقدة (Beaver)، تكون الاختلافات في الأداء بين الأدوات أكثر وضوحاً
القابلية للتكيف مع المجال: يتمتع BenchPress بأداء متفوقة في التعامل مع المصطلحات الخاصة بالمؤسسات والأنماط المعقدة

الأعمال ذات الصلة

معايير Text-to-SQL

المعايير العامة: Spider و Bird و Fiben وغيرها دفعت تقدم مهمة Text-to-SQL العامة
معايير المؤسسات: قدم Beaver للمرة الأولى التعقيد على مستوى المؤسسات، مما كشف عن صعوبات نماذج اللغة الكبيرة على الأنماط غير المتجانسة

تطبيقات نماذج اللغة الكبيرة لتوليد SQL

Codex و GPT-4 و DeepSeek وغيرها تتمتع بأداء قوية على مجموعات البيانات العامة
لكن الأداء تنخفض بشكل كبير في البيئات الخاصة بالمجال أو المؤسسات

أنظمة وأدوات التعليق

تركز الأنظمة الموجودة بشكل أساسي على البيانات العامة أو الاصطناعية
BenchPress متخصص في دعم سير عمل التعاون البشري-الآلي لسجلات المؤسسات الخاصة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يحسن BenchPress بشكل كبير من كفاءة وجودة إنشاء معايير Text-to-SQL الخاصة بالمجال
تتفوق طريقة التعاون البشري-الآلي على الطرق الآلية بالكامل أو اليدوية بالكامل في التعامل مع تعقيد البيانات المؤسسية
لا تعكس المعايير العامة بشكل كافٍ التعقيد الهيكلي واللغوي لسجلات SQL المؤسسية

القيود

يركز النظام الحالي بشكل أساسي على التعليق من SQL إلى لغة طبيعية
يتطلب مشاركة خبراء المجال، مما لا يزال ينطوي على بعض تكاليف العمالة
بالنسبة للاستعلامات المتداخلة المعقدة جداً، قد تكون استراتيجية التحليل غير كافية

الاتجاهات المستقبلية

التعليق ثنائي الاتجاه: دمج توليد Text-to-SQL لدعم التحقق التكراري
تقييم المتانة: إعادة صياغة منهجية لاستعلامات اللغة الطبيعية في المعايير الموجودة
تعزيز الأتمتة: تقليل متطلبات التدخل البشري بشكل أكبر

التقييم المتعمق

المزايا

قيمة عملية عالية: حل المشاكل الفعلية في نشر نماذج Text-to-SQL في المؤسسات
ابتكار الطريقة قوي: دمج ذكي لـ RAG وتحليل الاستعلامات والتعاون البشري-الآلي
تصميم التجارب دقيق: تصميم تجارب مقارنة معقول وأبعاد تقييم شاملة
مساهمة مفتوحة المصدر: توفير أداة قابلة للاستخدام مباشرة وموارد وثائق

أوجه القصور

حجم دراسة المستخدم محدود: حجم العينة من 18 مشاركاً نسبياً صغير
تعميم المجال: التحقق بشكل أساسي في المجالات التعليمية والتكنولوجية، والقابلية للتطبيق في الصناعات الأخرى تحتاج إلى التحقق
تحليل التكلفة غير كافٍ: افتقار إلى تحليل تفصيلي لفعالية التكلفة

التأثير

المساهمة الأكاديمية: توفير منهجية جديدة لتقييم تطبيقات الذكاء الاصطناعي المؤسسية
القيمة العملية: حل مباشر للاحتياجات الفعلية للصناعة
قابلية الاستنساخ: دعم الكود مفتوح المصدر والوثائق التفصيلية للاستنساخ والتوسع

السيناريوهات المعمول بها

تحتاج المؤسسات إلى تقييم أداء نماذج Text-to-SQL على بيانات خاصة
إنشاء معايير Text-to-SQL خاصة بالمجال من قبل المؤسسات البحثية
تحسين استراتيجيات نشر النموذج والضبط الدقيق من قبل فرق البيانات

المراجع

تستشهد هذه الورقة بـ 21 مرجعاً ذا صلة، تغطي معايير Text-to-SQL وتطبيقات نماذج اللغة الكبيرة وأنظمة التعليق والتحديات المؤسسية الرئيسية، مما يوفر أساساً نظرياً قوياً للبحث.

الملخص: BenchPress هو نظام ذو قيمة عملية مهمة، من خلال تصميم تعاون بشري-آلي مبتكر، يحل بشكل فعال مشاكل الكفاءة والجودة في إنشاء معايير Text-to-SQL على مستوى المؤسسات. لا يقتصر هذا العمل على الابتكار التقني فحسب، بل الأهم من ذلك أنه يوفر أداة عملية لنشر تطبيقات الذكاء الاصطناعي المؤسسية بأمان، مع قيمة أكاديمية وتجارية قوية.