We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.
- معرّف الورقة: 2510.12409
- العنوان: PricingLogic: تقييم قدرات النماذج اللغوية الكبيرة على مهام تسعير السياحة المعقدة
- المؤلفون: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
- التصنيف: cs.AI
- تاريخ النشر: 14 أكتوبر 2025
- رابط الورقة: https://arxiv.org/abs/2510.12409
تقدم هذه الورقة PricingLogic، وهي أول مجموعة بيانات معيارية لتقييم قدرات النماذج اللغوية الكبيرة (LLMs) على الاستدلال في مهام تسعير السياحة المعقدة. تتضمن المجموعة 300 سؤال باللغة الطبيعية مستندة إلى 42 سياسة تسعير حقيقية، تغطي مستويي صعوبة: (1) تسعير نوع العميل الأساسي و(2) حسابات الحزم السياحية التي تتضمن خصومات تفاعلية. يكشف التقييم على نماذج متعددة عن انخفاض حاد في الأداء على المهام الأصعب، مما يكشف عن فشل منهجي في تفسير القواعد والاستدلال الحسابي.
تحتاج وكالات السفر بشدة إلى تفويض مهام حساب التسعير التي تكثر فيها الأخطاء إلى أنظمة ذكاء اصطناعي، لكن نشر النماذج اللغوية الكبيرة دون التحقق من موثوقيتها قد يؤدي إلى خسائر مالية كبيرة وإضرار بثقة العملاء. المجموعات المعيارية الموجودة لا تستطيع التقاط المعرفة الخاصة بالمجال والملاحة بين القواعد المتضاربة ومتطلبات الموثوقية العالية المطلوبة في التطبيقات الفعلية.
- قيمة عملية عالية: يتضمن تسعير السياحة وجهات متعددة وأنواع تذاكر مختلفة وسياسات تسعير ديناميكية، مما يجعل المعالجة اليدوية مستهلكة للوقت وعرضة للأخطاء
- تحديات تقنية كبيرة: يتطلب الاستدلال في ظل قيود معقدة، مما يشكل تحديًا غير تافه للنماذج اللغوية الكبيرة
- احتياجات تجارية ملحة: تسعى وكالات السفر إلى استخدام أنظمة قائمة على النماذج اللغوية الكبيرة للتعامل مع الأسئلة المعبر عنها باللغة الطبيعية
تعاني المجموعات المعيارية الموجودة من قصور في تقييم قدرة النماذج اللغوية الكبيرة على التعامل مع التطبيقات الحقيقية، خاصة في السيناريوهات التي تتطلب خبرة متخصصة بالمجال والتعامل مع القواعد المتضاربة وضمان موثوقية عالية.
- أول مجموعة معيارية لتسعير السياحة: تقديم PricingLogic التي تتضمن 300 سؤال و42 وثيقة سياسة تسعير حقيقية
- تقييم أداء شامل: إجراء تقييم شامل على نماذج مفتوحة المصدر وتجارية متعددة، مما يثبت أن هذه المهمة تشكل تحديًا كبيرًا للنماذج اللغوية الكبيرة الحالية
- طريقة الاستدلال بمساعدة الأكواد: عرض التحسينات الملحوظة لطريقة الاستدلال بمساعدة الأكواد (CaR) على مهام الاستدلال والحساب المعقدة
- تحليل الفشل المنهجي: الكشف عن المشاكل المنهجية في النماذج اللغوية الكبيرة فيما يتعلق بتفسير القواعد والاستدلال الحسابي
الإدخال: طلب حجز سياحي باللغة الطبيعية ووثائق سياسة التسعير المقابلة
الإخراج: حساب السعر الإجمالي الدقيق
القيود: الحاجة إلى التعامل مع قواعد أسعار متعددة ومتداخلة واختيار خطة التسعير الأكثر فائدة للعميل
- التغطية الجغرافية: 7 مناطق جذب سياحي، 33 نشاطًا مختلفًا
- أنواع العملاء: 9 أنواع عملاء (السياح العاديون، المجموعات المتعاقد معها، كبار السن، الطلاب، إلخ)
- تعقيد السياسة: يتضمن هياكل تسعير محددة وعتبات خصم وشروط خاصة
المهمة 1: سياسات الأسعار القياسية
- استخدام 33 وثيقة تسعير
- 150 عينة اختبار
- لا تتضمن حزم الحزم
المهمة 2: سياسات أسعار الحزم
- إدخال خصومات الحزم السياحية بناءً على المهمة 1
- زيادة تعقيد المشكلة
- قد توجد خيارات تسعير متعددة قابلة للتطبيق
- معالجة التسعير في عملية استدلال واحدة
- توحيد هيكل وثائق سياسة التسعير والمصطلحات
- توجيه النماذج اللغوية الكبيرة عبر مرحلتين: تحديد العناصر وحساب السعر
المرحلة الأولى: توليد دوال حاسبة مخصصة لكل ملف سياسة تسعير
المرحلة الثانية: تحليل الطلب باللغة الطبيعية واستخراج المعلومات ذات الصلة وتحويلها إلى معاملات إدخال الأكواد
- تصميم الفصل ثنائي المراحل: فصل تفسير السياسة عن استخراج المعاملات، مما يحسن القدرة على التعامل مع منطق التسعير المعقد
- نمذجة القيود الفعلية: التعامل مع القيود الفعلية مثل مجموعات العملاء المتنوعة وقواعد الخصم المتداخلة
- تجارب التحكم بـ Oracle: فصل أخطاء توليد الأكواد عن أخطاء استخراج المعاملات من خلال طريقة CaR-Oracle
- إجمالي الأسئلة: 300 سؤال باللغة الطبيعية
- توزيع الصعوبة: أسئلة سهلة (60)، متوسطة (50)، صعبة (40) لكل مهمة
- وثائق السياسة: 42 وثيقة سياسة تسعير حقيقية
استخدام المطابقة الدقيقة (exact match) لمقارنة تنبؤات النموذج مع الإجابة الصحيحة، مع الإبلاغ عن معدل الدقة
تقييم عدة نماذج لغوية حديثة:
- النماذج التجارية: GPT-4o و DeepSeek-V3/R1 و Claude Sonnet 4
- النماذج مفتوحة المصدر: Qwen2.5-7B/32B/Max
- ضبط درجة الحرارة على 0.0 لضمان الإخراج الحتمي
- إدخال شروط تحكم CaR-Oracle لفصل مصادر الأخطاء
- مقارنة الأداء بدون عينات (0-shot) مع ثلاث عينات (3-shot)
الأسئلة السهلة:
- طريقة E2E: معدل دقة أعلى من 76% لجميع النماذج باستثناء Qwen2.5-7B
- طريقة CaR: معدل دقة أعلى من 90% لمعظم النماذج
- أفضل أداء: Claude Sonnet 4 بلغ 96.67% (CaR)
الأسئلة الصعبة:
- طريقة E2E: معدل دقة بالكاد يتجاوز 50% لجميع النماذج
- طريقة CaR: لا تزال أقل من 60%، مع وجود مجال كبير للتحسين
انخفاض الأداء واضح:
- حتى أقوى نموذج Claude Sonnet 4 حقق معدل دقة E2E بنسبة 35.0% فقط على الأسئلة الصعبة
- طريقة CaR تحقق تحسينات ملحوظة، خاصة على أسئلة الصعوبة المتوسطة
- المهام البسيطة: حقق ثلاثة نماذج لغوية كبيرة معدل دقة 100% باستخدام أكواد oracle
- المهام المتوسطة: الأكواد المولدة تحتوي على عيوب كبيرة، لكن النماذج القوية لا تزال قادرة على تعيين المعاملات بشكل صحيح
- المهام الصعبة: حتى مع استخدام أكواد مكتوبة يدويًا، يجد النموذج صعوبة في تقديم معاملات صحيحة
- يحقق الطلب 3-shot تحسينات هامشية فقط
- لا توجد تحسينات في السيناريوهات المعقدة
- يشير إلى أن حدود الأداء تعكس تحديات استدلال أساسية وليس نقص الأمثلة
- سوء تحديد فئة العميل: يخطئ النموذج بشكل متكرر في تحديد نوع العميل
- إغفال شروط التسعير: تجاهل شروط التسعير المهمة
- أخطاء منطق الحزم: صعوبة في تحديد متى يجب استخدام خصومات الحزم
- فشل حساب التركيبة الأمثل: عدم القدرة على حساب التركيبة الأمثل لخيارات حزم متعددة صالحة
- الأكواد المولدة من النماذج اللغوية الكبيرة: هياكل خطية مبسطة من نوع if-elif
- الأكواد المكتوبة يدويًا: نظام تقييم متعدد الخيارات معقد يقارن ويختار الخيار الأمثل بشكل منهجي
- تركز الأبحاث الحديثة على تقييم النماذج اللغوية الكبيرة في التطبيقات الحقيقية
- اختبرت RuleArena قدرة الامتثال للقواعد، لكنها تفتقر إلى معالجة تضارب القواعد
- يوسع هذا العمل هذا النموذج إلى مجال تسعير السياحة الفعلي
- تحسين الاستدلال على مهام كثيفة الحساب من خلال الأكواد
- ركزت الأعمال السابقة على مشاكل رياضية محكومة
- يوسع هذا الأسلوب النموذج إلى تطبيقات حقيقية تتجاوز تعقيد مشاكل الكتب المدرسية
- حدود الأداء: حتى النماذج المتقدمة لا تزال تؤدي بشكل سيء في سيناريوهات التسعير المعقدة
- فعالية طريقة CaR: عادة ما يكون الاستدلال بمساعدة الأكواد أفضل من الطريقة من طرف إلى طرف
- التحديات المنهجية: تكشف المهام التي تتضمن قواعد متعددة ومتداخلة عن حدود أساسية في النماذج اللغوية الكبيرة
- نطاق الطريقة محدود: التركيز فقط على طرق E2E و CaR، دون استكشاف أساليب أخرى مثل الضبط الدقيق
- تحديات البيئة الديناميكية: طرق الضبط الدقيق غير عملية في بيئات الأعمال الديناميكية
- نطاق التقييم: يركز بشكل أساسي على مجال تسعير السياحة
- تقنيات التكيف مع المجال: تطوير حماية متخصصة للتطبيقات الحرجة للإيرادات
- أنظمة الاستدلال الهجينة: دمج الاستدلال الرمزي والطرق العصبية
- آليات التحقق في الوقت الفعلي: تطوير آليات كشف وتصحيح الأخطاء في الوقت الفعلي
- أهمية عملية كبيرة: حل احتياجات تجارية حقيقية بقيمة تطبيقية مباشرة
- تصميم معياري صارم: مبني على بيانات حقيقية مع مستويات صعوبة واضحة
- ابتكار منهجي: تصميم طريقة CaR ذكي وفعال في فصل أنواع الأخطاء المختلفة
- تحليل عميق وشامل: فحص عميق لأنماط الفشل من خلال تجارب التحكم مثل Oracle
- محدودية المجال: يركز بشكل أساسي على تسعير السياحة، مع قدرة تعميم غير مؤكدة
- تغطية نموذجية محدودة: لم يتضمن معمارية نماذج وإستراتيجيات تدريب أكثر تنوعًا
- حلول غير كافية: يركز بشكل أساسي على تحديد المشاكل، مع حلول نسبية محدودة
- المساهمة الأكاديمية: توفير دليل مهم على حدود النماذج اللغوية الكبيرة في مهام الاستدلال المعقدة
- القيمة العملية: توفير مرجع مهم لتطبيقات الذكاء الاصطناعي في صناعة السياحة
- المساهمة المنهجية: يمكن تعميم طريقة CaR على مجالات أخرى تتطلب حسابات معقدة
- التطبيقات الكثيفة للقواعد: مناسبة للسيناريوهات التي تتطلب التعامل مع قواعد معقدة ومتداخلة
- المهام الكثيفة الحساب: مجالات التطبيق التي تتطلب حسابات عددية دقيقة
- الأنظمة الحرجة للأعمال: تطبيقات ذات متطلبات دقة عالية جدًا
تستشهد الورقة بأعمال مهمة من مجالات ذات صلة، بما في ذلك:
- الأبحاث المتعلقة بتوليد الأكواد وحل المشاكل الرياضية
- أعمال تقييم تطبيق النماذج اللغوية الكبيرة في سيناريوهات حقيقية
- الطرق ذات الصلة بنماذج اللغة بمساعدة البرامج
الملخص: تكشف هذه الورقة من خلال بناء أول مجموعة معيارية لتسعير السياحة PricingLogic بشكل منهجي عن حدود النماذج اللغوية الكبيرة الحالية في التعامل مع مهام الاستدلال المعقدة والحقيقية. على الرغم من أن طريقة الاستدلال بمساعدة الأكواد تحقق تحسينات ملحوظة، إلا أنها لا تزال تترك فجوة كبيرة في أصعب المهام، مما يؤكد أهمية إجراء تقييم صارم قبل نشر أنظمة الذكاء الاصطناعي في التطبيقات الحرجة للإيرادات.