2025-11-17T23:01:13.424205

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

Liu, Zhu, Al-Khalili et al.
We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.
academic

PricingLogic: تقييم قدرات النماذج اللغوية الكبيرة على مهام تسعير السياحة المعقدة

المعلومات الأساسية

  • معرّف الورقة: 2510.12409
  • العنوان: PricingLogic: تقييم قدرات النماذج اللغوية الكبيرة على مهام تسعير السياحة المعقدة
  • المؤلفون: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
  • التصنيف: cs.AI
  • تاريخ النشر: 14 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.12409

الملخص

تقدم هذه الورقة PricingLogic، وهي أول مجموعة بيانات معيارية لتقييم قدرات النماذج اللغوية الكبيرة (LLMs) على الاستدلال في مهام تسعير السياحة المعقدة. تتضمن المجموعة 300 سؤال باللغة الطبيعية مستندة إلى 42 سياسة تسعير حقيقية، تغطي مستويي صعوبة: (1) تسعير نوع العميل الأساسي و(2) حسابات الحزم السياحية التي تتضمن خصومات تفاعلية. يكشف التقييم على نماذج متعددة عن انخفاض حاد في الأداء على المهام الأصعب، مما يكشف عن فشل منهجي في تفسير القواعد والاستدلال الحسابي.

السياق البحثي والدافع

تعريف المشكلة

تحتاج وكالات السفر بشدة إلى تفويض مهام حساب التسعير التي تكثر فيها الأخطاء إلى أنظمة ذكاء اصطناعي، لكن نشر النماذج اللغوية الكبيرة دون التحقق من موثوقيتها قد يؤدي إلى خسائر مالية كبيرة وإضرار بثقة العملاء. المجموعات المعيارية الموجودة لا تستطيع التقاط المعرفة الخاصة بالمجال والملاحة بين القواعد المتضاربة ومتطلبات الموثوقية العالية المطلوبة في التطبيقات الفعلية.

أهمية البحث

  1. قيمة عملية عالية: يتضمن تسعير السياحة وجهات متعددة وأنواع تذاكر مختلفة وسياسات تسعير ديناميكية، مما يجعل المعالجة اليدوية مستهلكة للوقت وعرضة للأخطاء
  2. تحديات تقنية كبيرة: يتطلب الاستدلال في ظل قيود معقدة، مما يشكل تحديًا غير تافه للنماذج اللغوية الكبيرة
  3. احتياجات تجارية ملحة: تسعى وكالات السفر إلى استخدام أنظمة قائمة على النماذج اللغوية الكبيرة للتعامل مع الأسئلة المعبر عنها باللغة الطبيعية

قيود الأساليب الموجودة

تعاني المجموعات المعيارية الموجودة من قصور في تقييم قدرة النماذج اللغوية الكبيرة على التعامل مع التطبيقات الحقيقية، خاصة في السيناريوهات التي تتطلب خبرة متخصصة بالمجال والتعامل مع القواعد المتضاربة وضمان موثوقية عالية.

المساهمات الأساسية

  1. أول مجموعة معيارية لتسعير السياحة: تقديم PricingLogic التي تتضمن 300 سؤال و42 وثيقة سياسة تسعير حقيقية
  2. تقييم أداء شامل: إجراء تقييم شامل على نماذج مفتوحة المصدر وتجارية متعددة، مما يثبت أن هذه المهمة تشكل تحديًا كبيرًا للنماذج اللغوية الكبيرة الحالية
  3. طريقة الاستدلال بمساعدة الأكواد: عرض التحسينات الملحوظة لطريقة الاستدلال بمساعدة الأكواد (CaR) على مهام الاستدلال والحساب المعقدة
  4. تحليل الفشل المنهجي: الكشف عن المشاكل المنهجية في النماذج اللغوية الكبيرة فيما يتعلق بتفسير القواعد والاستدلال الحسابي

شرح الطريقة

تعريف المهمة

الإدخال: طلب حجز سياحي باللغة الطبيعية ووثائق سياسة التسعير المقابلة الإخراج: حساب السعر الإجمالي الدقيق القيود: الحاجة إلى التعامل مع قواعد أسعار متعددة ومتداخلة واختيار خطة التسعير الأكثر فائدة للعميل

بناء مجموعة البيانات

جمع البيانات

  • التغطية الجغرافية: 7 مناطق جذب سياحي، 33 نشاطًا مختلفًا
  • أنواع العملاء: 9 أنواع عملاء (السياح العاديون، المجموعات المتعاقد معها، كبار السن، الطلاب، إلخ)
  • تعقيد السياسة: يتضمن هياكل تسعير محددة وعتبات خصم وشروط خاصة

إعداد المهام

المهمة 1: سياسات الأسعار القياسية

  • استخدام 33 وثيقة تسعير
  • 150 عينة اختبار
  • لا تتضمن حزم الحزم

المهمة 2: سياسات أسعار الحزم

  • إدخال خصومات الحزم السياحية بناءً على المهمة 1
  • زيادة تعقيد المشكلة
  • قد توجد خيارات تسعير متعددة قابلة للتطبيق

معمارية النموذج

طريقة الطلب من طرف إلى طرف (E2E)

  • معالجة التسعير في عملية استدلال واحدة
  • توحيد هيكل وثائق سياسة التسعير والمصطلحات
  • توجيه النماذج اللغوية الكبيرة عبر مرحلتين: تحديد العناصر وحساب السعر

طريقة الاستدلال بمساعدة الأكواد (CaR)

المرحلة الأولى: توليد دوال حاسبة مخصصة لكل ملف سياسة تسعير المرحلة الثانية: تحليل الطلب باللغة الطبيعية واستخراج المعلومات ذات الصلة وتحويلها إلى معاملات إدخال الأكواد

نقاط الابتكار التقني

  1. تصميم الفصل ثنائي المراحل: فصل تفسير السياسة عن استخراج المعاملات، مما يحسن القدرة على التعامل مع منطق التسعير المعقد
  2. نمذجة القيود الفعلية: التعامل مع القيود الفعلية مثل مجموعات العملاء المتنوعة وقواعد الخصم المتداخلة
  3. تجارب التحكم بـ Oracle: فصل أخطاء توليد الأكواد عن أخطاء استخراج المعاملات من خلال طريقة CaR-Oracle

إعداد التجارب

مجموعة البيانات

  • إجمالي الأسئلة: 300 سؤال باللغة الطبيعية
  • توزيع الصعوبة: أسئلة سهلة (60)، متوسطة (50)، صعبة (40) لكل مهمة
  • وثائق السياسة: 42 وثيقة سياسة تسعير حقيقية

مقاييس التقييم

استخدام المطابقة الدقيقة (exact match) لمقارنة تنبؤات النموذج مع الإجابة الصحيحة، مع الإبلاغ عن معدل الدقة

الطرق المقارنة

تقييم عدة نماذج لغوية حديثة:

  • النماذج التجارية: GPT-4o و DeepSeek-V3/R1 و Claude Sonnet 4
  • النماذج مفتوحة المصدر: Qwen2.5-7B/32B/Max

تفاصيل التنفيذ

  • ضبط درجة الحرارة على 0.0 لضمان الإخراج الحتمي
  • إدخال شروط تحكم CaR-Oracle لفصل مصادر الأخطاء
  • مقارنة الأداء بدون عينات (0-shot) مع ثلاث عينات (3-shot)

نتائج التجارب

النتائج الرئيسية

نتائج المهمة 1

الأسئلة السهلة:

  • طريقة E2E: معدل دقة أعلى من 76% لجميع النماذج باستثناء Qwen2.5-7B
  • طريقة CaR: معدل دقة أعلى من 90% لمعظم النماذج
  • أفضل أداء: Claude Sonnet 4 بلغ 96.67% (CaR)

الأسئلة الصعبة:

  • طريقة E2E: معدل دقة بالكاد يتجاوز 50% لجميع النماذج
  • طريقة CaR: لا تزال أقل من 60%، مع وجود مجال كبير للتحسين

نتائج المهمة 2

انخفاض الأداء واضح:

  • حتى أقوى نموذج Claude Sonnet 4 حقق معدل دقة E2E بنسبة 35.0% فقط على الأسئلة الصعبة
  • طريقة CaR تحقق تحسينات ملحوظة، خاصة على أسئلة الصعوبة المتوسطة

التجارب الاستئصالية

تحليل CaR-Oracle

  • المهام البسيطة: حقق ثلاثة نماذج لغوية كبيرة معدل دقة 100% باستخدام أكواد oracle
  • المهام المتوسطة: الأكواد المولدة تحتوي على عيوب كبيرة، لكن النماذج القوية لا تزال قادرة على تعيين المعاملات بشكل صحيح
  • المهام الصعبة: حتى مع استخدام أكواد مكتوبة يدويًا، يجد النموذج صعوبة في تقديم معاملات صحيحة

مقارنة 3-shot مقابل 0-shot

  • يحقق الطلب 3-shot تحسينات هامشية فقط
  • لا توجد تحسينات في السيناريوهات المعقدة
  • يشير إلى أن حدود الأداء تعكس تحديات استدلال أساسية وليس نقص الأمثلة

تحليل الحالات

تحليل أنماط الأخطاء

  1. سوء تحديد فئة العميل: يخطئ النموذج بشكل متكرر في تحديد نوع العميل
  2. إغفال شروط التسعير: تجاهل شروط التسعير المهمة
  3. أخطاء منطق الحزم: صعوبة في تحديد متى يجب استخدام خصومات الحزم
  4. فشل حساب التركيبة الأمثل: عدم القدرة على حساب التركيبة الأمثل لخيارات حزم متعددة صالحة

اختلافات جودة الأكواد

  • الأكواد المولدة من النماذج اللغوية الكبيرة: هياكل خطية مبسطة من نوع if-elif
  • الأكواد المكتوبة يدويًا: نظام تقييم متعدد الخيارات معقد يقارن ويختار الخيار الأمثل بشكل منهجي

الأعمال ذات الصلة

تطبيقات النماذج اللغوية الكبيرة في السيناريوهات الحقيقية

  • تركز الأبحاث الحديثة على تقييم النماذج اللغوية الكبيرة في التطبيقات الحقيقية
  • اختبرت RuleArena قدرة الامتثال للقواعد، لكنها تفتقر إلى معالجة تضارب القواعد
  • يوسع هذا العمل هذا النموذج إلى مجال تسعير السياحة الفعلي

الاستدلال بمساعدة الأكواد

  • تحسين الاستدلال على مهام كثيفة الحساب من خلال الأكواد
  • ركزت الأعمال السابقة على مشاكل رياضية محكومة
  • يوسع هذا الأسلوب النموذج إلى تطبيقات حقيقية تتجاوز تعقيد مشاكل الكتب المدرسية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. حدود الأداء: حتى النماذج المتقدمة لا تزال تؤدي بشكل سيء في سيناريوهات التسعير المعقدة
  2. فعالية طريقة CaR: عادة ما يكون الاستدلال بمساعدة الأكواد أفضل من الطريقة من طرف إلى طرف
  3. التحديات المنهجية: تكشف المهام التي تتضمن قواعد متعددة ومتداخلة عن حدود أساسية في النماذج اللغوية الكبيرة

القيود

  1. نطاق الطريقة محدود: التركيز فقط على طرق E2E و CaR، دون استكشاف أساليب أخرى مثل الضبط الدقيق
  2. تحديات البيئة الديناميكية: طرق الضبط الدقيق غير عملية في بيئات الأعمال الديناميكية
  3. نطاق التقييم: يركز بشكل أساسي على مجال تسعير السياحة

الاتجاهات المستقبلية

  1. تقنيات التكيف مع المجال: تطوير حماية متخصصة للتطبيقات الحرجة للإيرادات
  2. أنظمة الاستدلال الهجينة: دمج الاستدلال الرمزي والطرق العصبية
  3. آليات التحقق في الوقت الفعلي: تطوير آليات كشف وتصحيح الأخطاء في الوقت الفعلي

التقييم المتعمق

المزايا

  1. أهمية عملية كبيرة: حل احتياجات تجارية حقيقية بقيمة تطبيقية مباشرة
  2. تصميم معياري صارم: مبني على بيانات حقيقية مع مستويات صعوبة واضحة
  3. ابتكار منهجي: تصميم طريقة CaR ذكي وفعال في فصل أنواع الأخطاء المختلفة
  4. تحليل عميق وشامل: فحص عميق لأنماط الفشل من خلال تجارب التحكم مثل Oracle

أوجه القصور

  1. محدودية المجال: يركز بشكل أساسي على تسعير السياحة، مع قدرة تعميم غير مؤكدة
  2. تغطية نموذجية محدودة: لم يتضمن معمارية نماذج وإستراتيجيات تدريب أكثر تنوعًا
  3. حلول غير كافية: يركز بشكل أساسي على تحديد المشاكل، مع حلول نسبية محدودة

التأثير

  1. المساهمة الأكاديمية: توفير دليل مهم على حدود النماذج اللغوية الكبيرة في مهام الاستدلال المعقدة
  2. القيمة العملية: توفير مرجع مهم لتطبيقات الذكاء الاصطناعي في صناعة السياحة
  3. المساهمة المنهجية: يمكن تعميم طريقة CaR على مجالات أخرى تتطلب حسابات معقدة

السيناريوهات المعمول بها

  1. التطبيقات الكثيفة للقواعد: مناسبة للسيناريوهات التي تتطلب التعامل مع قواعد معقدة ومتداخلة
  2. المهام الكثيفة الحساب: مجالات التطبيق التي تتطلب حسابات عددية دقيقة
  3. الأنظمة الحرجة للأعمال: تطبيقات ذات متطلبات دقة عالية جدًا

المراجع

تستشهد الورقة بأعمال مهمة من مجالات ذات صلة، بما في ذلك:

  • الأبحاث المتعلقة بتوليد الأكواد وحل المشاكل الرياضية
  • أعمال تقييم تطبيق النماذج اللغوية الكبيرة في سيناريوهات حقيقية
  • الطرق ذات الصلة بنماذج اللغة بمساعدة البرامج

الملخص: تكشف هذه الورقة من خلال بناء أول مجموعة معيارية لتسعير السياحة PricingLogic بشكل منهجي عن حدود النماذج اللغوية الكبيرة الحالية في التعامل مع مهام الاستدلال المعقدة والحقيقية. على الرغم من أن طريقة الاستدلال بمساعدة الأكواد تحقق تحسينات ملحوظة، إلا أنها لا تزال تترك فجوة كبيرة في أصعب المهام، مما يؤكد أهمية إجراء تقييم صارم قبل نشر أنظمة الذكاء الاصطناعي في التطبيقات الحرجة للإيرادات.