2025-11-17T23:01:13.424205

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

Liu, Zhu, Al-Khalili et al.
We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.
academic

PricingLogic: Bewertung der Reasoning-Fähigkeiten von LLMs bei komplexen Tourismuspreisaufgaben

Grundlegende Informationen

  • Paper-ID: 2510.12409
  • Titel: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
  • Autoren: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
  • Klassifizierung: cs.AI
  • Veröffentlichungsdatum: 14. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.12409

Zusammenfassung

In diesem Artikel wird PricingLogic vorgestellt, ein erstes Benchmark-System zur Bewertung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) bei komplexen Tourismuspreisaufgaben. Das Benchmark umfasst 300 auf 42 realen Preisrichtlinien basierende Fragen in natürlicher Sprache, die zwei Schwierigkeitsstufen abdecken: (1) grundlegende Kundentyp-Preisgestaltung und (2) Pauschalreiseberechnungen mit interaktiven Rabatten. Die Bewertung mehrerer LLMs zeigt einen drastischen Leistungsabfall bei schwierigeren Aufgaben und offenbart systematische Fehler bei der Regelinterpretation und arithmetischen Reasoning.

Forschungshintergrund und Motivation

Problemdefinition

Reisebüros benötigen dringend die Übertragung fehleranfälliger Preisberechnungsaufgaben an KI-Systeme. Die Bereitstellung von LLMs ohne Zuverlässigkeitsvalidierung kann jedoch zu erheblichen finanziellen Verlusten und Vertrauensverlust bei Kunden führen. Bestehende Benchmark-Systeme erfassen nicht ausreichend die domänenspezifischen Kenntnisse, die Navigation durch widersprüchliche Regeln und hohen Zuverlässigkeitsanforderungen, die in praktischen Anwendungen erforderlich sind.

Forschungsrelevanz

  1. Hoher praktischer Wert: Tourismuspreisgestaltung umfasst mehrere Ziele, verschiedene Tariftypen und dynamische Preisrichtlinien, deren manuelle Bearbeitung zeitaufwändig und fehleranfällig ist
  2. Große technische Herausforderungen: Erfordert Reasoning unter komplexen Einschränkungen, was für LLMs eine nicht-triviale Herausforderung darstellt
  3. Dringende geschäftliche Anforderungen: Reisebüros wünschen sich LLM-basierte Systeme zur Verarbeitung natürlichsprachlich ausgedrückter Fragen

Einschränkungen bestehender Methoden

Bestehende Benchmark-Systeme weisen Mängel bei der Bewertung von LLMs in realen Anwendungen auf, besonders in Szenarien, die Domänenfachkenntnisse, Umgang mit widersprüchlichen Regeln und hohe Zuverlässigkeitsgarantien erfordern.

Kernbeiträge

  1. Erstes Tourismuspreisgestaltungs-Benchmark: Vorstellung von PricingLogic mit 300 Fragen und 42 realen Preisrichtliniendokumenten
  2. Umfassende Leistungsbewertung: Gründliche Bewertung mehrerer Open-Source- und kommerzieller LLMs, die zeigt, dass diese Aufgabe eine erhebliche Herausforderung für aktuelle LLMs darstellt
  3. Code-gestützte Reasoning-Methode: Demonstration signifikanter Verbesserungen der Code-gestützten Reasoning-Methode (CaR) bei komplexen Reasoning- und Berechnungsaufgaben
  4. Analyse systematischer Fehler: Offenlegung systematischer Probleme von LLMs bei Regelinterpretation und arithmetischem Reasoning

Methodische Details

Aufgabendefinition

Eingabe: Natürlichsprachige Tourismusbuchungsanfragen und entsprechende Preisrichtliniendokumente Ausgabe: Genaue Gesamtpreisberechnung Einschränkungen: Umgang mit mehrfachen, überlappenden Tarifregeln erforderlich; Auswahl des günstigsten Preisplans für den Kunden

Datensatzkonstruktion

Datenerfassung

  • Geografische Abdeckung: 7 Touristenattraktionen, 33 verschiedene Aktivitäten
  • Kundentypen: 9 Kundentypen (Freizeittouristen, Vertraggruppen, Senioren, Studenten usw.)
  • Richtlinienkomplexität: Enthält spezifische Preisstrukturen, Rabattschwellen und Sonderbedingungen

Aufgabengestaltung

Aufgabe 1: Standard-Preisrichtlinien

  • Verwendung von 33 Preisrichtliniendokumenten
  • 150 Testbeispiele
  • Keine Pauschalpaketierung

Aufgabe 2: Pauschalreise-Preisrichtlinien

  • Einführung von Pauschalreiserabatten basierend auf Aufgabe 1
  • Erhöhte Aufgabenkomplexität
  • Möglicherweise mehrere machbare Preisoptionen

Modellarchitektur

End-to-End-Prompting-Methode (E2E)

  • Einmaliger Reasoning-Prozess für Preisgestaltung
  • Standardisierung von Preisrichtliniendokumentstruktur und Terminologie
  • Anleitung von LLMs durch zwei Phasen: Artikelerkennung und Preisberechnung

Code-gestützte Reasoning-Methode (CaR)

Phase 1: Generierung dedizierter Taschenrechnerfunktionen für jede Preisrichtliniendatei Phase 2: Analyse natürlichsprachiger Bestellungen, Extraktion relevanter Informationen und Umwandlung in Code-Eingabeparameter

Technische Innovationen

  1. Zweiphasiges Separationsdesign: Trennung von Richtlinieninterpretation und Parameterextraktion zur Verbesserung der Verarbeitung komplexer Preislogik
  2. Modellierung praktischer Einschränkungen: Umgang mit vielfältigen Kundengruppen und überlappenden Rabattregeln
  3. Oracle-Kontrollexperimente: Trennung von Code-Generierungsfehlern und Parameterextraktionsfehlern durch die CaR-Oracle-Methode

Experimentelle Einrichtung

Datensatz

  • Gesamtzahl der Fragen: 300 natürlichsprachige Fragen
  • Schwierigkeitsverteilung: Einfach (60), Mittel (50), Schwierig (40) Aufgaben
  • Richtliniendokumente: 42 reale Preisrichtliniendokumente

Bewertungsmetriken

Verwendung von exaktem Abgleich (exact match) zum Vergleich von Modellvorhersagen mit korrekten Antworten; Berichterstattung der Genauigkeit

Vergleichsmethoden

Bewertung mehrerer aktueller LLMs:

  • Kommerzielle Modelle: GPT-4o, DeepSeek-V3/R1, Claude Sonnet 4
  • Open-Source-Modelle: Qwen2.5-7B/32B/Max

Implementierungsdetails

  • Temperatureinstellung auf 0,0 für deterministische Ausgaben
  • Einführung von CaR-Oracle-Kontrollbedingungen zur Fehlerquellentrennung
  • Vergleich von 0-Shot- und 3-Shot-Leistung

Experimentelle Ergebnisse

Hauptergebnisse

Ergebnisse Aufgabe 1

Einfache Fragen:

  • E2E-Methode: Alle Modelle außer Qwen2.5-7B erreichen Genauigkeit über 76%
  • CaR-Methode: Die meisten Modelle erreichen Genauigkeit über 90%
  • Beste Leistung: Claude Sonnet 4 erreicht 96,67% (CaR)

Schwierige Fragen:

  • E2E-Methode: Alle Modelle erreichen knapp über 50% Genauigkeit
  • CaR-Methode: Immer noch unter 60%, erheblicher Verbesserungsspielraum vorhanden

Ergebnisse Aufgabe 2

Deutlicher Leistungsabfall:

  • Selbst das stärkste Claude Sonnet 4 erreicht nur 35,0% E2E-Genauigkeit bei schwierigen Fragen
  • CaR-Methode bringt signifikante Verbesserungen, besonders bei mittelschweren Aufgaben

Ablationsstudien

CaR-Oracle-Analyse

  • Einfache Aufgaben: Drei LLMs erreichen mit Oracle-Code 100% Genauigkeit
  • Mittelschwere Aufgaben: Generierter Code weist erhebliche Mängel auf, aber starke LLMs können Parameter dennoch korrekt zuordnen
  • Schwierige Aufgaben: Selbst mit manuell geschriebenem Code können Modelle schwer korrekte Parameter bereitstellen

3-Shot vs. 0-Shot-Vergleich

  • 3-Shot-Prompting bringt nur marginale Verbesserungen
  • Keine Verbesserung in komplexen Szenarien
  • Deutet darauf hin, dass Leistungsbegrenzungen grundlegende Reasoning-Herausforderungen widerspiegeln, nicht unzureichende Demonstrationen

Fallstudienanalyse

Fehlermuster-Analyse

  1. Kundentyp-Fehlidentifikation: Modelle identifizieren Kundentypen häufig falsch
  2. Preisbedingungs-Auslassung: Übersehen wichtiger Preisbedingungen
  3. Pauschalreise-Logikfehler: Schwierigkeiten bei der Erkennung, wann Pauschalreiserabatte verwendet werden sollten
  4. Optimale Kombinationsberechnung fehlgeschlagen: Unfähigkeit, optimale Kombinationen mehrerer gültiger Pauschaloptionen zu berechnen

Code-Qualitätsunterschiede

  • LLM-generierter Code: Vereinfachte lineare if-elif-Struktur
  • Manuell geschriebener Code: Komplexes Multi-Optionen-Bewertungssystem mit systematischem Vergleich und Auswahl der optimalen Lösung

Verwandte Arbeiten

Anwendungen von LLMs in realen Szenarien

  • Neuere Forschung konzentriert sich auf die Bewertung von LLMs in echten Anwendungen
  • RuleArena testet Regelkonformitätsfähigkeiten, fehlt aber bei der Behandlung von Regelkonflikten
  • Diese Arbeit erweitert dieses Paradigma auf das praktische Tourismuspreisgestaltungsfeld

Code-gestütztes Reasoning

  • Verbesserung des LLM-Reasoning bei rechenintensiven Aufgaben durch Code
  • Frühere Arbeiten konzentrierten sich hauptsächlich auf kontrollierte mathematische Probleme
  • Diese Methode erweitert das Paradigma auf reale Anwendungen, die über die Komplexität von Lehrbuchproblemen hinausgehen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Leistungsbegrenzungen: Selbst fortgeschrittene LLMs zeigen schlechte Leistung in komplexen Preisgestaltungsszenarien
  2. CaR-Methode wirksam: Code-gestütztes Reasoning ist typischerweise überlegen gegenüber End-to-End-Methoden
  3. Systematische Herausforderungen: Aufgaben mit mehrfachen, überlappenden Regeln offenbaren grundlegende Grenzen von LLMs

Einschränkungen

  1. Begrenzte Methodenreichweite: Konzentriert sich nur auf E2E- und CaR-Methoden, erforscht nicht andere Ansätze wie Fine-Tuning
  2. Herausforderungen in dynamischen Umgebungen: Fine-Tuning-Methoden sind in dynamischen Geschäftsumgebungen unpraktisch
  3. Bewertungsumfang: Konzentriert sich hauptsächlich auf das Tourismuspreisgestaltungsfeld

Zukünftige Richtungen

  1. Domänenanpassungstechniken: Entwicklung spezialisierter Schutzmaßnahmen für umsatzkritische Anwendungen
  2. Hybride Reasoning-Systeme: Kombination symbolischer und neuronaler Methoden
  3. Echtzeit-Validierungsmechanismen: Entwicklung von Echtzeit-Fehlererkennungs- und Korrekturmechanismen

Tiefgreifende Bewertung

Stärken

  1. Große praktische Bedeutung: Löst echte geschäftliche Anforderungen mit direktem Anwendungswert
  2. Strenge Benchmark-Gestaltung: Auf realen Daten basierend mit klaren Schwierigkeitsstufen
  3. Methodische Innovation: CaR-Methode ist geschickt gestaltet und trennt effektiv verschiedene Fehlertypen
  4. Tiefgreifende und umfassende Analyse: Gründliche Analyse von Fehlermustern durch Kontrollexperimente wie Oracle

Mängel

  1. Domänenbegrenzung: Konzentriert sich hauptsächlich auf Tourismuspreisgestaltung; Generalisierungsfähigkeit zu überprüfen
  2. Begrenzte Modellabdeckung: Nicht alle vielfältigen Modellarchitekturen und Trainingsstrategien enthalten
  3. Unzureichende Lösungen: Konzentriert sich hauptsächlich auf Problemidentifikation; vorgeschlagene Lösungen sind relativ begrenzt

Auswirkungen

  1. Akademischer Beitrag: Liefert wichtige Evidenz für Grenzen von LLMs bei komplexen Reasoning-Aufgaben
  2. Praktischer Wert: Bietet wichtige Referenzen für KI-Anwendungen in der Tourismusbranche
  3. Methodologischer Beitrag: CaR-Methode kann auf andere Felder mit komplexen Berechnungsanforderungen übertragen werden

Anwendungsszenarien

  1. Regelintensive Anwendungen: Geeignet für Szenarien, die komplexe, überlappende Regeln erfordern
  2. Rechenintensive Aufgaben: Anwendungsfelder, die genaue numerische Berechnungen erfordern
  3. Geschäftskritische Systeme: Anwendungen mit extremen Genauigkeitsanforderungen in umsatzkritischen Bereichen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten aus mehreren verwandten Bereichen, einschließlich:

  • Verwandte Forschung zu Code-Generierung und mathematischer Problemlösung
  • Bewertungsarbeiten zu LLM-Anwendungen in realen Szenarien
  • Verwandte Methoden zu programmgestützten Sprachmodellen

Zusammenfassung: Dieser Artikel offenbart durch die Konstruktion des ersten Tourismuspreisgestaltungs-Benchmarks PricingLogic systematisch die Grenzen aktueller LLMs bei der Verarbeitung komplexer, realer Reasoning-Aufgaben. Obwohl die Code-gestützte Reasoning-Methode erhebliche Verbesserungen bringt, besteht bei den schwierigsten Aufgaben immer noch eine erhebliche Lücke. Dies unterstreicht die Wichtigkeit strenger Bewertungen vor der Bereitstellung von KI-Systemen in umsatzkritischen Anwendungen.