2025-11-17T23:01:13.424205

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

Liu, Zhu, Al-Khalili et al.

We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.

academic

PricingLogic: Bewertung der Reasoning-Fähigkeiten von LLMs bei komplexen Tourismuspreisaufgaben

Grundlegende Informationen

Paper-ID: 2510.12409
Titel: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
Autoren: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
Klassifizierung: cs.AI
Veröffentlichungsdatum: 14. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.12409

Zusammenfassung

In diesem Artikel wird PricingLogic vorgestellt, ein erstes Benchmark-System zur Bewertung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) bei komplexen Tourismuspreisaufgaben. Das Benchmark umfasst 300 auf 42 realen Preisrichtlinien basierende Fragen in natürlicher Sprache, die zwei Schwierigkeitsstufen abdecken: (1) grundlegende Kundentyp-Preisgestaltung und (2) Pauschalreiseberechnungen mit interaktiven Rabatten. Die Bewertung mehrerer LLMs zeigt einen drastischen Leistungsabfall bei schwierigeren Aufgaben und offenbart systematische Fehler bei der Regelinterpretation und arithmetischen Reasoning.

Forschungshintergrund und Motivation

Problemdefinition

Reisebüros benötigen dringend die Übertragung fehleranfälliger Preisberechnungsaufgaben an KI-Systeme. Die Bereitstellung von LLMs ohne Zuverlässigkeitsvalidierung kann jedoch zu erheblichen finanziellen Verlusten und Vertrauensverlust bei Kunden führen. Bestehende Benchmark-Systeme erfassen nicht ausreichend die domänenspezifischen Kenntnisse, die Navigation durch widersprüchliche Regeln und hohen Zuverlässigkeitsanforderungen, die in praktischen Anwendungen erforderlich sind.

Forschungsrelevanz

Hoher praktischer Wert: Tourismuspreisgestaltung umfasst mehrere Ziele, verschiedene Tariftypen und dynamische Preisrichtlinien, deren manuelle Bearbeitung zeitaufwändig und fehleranfällig ist
Große technische Herausforderungen: Erfordert Reasoning unter komplexen Einschränkungen, was für LLMs eine nicht-triviale Herausforderung darstellt
Dringende geschäftliche Anforderungen: Reisebüros wünschen sich LLM-basierte Systeme zur Verarbeitung natürlichsprachlich ausgedrückter Fragen

Einschränkungen bestehender Methoden

Bestehende Benchmark-Systeme weisen Mängel bei der Bewertung von LLMs in realen Anwendungen auf, besonders in Szenarien, die Domänenfachkenntnisse, Umgang mit widersprüchlichen Regeln und hohe Zuverlässigkeitsgarantien erfordern.

Kernbeiträge

Erstes Tourismuspreisgestaltungs-Benchmark: Vorstellung von PricingLogic mit 300 Fragen und 42 realen Preisrichtliniendokumenten
Umfassende Leistungsbewertung: Gründliche Bewertung mehrerer Open-Source- und kommerzieller LLMs, die zeigt, dass diese Aufgabe eine erhebliche Herausforderung für aktuelle LLMs darstellt
Code-gestützte Reasoning-Methode: Demonstration signifikanter Verbesserungen der Code-gestützten Reasoning-Methode (CaR) bei komplexen Reasoning- und Berechnungsaufgaben
Analyse systematischer Fehler: Offenlegung systematischer Probleme von LLMs bei Regelinterpretation und arithmetischem Reasoning

Methodische Details

Aufgabendefinition

Eingabe: Natürlichsprachige Tourismusbuchungsanfragen und entsprechende Preisrichtliniendokumente Ausgabe: Genaue Gesamtpreisberechnung Einschränkungen: Umgang mit mehrfachen, überlappenden Tarifregeln erforderlich; Auswahl des günstigsten Preisplans für den Kunden

Datensatzkonstruktion

Datenerfassung

Geografische Abdeckung: 7 Touristenattraktionen, 33 verschiedene Aktivitäten
Kundentypen: 9 Kundentypen (Freizeittouristen, Vertraggruppen, Senioren, Studenten usw.)
Richtlinienkomplexität: Enthält spezifische Preisstrukturen, Rabattschwellen und Sonderbedingungen

Aufgabengestaltung

Aufgabe 1: Standard-Preisrichtlinien

Verwendung von 33 Preisrichtliniendokumenten
150 Testbeispiele
Keine Pauschalpaketierung

Aufgabe 2: Pauschalreise-Preisrichtlinien

Einführung von Pauschalreiserabatten basierend auf Aufgabe 1
Erhöhte Aufgabenkomplexität
Möglicherweise mehrere machbare Preisoptionen

Modellarchitektur

End-to-End-Prompting-Methode (E2E)

Einmaliger Reasoning-Prozess für Preisgestaltung
Standardisierung von Preisrichtliniendokumentstruktur und Terminologie
Anleitung von LLMs durch zwei Phasen: Artikelerkennung und Preisberechnung

Code-gestützte Reasoning-Methode (CaR)

Phase 1: Generierung dedizierter Taschenrechnerfunktionen für jede Preisrichtliniendatei Phase 2: Analyse natürlichsprachiger Bestellungen, Extraktion relevanter Informationen und Umwandlung in Code-Eingabeparameter

Technische Innovationen

Zweiphasiges Separationsdesign: Trennung von Richtlinieninterpretation und Parameterextraktion zur Verbesserung der Verarbeitung komplexer Preislogik
Modellierung praktischer Einschränkungen: Umgang mit vielfältigen Kundengruppen und überlappenden Rabattregeln
Oracle-Kontrollexperimente: Trennung von Code-Generierungsfehlern und Parameterextraktionsfehlern durch die CaR-Oracle-Methode

Experimentelle Einrichtung

Datensatz

Gesamtzahl der Fragen: 300 natürlichsprachige Fragen
Schwierigkeitsverteilung: Einfach (60), Mittel (50), Schwierig (40) Aufgaben
Richtliniendokumente: 42 reale Preisrichtliniendokumente

Bewertungsmetriken

Verwendung von exaktem Abgleich (exact match) zum Vergleich von Modellvorhersagen mit korrekten Antworten; Berichterstattung der Genauigkeit

Vergleichsmethoden

Bewertung mehrerer aktueller LLMs:

Kommerzielle Modelle: GPT-4o, DeepSeek-V3/R1, Claude Sonnet 4
Open-Source-Modelle: Qwen2.5-7B/32B/Max

Implementierungsdetails

Temperatureinstellung auf 0,0 für deterministische Ausgaben
Einführung von CaR-Oracle-Kontrollbedingungen zur Fehlerquellentrennung
Vergleich von 0-Shot- und 3-Shot-Leistung

Experimentelle Ergebnisse

Hauptergebnisse

Ergebnisse Aufgabe 1

Einfache Fragen:

E2E-Methode: Alle Modelle außer Qwen2.5-7B erreichen Genauigkeit über 76%
CaR-Methode: Die meisten Modelle erreichen Genauigkeit über 90%
Beste Leistung: Claude Sonnet 4 erreicht 96,67% (CaR)

Schwierige Fragen:

E2E-Methode: Alle Modelle erreichen knapp über 50% Genauigkeit
CaR-Methode: Immer noch unter 60%, erheblicher Verbesserungsspielraum vorhanden

Ergebnisse Aufgabe 2

Deutlicher Leistungsabfall:

Selbst das stärkste Claude Sonnet 4 erreicht nur 35,0% E2E-Genauigkeit bei schwierigen Fragen
CaR-Methode bringt signifikante Verbesserungen, besonders bei mittelschweren Aufgaben

Ablationsstudien

CaR-Oracle-Analyse

Einfache Aufgaben: Drei LLMs erreichen mit Oracle-Code 100% Genauigkeit
Mittelschwere Aufgaben: Generierter Code weist erhebliche Mängel auf, aber starke LLMs können Parameter dennoch korrekt zuordnen
Schwierige Aufgaben: Selbst mit manuell geschriebenem Code können Modelle schwer korrekte Parameter bereitstellen

3-Shot vs. 0-Shot-Vergleich

3-Shot-Prompting bringt nur marginale Verbesserungen
Keine Verbesserung in komplexen Szenarien
Deutet darauf hin, dass Leistungsbegrenzungen grundlegende Reasoning-Herausforderungen widerspiegeln, nicht unzureichende Demonstrationen

Fallstudienanalyse

Fehlermuster-Analyse

Kundentyp-Fehlidentifikation: Modelle identifizieren Kundentypen häufig falsch
Preisbedingungs-Auslassung: Übersehen wichtiger Preisbedingungen
Pauschalreise-Logikfehler: Schwierigkeiten bei der Erkennung, wann Pauschalreiserabatte verwendet werden sollten
Optimale Kombinationsberechnung fehlgeschlagen: Unfähigkeit, optimale Kombinationen mehrerer gültiger Pauschaloptionen zu berechnen

Code-Qualitätsunterschiede

LLM-generierter Code: Vereinfachte lineare if-elif-Struktur
Manuell geschriebener Code: Komplexes Multi-Optionen-Bewertungssystem mit systematischem Vergleich und Auswahl der optimalen Lösung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Leistungsbegrenzungen: Selbst fortgeschrittene LLMs zeigen schlechte Leistung in komplexen Preisgestaltungsszenarien
CaR-Methode wirksam: Code-gestütztes Reasoning ist typischerweise überlegen gegenüber End-to-End-Methoden
Systematische Herausforderungen: Aufgaben mit mehrfachen, überlappenden Regeln offenbaren grundlegende Grenzen von LLMs

Einschränkungen

Begrenzte Methodenreichweite: Konzentriert sich nur auf E2E- und CaR-Methoden, erforscht nicht andere Ansätze wie Fine-Tuning
Herausforderungen in dynamischen Umgebungen: Fine-Tuning-Methoden sind in dynamischen Geschäftsumgebungen unpraktisch
Bewertungsumfang: Konzentriert sich hauptsächlich auf das Tourismuspreisgestaltungsfeld

Zukünftige Richtungen

Domänenanpassungstechniken: Entwicklung spezialisierter Schutzmaßnahmen für umsatzkritische Anwendungen
Hybride Reasoning-Systeme: Kombination symbolischer und neuronaler Methoden
Echtzeit-Validierungsmechanismen: Entwicklung von Echtzeit-Fehlererkennungs- und Korrekturmechanismen

Tiefgreifende Bewertung

Stärken

Große praktische Bedeutung: Löst echte geschäftliche Anforderungen mit direktem Anwendungswert
Strenge Benchmark-Gestaltung: Auf realen Daten basierend mit klaren Schwierigkeitsstufen
Methodische Innovation: CaR-Methode ist geschickt gestaltet und trennt effektiv verschiedene Fehlertypen
Tiefgreifende und umfassende Analyse: Gründliche Analyse von Fehlermustern durch Kontrollexperimente wie Oracle

Mängel

Domänenbegrenzung: Konzentriert sich hauptsächlich auf Tourismuspreisgestaltung; Generalisierungsfähigkeit zu überprüfen
Begrenzte Modellabdeckung: Nicht alle vielfältigen Modellarchitekturen und Trainingsstrategien enthalten
Unzureichende Lösungen: Konzentriert sich hauptsächlich auf Problemidentifikation; vorgeschlagene Lösungen sind relativ begrenzt

Auswirkungen

Akademischer Beitrag: Liefert wichtige Evidenz für Grenzen von LLMs bei komplexen Reasoning-Aufgaben
Praktischer Wert: Bietet wichtige Referenzen für KI-Anwendungen in der Tourismusbranche
Methodologischer Beitrag: CaR-Methode kann auf andere Felder mit komplexen Berechnungsanforderungen übertragen werden

Anwendungsszenarien

Regelintensive Anwendungen: Geeignet für Szenarien, die komplexe, überlappende Regeln erfordern
Rechenintensive Aufgaben: Anwendungsfelder, die genaue numerische Berechnungen erfordern
Geschäftskritische Systeme: Anwendungen mit extremen Genauigkeitsanforderungen in umsatzkritischen Bereichen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten aus mehreren verwandten Bereichen, einschließlich:

Verwandte Forschung zu Code-Generierung und mathematischer Problemlösung
Bewertungsarbeiten zu LLM-Anwendungen in realen Szenarien
Verwandte Methoden zu programmgestützten Sprachmodellen

Zusammenfassung: Dieser Artikel offenbart durch die Konstruktion des ersten Tourismuspreisgestaltungs-Benchmarks PricingLogic systematisch die Grenzen aktueller LLMs bei der Verarbeitung komplexer, realer Reasoning-Aufgaben. Obwohl die Code-gestützte Reasoning-Methode erhebliche Verbesserungen bringt, besteht bei den schwierigsten Aufgaben immer noch eine erhebliche Lücke. Dies unterstreicht die Wichtigkeit strenger Bewertungen vor der Bereitstellung von KI-Systemen in umsatzkritischen Anwendungen.