2025-11-17T23:01:13.424205

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

Liu, Zhu, Al-Khalili et al.
We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.
academic

PricingLogic: Valutazione del Ragionamento dei LLM su Compiti Complessi di Determinazione dei Prezzi nel Turismo

Informazioni Fondamentali

  • ID Articolo: 2510.12409
  • Titolo: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
  • Autori: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
  • Classificazione: cs.AI
  • Data di Pubblicazione: 14 ottobre 2025
  • Link dell'Articolo: https://arxiv.org/abs/2510.12409

Riassunto

Questo articolo propone PricingLogic, il primo benchmark per valutare le capacità di ragionamento dei modelli di linguaggio di grandi dimensioni (LLM) su compiti complessi di determinazione dei prezzi nel turismo. Il benchmark contiene 300 domande in linguaggio naturale basate su 42 politiche di determinazione dei prezzi del mondo reale, coprendo due livelli di difficoltà: (1) determinazione dei prezzi per tipi di clienti di base e (2) calcoli di pacchetti turistici che coinvolgono sconti interattivi. La valutazione di più LLM rivela un calo drastico delle prestazioni su compiti più difficili, esponendo fallimenti sistematici nell'interpretazione delle regole e nel ragionamento aritmetico.

Contesto della Ricerca e Motivazione

Definizione del Problema

Le agenzie di viaggio hanno urgente necessità di affidare ai sistemi di intelligenza artificiale i compiti di calcolo dei prezzi soggetti a errori, ma la distribuzione di LLM senza verificare l'affidabilità potrebbe causare perdite finanziarie significative e danneggiare la fiducia dei clienti. I benchmark esistenti non riescono a catturare adeguatamente la conoscenza specifica del dominio, la navigazione di regole conflittuali e i requisiti di elevata affidabilità necessari nelle applicazioni pratiche.

Importanza della Ricerca

  1. Valore Pratico Elevato: La determinazione dei prezzi nel turismo coinvolge più destinazioni, diversi tipi di tariffe e politiche di determinazione dei prezzi dinamiche, rendendo la gestione manuale sia dispendiosa in termini di tempo che soggetta a errori
  2. Sfide Tecniche Significative: Richiede ragionamento sotto vincoli complessi, rappresentando una sfida non banale per gli LLM
  3. Necessità Commerciale Urgente: Le agenzie di viaggio desiderano utilizzare sistemi basati su LLM per gestire domande espresse in linguaggio naturale

Limitazioni degli Approcci Esistenti

I benchmark esistenti presentano carenze nella valutazione di come gli LLM affrontano applicazioni nel mondo reale, in particolare in scenari che richiedono competenze specializzate nel dominio, gestione di regole conflittuali e garanzia di elevata affidabilità.

Contributi Fondamentali

  1. Primo Benchmark di Determinazione dei Prezzi nel Turismo: Propone PricingLogic, contenente 300 domande e 42 documenti di politiche di determinazione dei prezzi reali
  2. Valutazione Completa delle Prestazioni: Conduce una valutazione approfondita di più LLM open-source e commerciali, dimostrando che questo compito rappresenta una sfida significativa per gli LLM attuali
  3. Metodo di Ragionamento Assistito da Codice: Dimostra effetti di miglioramento significativi del metodo di ragionamento assistito da codice (CaR) su compiti di ragionamento e calcolo complessi
  4. Analisi dei Fallimenti Sistematici: Rivela problemi sistematici degli LLM nell'interpretazione delle regole e nel ragionamento aritmetico

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Richieste di prenotazione turistica in linguaggio naturale e documenti di politiche di determinazione dei prezzi corrispondenti Output: Calcolo accurato del prezzo totale Vincoli: Necessità di gestire regole tariffarie multiple e sovrapposte, selezionando lo schema di determinazione dei prezzi più vantaggioso per il cliente

Costruzione del Dataset

Raccolta dei Dati

  • Copertura Geografica: 7 attrazioni turistiche, 33 attività diverse
  • Tipi di Clienti: 9 categorie di clienti (turisti ordinari, gruppi contrattuali, anziani, studenti, ecc.)
  • Complessità delle Politiche: Include strutture di determinazione dei prezzi specifiche, soglie di sconto e condizioni speciali

Configurazione dei Compiti

Compito 1: Politiche di Determinazione dei Prezzi Standard

  • Utilizza 33 documenti di determinazione dei prezzi
  • 150 campioni di test
  • Non include pacchetti turistici

Compito 2: Politiche di Determinazione dei Prezzi per Pacchetti

  • Introduce sconti per pacchetti turistici sulla base del Compito 1
  • Aumenta la complessità delle domande
  • Possono esistere più opzioni di determinazione dei prezzi praticabili

Architettura del Modello

Metodo di Prompt End-to-End (E2E)

  • Processo di inferenza singolo per la determinazione dei prezzi
  • Struttura standardizzata dei documenti di politiche di determinazione dei prezzi e terminologia
  • Guida gli LLM attraverso due fasi: identificazione degli articoli e calcolo del prezzo

Metodo di Ragionamento Assistito da Codice (CaR)

Prima Fase: Genera funzioni di calcolo dedicate per ogni file di politica di determinazione dei prezzi Seconda Fase: Analizza gli ordini in linguaggio naturale, estrae informazioni rilevanti e le converte in parametri di input del codice

Punti di Innovazione Tecnica

  1. Progettazione a Due Fasi Separata: Separa l'interpretazione delle politiche dall'estrazione dei parametri, migliorando la capacità di gestire la logica di determinazione dei prezzi complessa
  2. Modellazione dei Vincoli Pratici: Gestisce vincoli pratici come gruppi di clienti diversificati e regole di sconto sovrapposte
  3. Esperimenti di Controllo Oracle: Separa gli errori di generazione del codice dagli errori di estrazione dei parametri attraverso il metodo CaR-Oracle

Configurazione Sperimentale

Dataset

  • Numero Totale di Domande: 300 domande in linguaggio naturale
  • Distribuzione della Difficoltà: Domande/compiti facili (60), medi (50), difficili (40)
  • Documenti di Politiche: 42 documenti di politiche di determinazione dei prezzi del mondo reale

Metriche di Valutazione

Utilizza la corrispondenza esatta (exact match) per confrontare le previsioni del modello con le risposte corrette, riportando l'accuratezza

Metodi di Confronto

Valuta più LLM recenti:

  • Modelli Commerciali: GPT-4o, DeepSeek-V3/R1, Claude Sonnet 4
  • Modelli Open-Source: Qwen2.5-7B/32B/Max

Dettagli di Implementazione

  • Temperatura impostata a 0.0 per garantire output deterministici
  • Introduce condizioni di controllo CaR-Oracle per separare le fonti di errore
  • Confronta le prestazioni 0-shot e 3-shot

Risultati Sperimentali

Risultati Principali

Risultati del Compito 1

Domande Semplici:

  • Metodo E2E: Tutti i modelli tranne Qwen2.5-7B raggiungono un'accuratezza superiore al 76%
  • Metodo CaR: La maggior parte dei modelli raggiunge un'accuratezza superiore al 90%
  • Miglior Prestazione: Claude Sonnet 4 raggiunge il 96,67% (CaR)

Domande Difficili:

  • Metodo E2E: Tutti i modelli raggiungono a malapena un'accuratezza superiore al 50%
  • Metodo CaR: Rimane al di sotto del 60%, con spazio significativo per miglioramenti

Risultati del Compito 2

Calo Evidente delle Prestazioni:

  • Anche il più forte Claude Sonnet 4 raggiunge solo il 35,0% di accuratezza E2E su domande difficili
  • Il metodo CaR porta miglioramenti significativi, in particolare su domande di difficoltà media

Esperimenti di Ablazione

Analisi CaR-Oracle

  • Compiti Semplici: Tre LLM utilizzando codice oracle raggiungono il 100% di accuratezza
  • Compiti Medi: Il codice generato presenta difetti significativi, ma gli LLM forti riescono comunque a mappare correttamente i parametri
  • Compiti Difficili: Anche utilizzando codice scritto manualmente, i modelli faticano a fornire parametri corretti

Confronto 3-shot vs 0-shot

  • Il prompt 3-shot porta solo miglioramenti marginali
  • Nessun miglioramento in scenari complessi
  • Suggerisce che i limiti di prestazione riflettono sfide di ragionamento fondamentali piuttosto che insufficienza di dimostrazioni

Analisi dei Casi

Analisi dei Modelli di Errore

  1. Identificazione Errata della Categoria di Clienti: I modelli identificano frequentemente in modo errato il tipo di cliente
  2. Omissione di Condizioni di Determinazione dei Prezzi: Trascurano condizioni importanti di determinazione dei prezzi
  3. Errori nella Logica dei Pacchetti: Difficoltà nell'identificare quando utilizzare sconti per pacchetti
  4. Fallimento nel Calcolo della Combinazione Ottimale: Incapacità di calcolare la combinazione ottimale di più opzioni di pacchetto valide

Differenze nella Qualità del Codice

  • Codice Generato da LLM: Struttura lineare semplificata if-elif
  • Codice Scritto Manualmente: Sistema complesso di valutazione di più opzioni, che confronta e seleziona sistematicamente la soluzione ottimale

Lavori Correlati

Applicazioni degli LLM in Scenari Reali

  • Ricerche recenti si concentrano sulla valutazione degli LLM nelle applicazioni pratiche
  • RuleArena testa la capacità di conformità alle regole, ma manca della gestione dei conflitti tra regole
  • Questo lavoro estende questo paradigma al dominio pratico della determinazione dei prezzi nel turismo

Ragionamento Assistito da Codice

  • Migliora il ragionamento degli LLM su compiti computazionalmente intensivi attraverso il codice
  • I lavori precedenti si concentrano principalmente su problemi matematici controllati
  • Questo metodo estende il paradigma ad applicazioni nel mondo reale che vanno oltre la complessità dei problemi nei libri di testo

Conclusioni e Discussione

Conclusioni Principali

  1. Limitazioni di Prestazione: Anche gli LLM avanzati mostrano prestazioni scadenti in scenari di determinazione dei prezzi complessi
  2. Efficacia del Metodo CaR: Il ragionamento assistito da codice generalmente supera l'approccio end-to-end
  3. Sfide Sistematiche: I compiti che coinvolgono regole multiple e sovrapposte espongono limitazioni fondamentali degli LLM

Limitazioni

  1. Ambito del Metodo Limitato: Si concentra solo su metodi E2E e CaR, non esplora altri approcci come il fine-tuning
  2. Sfide in Ambienti Dinamici: I metodi di fine-tuning non sono pratici in ambienti commerciali dinamici
  3. Ambito della Valutazione: Si concentra principalmente sul dominio della determinazione dei prezzi nel turismo

Direzioni Future

  1. Tecniche di Adattamento del Dominio: Sviluppare safeguard specializzati per applicazioni critiche per i ricavi
  2. Sistemi di Ragionamento Ibrido: Combinare ragionamento simbolico e metodi neurali
  3. Meccanismi di Validazione in Tempo Reale: Sviluppare meccanismi per il rilevamento e la correzione degli errori in tempo reale

Valutazione Approfondita

Punti di Forza

  1. Significato Pratico Rilevante: Affronta esigenze commerciali reali con valore di applicazione diretta
  2. Progettazione Rigorosa del Benchmark: Costruito su dati reali con livelli di difficoltà ben definiti
  3. Innovazione Metodologica: Il metodo CaR è ingegnosamente progettato e separa efficacemente diversi tipi di errori
  4. Analisi Profonda e Completa: Analizza i modelli di fallimento attraverso esperimenti di controllo come Oracle

Carenze

  1. Limitazione del Dominio: Si concentra principalmente sulla determinazione dei prezzi nel turismo, la capacità di generalizzazione rimane da verificare
  2. Copertura di Modelli Limitata: Non include architetture di modelli e strategie di addestramento più diversificate
  3. Soluzioni Insufficienti: Principalmente identifica i problemi, ma le soluzioni proposte sono relativamente limitate

Impatto

  1. Contributo Accademico: Fornisce prove importanti delle limitazioni degli LLM nei compiti di ragionamento complesso
  2. Valore Pratico: Fornisce riferimenti importanti per le applicazioni di IA nell'industria del turismo
  3. Contributo Metodologico: Il metodo CaR può essere generalizzato ad altri campi che richiedono calcoli complessi

Scenari Applicabili

  1. Applicazioni Intensive di Regole: Adatto a scenari che richiedono la gestione di regole complesse e sovrapposte
  2. Compiti Computazionalmente Intensivi: Campi di applicazione che richiedono calcoli numerici precisi
  3. Sistemi Critici per il Business: Applicazioni revenue-critical con requisiti di accuratezza estremamente elevati

Bibliografia

L'articolo cita numerosi lavori importanti nei campi correlati, inclusi:

  • Ricerche correlate sulla generazione di codice e la risoluzione di problemi matematici
  • Lavori di valutazione dell'applicazione degli LLM in scenari reali
  • Metodi correlati di modelli di linguaggio assistiti da programmi

Sintesi: Questo articolo, attraverso la costruzione del primo benchmark di determinazione dei prezzi nel turismo PricingLogic, rivela sistematicamente le limitazioni degli LLM attuali nell'affrontare compiti di ragionamento complessi e nel mondo reale. Sebbene il metodo di ragionamento assistito da codice porti miglioramenti significativi, rimane un gap sostanziale nei compiti più difficili, sottolineando l'importanza di una valutazione rigorosa prima di distribuire sistemi di IA in applicazioni revenue-critical.