2025-11-17T23:01:13.424205

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

Liu, Zhu, Al-Khalili et al.

We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.

academic

PricingLogic: Valutazione del Ragionamento dei LLM su Compiti Complessi di Determinazione dei Prezzi nel Turismo

Informazioni Fondamentali

ID Articolo: 2510.12409
Titolo: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
Autori: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
Classificazione: cs.AI
Data di Pubblicazione: 14 ottobre 2025
Link dell'Articolo: https://arxiv.org/abs/2510.12409

Riassunto

Questo articolo propone PricingLogic, il primo benchmark per valutare le capacità di ragionamento dei modelli di linguaggio di grandi dimensioni (LLM) su compiti complessi di determinazione dei prezzi nel turismo. Il benchmark contiene 300 domande in linguaggio naturale basate su 42 politiche di determinazione dei prezzi del mondo reale, coprendo due livelli di difficoltà: (1) determinazione dei prezzi per tipi di clienti di base e (2) calcoli di pacchetti turistici che coinvolgono sconti interattivi. La valutazione di più LLM rivela un calo drastico delle prestazioni su compiti più difficili, esponendo fallimenti sistematici nell'interpretazione delle regole e nel ragionamento aritmetico.

Contesto della Ricerca e Motivazione

Definizione del Problema

Le agenzie di viaggio hanno urgente necessità di affidare ai sistemi di intelligenza artificiale i compiti di calcolo dei prezzi soggetti a errori, ma la distribuzione di LLM senza verificare l'affidabilità potrebbe causare perdite finanziarie significative e danneggiare la fiducia dei clienti. I benchmark esistenti non riescono a catturare adeguatamente la conoscenza specifica del dominio, la navigazione di regole conflittuali e i requisiti di elevata affidabilità necessari nelle applicazioni pratiche.

Importanza della Ricerca

Valore Pratico Elevato: La determinazione dei prezzi nel turismo coinvolge più destinazioni, diversi tipi di tariffe e politiche di determinazione dei prezzi dinamiche, rendendo la gestione manuale sia dispendiosa in termini di tempo che soggetta a errori
Sfide Tecniche Significative: Richiede ragionamento sotto vincoli complessi, rappresentando una sfida non banale per gli LLM
Necessità Commerciale Urgente: Le agenzie di viaggio desiderano utilizzare sistemi basati su LLM per gestire domande espresse in linguaggio naturale

Limitazioni degli Approcci Esistenti

I benchmark esistenti presentano carenze nella valutazione di come gli LLM affrontano applicazioni nel mondo reale, in particolare in scenari che richiedono competenze specializzate nel dominio, gestione di regole conflittuali e garanzia di elevata affidabilità.

Contributi Fondamentali

Primo Benchmark di Determinazione dei Prezzi nel Turismo: Propone PricingLogic, contenente 300 domande e 42 documenti di politiche di determinazione dei prezzi reali
Valutazione Completa delle Prestazioni: Conduce una valutazione approfondita di più LLM open-source e commerciali, dimostrando che questo compito rappresenta una sfida significativa per gli LLM attuali
Metodo di Ragionamento Assistito da Codice: Dimostra effetti di miglioramento significativi del metodo di ragionamento assistito da codice (CaR) su compiti di ragionamento e calcolo complessi
Analisi dei Fallimenti Sistematici: Rivela problemi sistematici degli LLM nell'interpretazione delle regole e nel ragionamento aritmetico

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Richieste di prenotazione turistica in linguaggio naturale e documenti di politiche di determinazione dei prezzi corrispondenti Output: Calcolo accurato del prezzo totale Vincoli: Necessità di gestire regole tariffarie multiple e sovrapposte, selezionando lo schema di determinazione dei prezzi più vantaggioso per il cliente

Costruzione del Dataset

Raccolta dei Dati

Copertura Geografica: 7 attrazioni turistiche, 33 attività diverse
Tipi di Clienti: 9 categorie di clienti (turisti ordinari, gruppi contrattuali, anziani, studenti, ecc.)
Complessità delle Politiche: Include strutture di determinazione dei prezzi specifiche, soglie di sconto e condizioni speciali

Configurazione dei Compiti

Compito 1: Politiche di Determinazione dei Prezzi Standard

Utilizza 33 documenti di determinazione dei prezzi
150 campioni di test
Non include pacchetti turistici

Compito 2: Politiche di Determinazione dei Prezzi per Pacchetti

Introduce sconti per pacchetti turistici sulla base del Compito 1
Aumenta la complessità delle domande
Possono esistere più opzioni di determinazione dei prezzi praticabili

Architettura del Modello

Metodo di Prompt End-to-End (E2E)

Processo di inferenza singolo per la determinazione dei prezzi
Struttura standardizzata dei documenti di politiche di determinazione dei prezzi e terminologia
Guida gli LLM attraverso due fasi: identificazione degli articoli e calcolo del prezzo

Metodo di Ragionamento Assistito da Codice (CaR)

Prima Fase: Genera funzioni di calcolo dedicate per ogni file di politica di determinazione dei prezzi Seconda Fase: Analizza gli ordini in linguaggio naturale, estrae informazioni rilevanti e le converte in parametri di input del codice

Punti di Innovazione Tecnica

Progettazione a Due Fasi Separata: Separa l'interpretazione delle politiche dall'estrazione dei parametri, migliorando la capacità di gestire la logica di determinazione dei prezzi complessa
Modellazione dei Vincoli Pratici: Gestisce vincoli pratici come gruppi di clienti diversificati e regole di sconto sovrapposte
Esperimenti di Controllo Oracle: Separa gli errori di generazione del codice dagli errori di estrazione dei parametri attraverso il metodo CaR-Oracle

Configurazione Sperimentale

Dataset

Numero Totale di Domande: 300 domande in linguaggio naturale
Distribuzione della Difficoltà: Domande/compiti facili (60), medi (50), difficili (40)
Documenti di Politiche: 42 documenti di politiche di determinazione dei prezzi del mondo reale

Metriche di Valutazione

Utilizza la corrispondenza esatta (exact match) per confrontare le previsioni del modello con le risposte corrette, riportando l'accuratezza

Metodi di Confronto

Valuta più LLM recenti:

Modelli Commerciali: GPT-4o, DeepSeek-V3/R1, Claude Sonnet 4
Modelli Open-Source: Qwen2.5-7B/32B/Max

Dettagli di Implementazione

Temperatura impostata a 0.0 per garantire output deterministici
Introduce condizioni di controllo CaR-Oracle per separare le fonti di errore
Confronta le prestazioni 0-shot e 3-shot

Risultati Sperimentali

Risultati Principali

Risultati del Compito 1

Domande Semplici:

Metodo E2E: Tutti i modelli tranne Qwen2.5-7B raggiungono un'accuratezza superiore al 76%
Metodo CaR: La maggior parte dei modelli raggiunge un'accuratezza superiore al 90%
Miglior Prestazione: Claude Sonnet 4 raggiunge il 96,67% (CaR)

Domande Difficili:

Metodo E2E: Tutti i modelli raggiungono a malapena un'accuratezza superiore al 50%
Metodo CaR: Rimane al di sotto del 60%, con spazio significativo per miglioramenti

Risultati del Compito 2

Calo Evidente delle Prestazioni:

Anche il più forte Claude Sonnet 4 raggiunge solo il 35,0% di accuratezza E2E su domande difficili
Il metodo CaR porta miglioramenti significativi, in particolare su domande di difficoltà media

Esperimenti di Ablazione

Analisi CaR-Oracle

Compiti Semplici: Tre LLM utilizzando codice oracle raggiungono il 100% di accuratezza
Compiti Medi: Il codice generato presenta difetti significativi, ma gli LLM forti riescono comunque a mappare correttamente i parametri
Compiti Difficili: Anche utilizzando codice scritto manualmente, i modelli faticano a fornire parametri corretti

Confronto 3-shot vs 0-shot

Il prompt 3-shot porta solo miglioramenti marginali
Nessun miglioramento in scenari complessi
Suggerisce che i limiti di prestazione riflettono sfide di ragionamento fondamentali piuttosto che insufficienza di dimostrazioni

Analisi dei Casi

Analisi dei Modelli di Errore

Identificazione Errata della Categoria di Clienti: I modelli identificano frequentemente in modo errato il tipo di cliente
Omissione di Condizioni di Determinazione dei Prezzi: Trascurano condizioni importanti di determinazione dei prezzi
Errori nella Logica dei Pacchetti: Difficoltà nell'identificare quando utilizzare sconti per pacchetti
Fallimento nel Calcolo della Combinazione Ottimale: Incapacità di calcolare la combinazione ottimale di più opzioni di pacchetto valide

Differenze nella Qualità del Codice

Codice Generato da LLM: Struttura lineare semplificata if-elif
Codice Scritto Manualmente: Sistema complesso di valutazione di più opzioni, che confronta e seleziona sistematicamente la soluzione ottimale

Lavori Correlati

Applicazioni degli LLM in Scenari Reali

Ricerche recenti si concentrano sulla valutazione degli LLM nelle applicazioni pratiche
RuleArena testa la capacità di conformità alle regole, ma manca della gestione dei conflitti tra regole
Questo lavoro estende questo paradigma al dominio pratico della determinazione dei prezzi nel turismo

Ragionamento Assistito da Codice

Migliora il ragionamento degli LLM su compiti computazionalmente intensivi attraverso il codice
I lavori precedenti si concentrano principalmente su problemi matematici controllati
Questo metodo estende il paradigma ad applicazioni nel mondo reale che vanno oltre la complessità dei problemi nei libri di testo

Conclusioni e Discussione

Conclusioni Principali

Limitazioni di Prestazione: Anche gli LLM avanzati mostrano prestazioni scadenti in scenari di determinazione dei prezzi complessi
Efficacia del Metodo CaR: Il ragionamento assistito da codice generalmente supera l'approccio end-to-end
Sfide Sistematiche: I compiti che coinvolgono regole multiple e sovrapposte espongono limitazioni fondamentali degli LLM

Limitazioni

Ambito del Metodo Limitato: Si concentra solo su metodi E2E e CaR, non esplora altri approcci come il fine-tuning
Sfide in Ambienti Dinamici: I metodi di fine-tuning non sono pratici in ambienti commerciali dinamici
Ambito della Valutazione: Si concentra principalmente sul dominio della determinazione dei prezzi nel turismo

Direzioni Future

Tecniche di Adattamento del Dominio: Sviluppare safeguard specializzati per applicazioni critiche per i ricavi
Sistemi di Ragionamento Ibrido: Combinare ragionamento simbolico e metodi neurali
Meccanismi di Validazione in Tempo Reale: Sviluppare meccanismi per il rilevamento e la correzione degli errori in tempo reale

Valutazione Approfondita

Punti di Forza

Significato Pratico Rilevante: Affronta esigenze commerciali reali con valore di applicazione diretta
Progettazione Rigorosa del Benchmark: Costruito su dati reali con livelli di difficoltà ben definiti
Innovazione Metodologica: Il metodo CaR è ingegnosamente progettato e separa efficacemente diversi tipi di errori
Analisi Profonda e Completa: Analizza i modelli di fallimento attraverso esperimenti di controllo come Oracle

Carenze

Limitazione del Dominio: Si concentra principalmente sulla determinazione dei prezzi nel turismo, la capacità di generalizzazione rimane da verificare
Copertura di Modelli Limitata: Non include architetture di modelli e strategie di addestramento più diversificate
Soluzioni Insufficienti: Principalmente identifica i problemi, ma le soluzioni proposte sono relativamente limitate

Impatto

Contributo Accademico: Fornisce prove importanti delle limitazioni degli LLM nei compiti di ragionamento complesso
Valore Pratico: Fornisce riferimenti importanti per le applicazioni di IA nell'industria del turismo
Contributo Metodologico: Il metodo CaR può essere generalizzato ad altri campi che richiedono calcoli complessi

Scenari Applicabili

Applicazioni Intensive di Regole: Adatto a scenari che richiedono la gestione di regole complesse e sovrapposte
Compiti Computazionalmente Intensivi: Campi di applicazione che richiedono calcoli numerici precisi
Sistemi Critici per il Business: Applicazioni revenue-critical con requisiti di accuratezza estremamente elevati

Bibliografia

L'articolo cita numerosi lavori importanti nei campi correlati, inclusi:

Ricerche correlate sulla generazione di codice e la risoluzione di problemi matematici
Lavori di valutazione dell'applicazione degli LLM in scenari reali
Metodi correlati di modelli di linguaggio assistiti da programmi

Sintesi: Questo articolo, attraverso la costruzione del primo benchmark di determinazione dei prezzi nel turismo PricingLogic, rivela sistematicamente le limitazioni degli LLM attuali nell'affrontare compiti di ragionamento complessi e nel mondo reale. Sebbene il metodo di ragionamento assistito da codice porti miglioramenti significativi, rimane un gap sostanziale nei compiti più difficili, sottolineando l'importanza di una valutazione rigorosa prima di distribuire sistemi di IA in applicazioni revenue-critical.