We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.
- ID Articolo: 2510.12409
- Titolo: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
- Autori: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
- Classificazione: cs.AI
- Data di Pubblicazione: 14 ottobre 2025
- Link dell'Articolo: https://arxiv.org/abs/2510.12409
Questo articolo propone PricingLogic, il primo benchmark per valutare le capacità di ragionamento dei modelli di linguaggio di grandi dimensioni (LLM) su compiti complessi di determinazione dei prezzi nel turismo. Il benchmark contiene 300 domande in linguaggio naturale basate su 42 politiche di determinazione dei prezzi del mondo reale, coprendo due livelli di difficoltà: (1) determinazione dei prezzi per tipi di clienti di base e (2) calcoli di pacchetti turistici che coinvolgono sconti interattivi. La valutazione di più LLM rivela un calo drastico delle prestazioni su compiti più difficili, esponendo fallimenti sistematici nell'interpretazione delle regole e nel ragionamento aritmetico.
Le agenzie di viaggio hanno urgente necessità di affidare ai sistemi di intelligenza artificiale i compiti di calcolo dei prezzi soggetti a errori, ma la distribuzione di LLM senza verificare l'affidabilità potrebbe causare perdite finanziarie significative e danneggiare la fiducia dei clienti. I benchmark esistenti non riescono a catturare adeguatamente la conoscenza specifica del dominio, la navigazione di regole conflittuali e i requisiti di elevata affidabilità necessari nelle applicazioni pratiche.
- Valore Pratico Elevato: La determinazione dei prezzi nel turismo coinvolge più destinazioni, diversi tipi di tariffe e politiche di determinazione dei prezzi dinamiche, rendendo la gestione manuale sia dispendiosa in termini di tempo che soggetta a errori
- Sfide Tecniche Significative: Richiede ragionamento sotto vincoli complessi, rappresentando una sfida non banale per gli LLM
- Necessità Commerciale Urgente: Le agenzie di viaggio desiderano utilizzare sistemi basati su LLM per gestire domande espresse in linguaggio naturale
I benchmark esistenti presentano carenze nella valutazione di come gli LLM affrontano applicazioni nel mondo reale, in particolare in scenari che richiedono competenze specializzate nel dominio, gestione di regole conflittuali e garanzia di elevata affidabilità.
- Primo Benchmark di Determinazione dei Prezzi nel Turismo: Propone PricingLogic, contenente 300 domande e 42 documenti di politiche di determinazione dei prezzi reali
- Valutazione Completa delle Prestazioni: Conduce una valutazione approfondita di più LLM open-source e commerciali, dimostrando che questo compito rappresenta una sfida significativa per gli LLM attuali
- Metodo di Ragionamento Assistito da Codice: Dimostra effetti di miglioramento significativi del metodo di ragionamento assistito da codice (CaR) su compiti di ragionamento e calcolo complessi
- Analisi dei Fallimenti Sistematici: Rivela problemi sistematici degli LLM nell'interpretazione delle regole e nel ragionamento aritmetico
Input: Richieste di prenotazione turistica in linguaggio naturale e documenti di politiche di determinazione dei prezzi corrispondenti
Output: Calcolo accurato del prezzo totale
Vincoli: Necessità di gestire regole tariffarie multiple e sovrapposte, selezionando lo schema di determinazione dei prezzi più vantaggioso per il cliente
- Copertura Geografica: 7 attrazioni turistiche, 33 attività diverse
- Tipi di Clienti: 9 categorie di clienti (turisti ordinari, gruppi contrattuali, anziani, studenti, ecc.)
- Complessità delle Politiche: Include strutture di determinazione dei prezzi specifiche, soglie di sconto e condizioni speciali
Compito 1: Politiche di Determinazione dei Prezzi Standard
- Utilizza 33 documenti di determinazione dei prezzi
- 150 campioni di test
- Non include pacchetti turistici
Compito 2: Politiche di Determinazione dei Prezzi per Pacchetti
- Introduce sconti per pacchetti turistici sulla base del Compito 1
- Aumenta la complessità delle domande
- Possono esistere più opzioni di determinazione dei prezzi praticabili
- Processo di inferenza singolo per la determinazione dei prezzi
- Struttura standardizzata dei documenti di politiche di determinazione dei prezzi e terminologia
- Guida gli LLM attraverso due fasi: identificazione degli articoli e calcolo del prezzo
Prima Fase: Genera funzioni di calcolo dedicate per ogni file di politica di determinazione dei prezzi
Seconda Fase: Analizza gli ordini in linguaggio naturale, estrae informazioni rilevanti e le converte in parametri di input del codice
- Progettazione a Due Fasi Separata: Separa l'interpretazione delle politiche dall'estrazione dei parametri, migliorando la capacità di gestire la logica di determinazione dei prezzi complessa
- Modellazione dei Vincoli Pratici: Gestisce vincoli pratici come gruppi di clienti diversificati e regole di sconto sovrapposte
- Esperimenti di Controllo Oracle: Separa gli errori di generazione del codice dagli errori di estrazione dei parametri attraverso il metodo CaR-Oracle
- Numero Totale di Domande: 300 domande in linguaggio naturale
- Distribuzione della Difficoltà: Domande/compiti facili (60), medi (50), difficili (40)
- Documenti di Politiche: 42 documenti di politiche di determinazione dei prezzi del mondo reale
Utilizza la corrispondenza esatta (exact match) per confrontare le previsioni del modello con le risposte corrette, riportando l'accuratezza
Valuta più LLM recenti:
- Modelli Commerciali: GPT-4o, DeepSeek-V3/R1, Claude Sonnet 4
- Modelli Open-Source: Qwen2.5-7B/32B/Max
- Temperatura impostata a 0.0 per garantire output deterministici
- Introduce condizioni di controllo CaR-Oracle per separare le fonti di errore
- Confronta le prestazioni 0-shot e 3-shot
Domande Semplici:
- Metodo E2E: Tutti i modelli tranne Qwen2.5-7B raggiungono un'accuratezza superiore al 76%
- Metodo CaR: La maggior parte dei modelli raggiunge un'accuratezza superiore al 90%
- Miglior Prestazione: Claude Sonnet 4 raggiunge il 96,67% (CaR)
Domande Difficili:
- Metodo E2E: Tutti i modelli raggiungono a malapena un'accuratezza superiore al 50%
- Metodo CaR: Rimane al di sotto del 60%, con spazio significativo per miglioramenti
Calo Evidente delle Prestazioni:
- Anche il più forte Claude Sonnet 4 raggiunge solo il 35,0% di accuratezza E2E su domande difficili
- Il metodo CaR porta miglioramenti significativi, in particolare su domande di difficoltà media
- Compiti Semplici: Tre LLM utilizzando codice oracle raggiungono il 100% di accuratezza
- Compiti Medi: Il codice generato presenta difetti significativi, ma gli LLM forti riescono comunque a mappare correttamente i parametri
- Compiti Difficili: Anche utilizzando codice scritto manualmente, i modelli faticano a fornire parametri corretti
- Il prompt 3-shot porta solo miglioramenti marginali
- Nessun miglioramento in scenari complessi
- Suggerisce che i limiti di prestazione riflettono sfide di ragionamento fondamentali piuttosto che insufficienza di dimostrazioni
- Identificazione Errata della Categoria di Clienti: I modelli identificano frequentemente in modo errato il tipo di cliente
- Omissione di Condizioni di Determinazione dei Prezzi: Trascurano condizioni importanti di determinazione dei prezzi
- Errori nella Logica dei Pacchetti: Difficoltà nell'identificare quando utilizzare sconti per pacchetti
- Fallimento nel Calcolo della Combinazione Ottimale: Incapacità di calcolare la combinazione ottimale di più opzioni di pacchetto valide
- Codice Generato da LLM: Struttura lineare semplificata if-elif
- Codice Scritto Manualmente: Sistema complesso di valutazione di più opzioni, che confronta e seleziona sistematicamente la soluzione ottimale
- Ricerche recenti si concentrano sulla valutazione degli LLM nelle applicazioni pratiche
- RuleArena testa la capacità di conformità alle regole, ma manca della gestione dei conflitti tra regole
- Questo lavoro estende questo paradigma al dominio pratico della determinazione dei prezzi nel turismo
- Migliora il ragionamento degli LLM su compiti computazionalmente intensivi attraverso il codice
- I lavori precedenti si concentrano principalmente su problemi matematici controllati
- Questo metodo estende il paradigma ad applicazioni nel mondo reale che vanno oltre la complessità dei problemi nei libri di testo
- Limitazioni di Prestazione: Anche gli LLM avanzati mostrano prestazioni scadenti in scenari di determinazione dei prezzi complessi
- Efficacia del Metodo CaR: Il ragionamento assistito da codice generalmente supera l'approccio end-to-end
- Sfide Sistematiche: I compiti che coinvolgono regole multiple e sovrapposte espongono limitazioni fondamentali degli LLM
- Ambito del Metodo Limitato: Si concentra solo su metodi E2E e CaR, non esplora altri approcci come il fine-tuning
- Sfide in Ambienti Dinamici: I metodi di fine-tuning non sono pratici in ambienti commerciali dinamici
- Ambito della Valutazione: Si concentra principalmente sul dominio della determinazione dei prezzi nel turismo
- Tecniche di Adattamento del Dominio: Sviluppare safeguard specializzati per applicazioni critiche per i ricavi
- Sistemi di Ragionamento Ibrido: Combinare ragionamento simbolico e metodi neurali
- Meccanismi di Validazione in Tempo Reale: Sviluppare meccanismi per il rilevamento e la correzione degli errori in tempo reale
- Significato Pratico Rilevante: Affronta esigenze commerciali reali con valore di applicazione diretta
- Progettazione Rigorosa del Benchmark: Costruito su dati reali con livelli di difficoltà ben definiti
- Innovazione Metodologica: Il metodo CaR è ingegnosamente progettato e separa efficacemente diversi tipi di errori
- Analisi Profonda e Completa: Analizza i modelli di fallimento attraverso esperimenti di controllo come Oracle
- Limitazione del Dominio: Si concentra principalmente sulla determinazione dei prezzi nel turismo, la capacità di generalizzazione rimane da verificare
- Copertura di Modelli Limitata: Non include architetture di modelli e strategie di addestramento più diversificate
- Soluzioni Insufficienti: Principalmente identifica i problemi, ma le soluzioni proposte sono relativamente limitate
- Contributo Accademico: Fornisce prove importanti delle limitazioni degli LLM nei compiti di ragionamento complesso
- Valore Pratico: Fornisce riferimenti importanti per le applicazioni di IA nell'industria del turismo
- Contributo Metodologico: Il metodo CaR può essere generalizzato ad altri campi che richiedono calcoli complessi
- Applicazioni Intensive di Regole: Adatto a scenari che richiedono la gestione di regole complesse e sovrapposte
- Compiti Computazionalmente Intensivi: Campi di applicazione che richiedono calcoli numerici precisi
- Sistemi Critici per il Business: Applicazioni revenue-critical con requisiti di accuratezza estremamente elevati
L'articolo cita numerosi lavori importanti nei campi correlati, inclusi:
- Ricerche correlate sulla generazione di codice e la risoluzione di problemi matematici
- Lavori di valutazione dell'applicazione degli LLM in scenari reali
- Metodi correlati di modelli di linguaggio assistiti da programmi
Sintesi: Questo articolo, attraverso la costruzione del primo benchmark di determinazione dei prezzi nel turismo PricingLogic, rivela sistematicamente le limitazioni degli LLM attuali nell'affrontare compiti di ragionamento complessi e nel mondo reale. Sebbene il metodo di ragionamento assistito da codice porti miglioramenti significativi, rimane un gap sostanziale nei compiti più difficili, sottolineando l'importanza di una valutazione rigorosa prima di distribuire sistemi di IA in applicazioni revenue-critical.