2025-11-17T23:01:13.424205

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

Liu, Zhu, Al-Khalili et al.

We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.

academic

PricingLogic: Evaluación del Razonamiento de LLMs en Tareas Complejas de Fijación de Precios en Turismo

Información Básica

ID del Artículo: 2510.12409
Título: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
Autores: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
Clasificación: cs.AI
Fecha de Publicación: 14 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.12409

Resumen

En este artículo se presenta PricingLogic, el primer conjunto de pruebas (benchmark) para evaluar la capacidad de razonamiento de los modelos de lenguaje grandes (LLMs) en tareas complejas de fijación de precios en turismo. El conjunto de pruebas contiene 300 preguntas en lenguaje natural basadas en 42 políticas de fijación de precios del mundo real, abarcando dos niveles de dificultad: (1) fijación de precios para tipos de clientes básicos y (2) cálculos de paquetes turísticos que implican descuentos interactivos. La evaluación de múltiples LLMs revela un deterioro agudo del rendimiento en tareas más difíciles, exponiendo fallos sistemáticos en la interpretación de reglas y el razonamiento aritmético.

Contexto de Investigación y Motivación

Definición del Problema

Las agencias de viajes necesitan urgentemente delegar tareas de cálculo de precios propensas a errores a sistemas de IA, pero desplegar LLMs sin verificar su confiabilidad podría resultar en pérdidas financieras significativas y daño a la confianza del cliente. Los conjuntos de pruebas existentes no capturan adecuadamente el conocimiento específico del dominio, la navegación de reglas conflictivas y los requisitos de alta confiabilidad necesarios en aplicaciones reales.

Importancia de la Investigación

Alto valor práctico: La fijación de precios en turismo implica múltiples destinos, diferentes tipos de tarifas y políticas de fijación de precios dinámica, lo que hace que el procesamiento manual sea tanto tedioso como propenso a errores
Grandes desafíos técnicos: Requiere razonamiento bajo restricciones complejas, lo que presenta un desafío no trivial para los LLMs
Necesidad comercial urgente: Las agencias de viajes desean utilizar sistemas basados en LLMs para procesar preguntas expresadas en lenguaje natural

Limitaciones de Métodos Existentes

Los conjuntos de pruebas existentes presentan deficiencias al evaluar cómo los LLMs manejan aplicaciones del mundo real, particularmente en escenarios que requieren conocimiento especializado del dominio, manejo de reglas conflictivas y garantía de alta confiabilidad.

Contribuciones Principales

Primer conjunto de pruebas de fijación de precios en turismo: Se presenta PricingLogic, que contiene 300 preguntas y 42 documentos de políticas de fijación de precios reales
Evaluación integral del rendimiento: Se realizó una evaluación exhaustiva de múltiples LLMs de código abierto y comerciales, demostrando que esta tarea presenta un desafío significativo para los LLMs actuales
Método de razonamiento asistido por código: Se demuestra el efecto de mejora significativa del método de razonamiento asistido por código (CaR) en tareas de razonamiento complejo y cálculo
Análisis de fallos sistemáticos: Se revelan problemas sistemáticos de los LLMs en la interpretación de reglas y el razonamiento aritmético

Explicación Detallada de Métodos

Definición de Tareas

Entrada: Solicitud de reserva turística en lenguaje natural y documento de política de fijación de precios correspondiente Salida: Cálculo preciso del precio total Restricciones: Necesidad de manejar múltiples reglas de tarifa superpuestas, seleccionando el esquema de fijación de precios más favorable para el cliente

Construcción del Conjunto de Datos

Recopilación de Datos

Cobertura geográfica: 7 atracciones turísticas, 33 actividades diferentes
Tipos de clientes: 9 tipos de clientes (turistas comunes, grupos contratados, personas mayores, estudiantes, etc.)
Complejidad de políticas: Incluye estructuras de fijación de precios específicas, umbrales de descuento y condiciones especiales

Configuración de Tareas

Tarea 1: Políticas de Precio Estándar

Utiliza 33 documentos de fijación de precios
150 ejemplos de prueba
No incluye empaquetamiento de paquetes

Tarea 2: Políticas de Precio de Paquetes

Introduce descuentos de paquetes turísticos basados en la Tarea 1
Aumenta la complejidad de las preguntas
Pueden existir múltiples opciones de fijación de precios viables

Arquitectura del Modelo

Método de Indicaciones de Extremo a Extremo (E2E)

Procesa la fijación de precios en un único proceso de inferencia
Normaliza la estructura de documentos de políticas de fijación de precios y terminología
Guía a los LLMs a través de dos fases: identificación de artículos y cálculo de precios

Método de Razonamiento Asistido por Código (CaR)

Primera fase: Genera funciones de calculadora dedicadas para cada archivo de política de fijación de precios Segunda fase: Analiza la orden en lenguaje natural, extrae información relevante y la convierte en parámetros de entrada de código

Puntos de Innovación Técnica

Diseño de separación de dos fases: Separa la interpretación de políticas de la extracción de parámetros, mejorando la capacidad de manejo de lógica de fijación de precios compleja
Modelado de restricciones reales: Maneja restricciones reales como grupos de clientes diversificados y reglas de descuento superpuestas
Experimentos de control Oracle: Separa errores de generación de código de errores de extracción de parámetros mediante el método CaR-Oracle

Configuración Experimental

Conjunto de Datos

Número total de preguntas: 300 preguntas en lenguaje natural
Distribución de dificultad: Preguntas/tareas fáciles (60), medias (50), difíciles (40)
Documentos de políticas: 42 documentos de políticas de fijación de precios del mundo real

Métricas de Evaluación

Se utiliza coincidencia exacta (exact match) para comparar predicciones del modelo con respuestas correctas, reportando la precisión

Métodos de Comparación

Se evaluaron múltiples LLMs recientes:

Modelos comerciales: GPT-4o, DeepSeek-V3/R1, Claude Sonnet 4
Modelos de código abierto: Qwen2.5-7B/32B/Max

Detalles de Implementación

Temperatura establecida en 0.0 para garantizar salidas deterministas
Se introduce la condición de control CaR-Oracle para separar fuentes de error
Se compara el rendimiento de 0-shot versus 3-shot

Resultados Experimentales

Resultados Principales

Resultados de la Tarea 1

Preguntas simples:

Método E2E: Todos los modelos excepto Qwen2.5-7B alcanzan una precisión superior al 76%
Método CaR: La mayoría de los modelos alcanzan una precisión superior al 90%
Mejor rendimiento: Claude Sonnet 4 alcanza 96.67% (CaR)

Preguntas difíciles:

Método E2E: Todos los modelos apenas superan el 50% de precisión
Método CaR: Aún por debajo del 60%, con espacio significativo para mejora

Resultados de la Tarea 2

Deterioro notable del rendimiento:

Incluso el más fuerte Claude Sonnet 4 alcanza solo 35.0% de precisión E2E en preguntas difíciles
El método CaR proporciona mejoras significativas, particularmente en preguntas de dificultad media

Experimentos de Ablación

Análisis CaR-Oracle

Tareas simples: Tres LLMs utilizando código oracle alcanzan 100% de precisión
Tareas medias: El código generado presenta defectos importantes, pero los LLMs fuertes aún pueden mapear parámetros correctamente
Tareas difíciles: Incluso con código escrito por humanos, los modelos tienen dificultades para proporcionar parámetros correctos

Comparación 3-shot versus 0-shot

Las indicaciones 3-shot solo proporcionan mejoras marginales
Sin mejora en escenarios complejos
Sugiere que las limitaciones de rendimiento reflejan desafíos de razonamiento fundamental más que demostraciones insuficientes

Análisis de Casos

Análisis de Patrones de Error

Identificación incorrecta de categoría de cliente: Los modelos frecuentemente identifican incorrectamente el tipo de cliente
Omisión de condiciones de fijación de precios: Ignoran condiciones de fijación de precios importantes
Error en lógica de paquetes: Dificultad para identificar cuándo se debe utilizar descuento de paquete
Fallo en cálculo de combinación óptima: Incapacidad para calcular la combinación óptima de múltiples opciones de paquete válidas

Variabilidad en Calidad de Código

Código generado por LLM: Estructura lineal simplificada de if-elif
Código escrito por humanos: Sistema complejo de evaluación de múltiples opciones, comparando y seleccionando sistemáticamente la opción óptima

Trabajo Relacionado

Aplicaciones de LLMs en Escenarios Reales

La investigación reciente se enfoca en la evaluación de LLMs en aplicaciones reales
RuleArena prueba la capacidad de cumplimiento de reglas, pero carece de manejo de conflictos de reglas
Este trabajo extiende este paradigma al dominio real de fijación de precios en turismo

Razonamiento Asistido por Código

Mejora del razonamiento de LLMs en tareas intensivas en cálculo mediante código
Trabajos anteriores se enfocaban principalmente en problemas matemáticos controlados
Este método extiende el paradigma a aplicaciones del mundo real más allá de la complejidad de problemas de libros de texto

Conclusiones y Discusión

Conclusiones Principales

Limitaciones de rendimiento: Incluso los LLMs avanzados muestran un desempeño deficiente en escenarios complejos de fijación de precios
Efectividad del método CaR: El razonamiento asistido por código generalmente supera al método de extremo a extremo
Desafíos sistemáticos: Las tareas que implican múltiples reglas superpuestas exponen limitaciones fundamentales de los LLMs

Limitaciones

Alcance de métodos limitado: Se enfoca solo en métodos E2E y CaR, sin explorar otros enfoques como ajuste fino
Desafíos en entornos dinámicos: Los métodos de ajuste fino no son prácticos en entornos comerciales dinámicos
Alcance de evaluación: Se concentra principalmente en el dominio de fijación de precios en turismo

Direcciones Futuras

Técnicas de adaptación de dominio: Desarrollar salvaguardas especializadas para aplicaciones críticas de ingresos
Sistemas de razonamiento híbrido: Combinar razonamiento simbólico y métodos neurales
Mecanismos de validación en tiempo real: Desarrollar mecanismos de detección y corrección de errores en tiempo real

Evaluación Profunda

Fortalezas

Significancia práctica considerable: Aborda necesidades comerciales reales con valor de aplicación directa
Diseño riguroso del conjunto de pruebas: Construido sobre datos reales con niveles de dificultad claramente diferenciados
Innovación metodológica: El método CaR está ingeniosamente diseñado, separando efectivamente diferentes tipos de errores
Análisis profundo y exhaustivo: Analiza patrones de fallo profundamente mediante experimentos de control como Oracle

Insuficiencias

Limitación de dominio: Se concentra principalmente en fijación de precios en turismo, con capacidad de generalización por verificar
Cobertura de modelos limitada: No incluye una variedad más amplia de arquitecturas de modelos y estrategias de entrenamiento
Soluciones insuficientes: Se enfoca principalmente en identificar problemas, con soluciones propuestas relativamente limitadas

Impacto

Contribución académica: Proporciona evidencia importante sobre las limitaciones de los LLMs en tareas complejas de razonamiento
Valor práctico: Proporciona referencias importantes para aplicaciones de IA en la industria turística
Contribución metodológica: El método CaR puede generalizarse a otros dominios que requieren cálculos complejos

Escenarios Aplicables

Aplicaciones intensivas en reglas: Aplicable a escenarios que requieren manejar reglas complejas y superpuestas
Tareas intensivas en cálculo: Campos de aplicación que requieren cálculo numérico preciso
Sistemas críticos para el negocio: Aplicaciones con requisitos extremadamente altos de precisión y críticas para los ingresos

Referencias

El artículo cita múltiples trabajos importantes en campos relacionados, incluyendo:

Investigación relacionada con generación de código y resolución de problemas matemáticos
Trabajos de evaluación de aplicaciones de LLMs en escenarios reales
Métodos relacionados con modelos de lenguaje asistidos por programas

Resumen: A través de la construcción del primer conjunto de pruebas de fijación de precios en turismo, PricingLogic, este artículo revela sistemáticamente las limitaciones de los LLMs actuales al manejar tareas complejas de razonamiento del mundo real. Aunque el método de razonamiento asistido por código proporciona mejoras significativas, aún existe una brecha sustancial en las tareas más difíciles, enfatizando la importancia de realizar evaluaciones rigurosas antes de desplegar sistemas de IA en aplicaciones críticas para los ingresos.