We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.
- ID del Artículo: 2510.12409
- Título: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
- Autores: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
- Clasificación: cs.AI
- Fecha de Publicación: 14 de octubre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.12409
En este artículo se presenta PricingLogic, el primer conjunto de pruebas (benchmark) para evaluar la capacidad de razonamiento de los modelos de lenguaje grandes (LLMs) en tareas complejas de fijación de precios en turismo. El conjunto de pruebas contiene 300 preguntas en lenguaje natural basadas en 42 políticas de fijación de precios del mundo real, abarcando dos niveles de dificultad: (1) fijación de precios para tipos de clientes básicos y (2) cálculos de paquetes turísticos que implican descuentos interactivos. La evaluación de múltiples LLMs revela un deterioro agudo del rendimiento en tareas más difíciles, exponiendo fallos sistemáticos en la interpretación de reglas y el razonamiento aritmético.
Las agencias de viajes necesitan urgentemente delegar tareas de cálculo de precios propensas a errores a sistemas de IA, pero desplegar LLMs sin verificar su confiabilidad podría resultar en pérdidas financieras significativas y daño a la confianza del cliente. Los conjuntos de pruebas existentes no capturan adecuadamente el conocimiento específico del dominio, la navegación de reglas conflictivas y los requisitos de alta confiabilidad necesarios en aplicaciones reales.
- Alto valor práctico: La fijación de precios en turismo implica múltiples destinos, diferentes tipos de tarifas y políticas de fijación de precios dinámica, lo que hace que el procesamiento manual sea tanto tedioso como propenso a errores
- Grandes desafíos técnicos: Requiere razonamiento bajo restricciones complejas, lo que presenta un desafío no trivial para los LLMs
- Necesidad comercial urgente: Las agencias de viajes desean utilizar sistemas basados en LLMs para procesar preguntas expresadas en lenguaje natural
Los conjuntos de pruebas existentes presentan deficiencias al evaluar cómo los LLMs manejan aplicaciones del mundo real, particularmente en escenarios que requieren conocimiento especializado del dominio, manejo de reglas conflictivas y garantía de alta confiabilidad.
- Primer conjunto de pruebas de fijación de precios en turismo: Se presenta PricingLogic, que contiene 300 preguntas y 42 documentos de políticas de fijación de precios reales
- Evaluación integral del rendimiento: Se realizó una evaluación exhaustiva de múltiples LLMs de código abierto y comerciales, demostrando que esta tarea presenta un desafío significativo para los LLMs actuales
- Método de razonamiento asistido por código: Se demuestra el efecto de mejora significativa del método de razonamiento asistido por código (CaR) en tareas de razonamiento complejo y cálculo
- Análisis de fallos sistemáticos: Se revelan problemas sistemáticos de los LLMs en la interpretación de reglas y el razonamiento aritmético
Entrada: Solicitud de reserva turística en lenguaje natural y documento de política de fijación de precios correspondiente
Salida: Cálculo preciso del precio total
Restricciones: Necesidad de manejar múltiples reglas de tarifa superpuestas, seleccionando el esquema de fijación de precios más favorable para el cliente
- Cobertura geográfica: 7 atracciones turísticas, 33 actividades diferentes
- Tipos de clientes: 9 tipos de clientes (turistas comunes, grupos contratados, personas mayores, estudiantes, etc.)
- Complejidad de políticas: Incluye estructuras de fijación de precios específicas, umbrales de descuento y condiciones especiales
Tarea 1: Políticas de Precio Estándar
- Utiliza 33 documentos de fijación de precios
- 150 ejemplos de prueba
- No incluye empaquetamiento de paquetes
Tarea 2: Políticas de Precio de Paquetes
- Introduce descuentos de paquetes turísticos basados en la Tarea 1
- Aumenta la complejidad de las preguntas
- Pueden existir múltiples opciones de fijación de precios viables
- Procesa la fijación de precios en un único proceso de inferencia
- Normaliza la estructura de documentos de políticas de fijación de precios y terminología
- Guía a los LLMs a través de dos fases: identificación de artículos y cálculo de precios
Primera fase: Genera funciones de calculadora dedicadas para cada archivo de política de fijación de precios
Segunda fase: Analiza la orden en lenguaje natural, extrae información relevante y la convierte en parámetros de entrada de código
- Diseño de separación de dos fases: Separa la interpretación de políticas de la extracción de parámetros, mejorando la capacidad de manejo de lógica de fijación de precios compleja
- Modelado de restricciones reales: Maneja restricciones reales como grupos de clientes diversificados y reglas de descuento superpuestas
- Experimentos de control Oracle: Separa errores de generación de código de errores de extracción de parámetros mediante el método CaR-Oracle
- Número total de preguntas: 300 preguntas en lenguaje natural
- Distribución de dificultad: Preguntas/tareas fáciles (60), medias (50), difíciles (40)
- Documentos de políticas: 42 documentos de políticas de fijación de precios del mundo real
Se utiliza coincidencia exacta (exact match) para comparar predicciones del modelo con respuestas correctas, reportando la precisión
Se evaluaron múltiples LLMs recientes:
- Modelos comerciales: GPT-4o, DeepSeek-V3/R1, Claude Sonnet 4
- Modelos de código abierto: Qwen2.5-7B/32B/Max
- Temperatura establecida en 0.0 para garantizar salidas deterministas
- Se introduce la condición de control CaR-Oracle para separar fuentes de error
- Se compara el rendimiento de 0-shot versus 3-shot
Preguntas simples:
- Método E2E: Todos los modelos excepto Qwen2.5-7B alcanzan una precisión superior al 76%
- Método CaR: La mayoría de los modelos alcanzan una precisión superior al 90%
- Mejor rendimiento: Claude Sonnet 4 alcanza 96.67% (CaR)
Preguntas difíciles:
- Método E2E: Todos los modelos apenas superan el 50% de precisión
- Método CaR: Aún por debajo del 60%, con espacio significativo para mejora
Deterioro notable del rendimiento:
- Incluso el más fuerte Claude Sonnet 4 alcanza solo 35.0% de precisión E2E en preguntas difíciles
- El método CaR proporciona mejoras significativas, particularmente en preguntas de dificultad media
- Tareas simples: Tres LLMs utilizando código oracle alcanzan 100% de precisión
- Tareas medias: El código generado presenta defectos importantes, pero los LLMs fuertes aún pueden mapear parámetros correctamente
- Tareas difíciles: Incluso con código escrito por humanos, los modelos tienen dificultades para proporcionar parámetros correctos
- Las indicaciones 3-shot solo proporcionan mejoras marginales
- Sin mejora en escenarios complejos
- Sugiere que las limitaciones de rendimiento reflejan desafíos de razonamiento fundamental más que demostraciones insuficientes
- Identificación incorrecta de categoría de cliente: Los modelos frecuentemente identifican incorrectamente el tipo de cliente
- Omisión de condiciones de fijación de precios: Ignoran condiciones de fijación de precios importantes
- Error en lógica de paquetes: Dificultad para identificar cuándo se debe utilizar descuento de paquete
- Fallo en cálculo de combinación óptima: Incapacidad para calcular la combinación óptima de múltiples opciones de paquete válidas
- Código generado por LLM: Estructura lineal simplificada de if-elif
- Código escrito por humanos: Sistema complejo de evaluación de múltiples opciones, comparando y seleccionando sistemáticamente la opción óptima
- La investigación reciente se enfoca en la evaluación de LLMs en aplicaciones reales
- RuleArena prueba la capacidad de cumplimiento de reglas, pero carece de manejo de conflictos de reglas
- Este trabajo extiende este paradigma al dominio real de fijación de precios en turismo
- Mejora del razonamiento de LLMs en tareas intensivas en cálculo mediante código
- Trabajos anteriores se enfocaban principalmente en problemas matemáticos controlados
- Este método extiende el paradigma a aplicaciones del mundo real más allá de la complejidad de problemas de libros de texto
- Limitaciones de rendimiento: Incluso los LLMs avanzados muestran un desempeño deficiente en escenarios complejos de fijación de precios
- Efectividad del método CaR: El razonamiento asistido por código generalmente supera al método de extremo a extremo
- Desafíos sistemáticos: Las tareas que implican múltiples reglas superpuestas exponen limitaciones fundamentales de los LLMs
- Alcance de métodos limitado: Se enfoca solo en métodos E2E y CaR, sin explorar otros enfoques como ajuste fino
- Desafíos en entornos dinámicos: Los métodos de ajuste fino no son prácticos en entornos comerciales dinámicos
- Alcance de evaluación: Se concentra principalmente en el dominio de fijación de precios en turismo
- Técnicas de adaptación de dominio: Desarrollar salvaguardas especializadas para aplicaciones críticas de ingresos
- Sistemas de razonamiento híbrido: Combinar razonamiento simbólico y métodos neurales
- Mecanismos de validación en tiempo real: Desarrollar mecanismos de detección y corrección de errores en tiempo real
- Significancia práctica considerable: Aborda necesidades comerciales reales con valor de aplicación directa
- Diseño riguroso del conjunto de pruebas: Construido sobre datos reales con niveles de dificultad claramente diferenciados
- Innovación metodológica: El método CaR está ingeniosamente diseñado, separando efectivamente diferentes tipos de errores
- Análisis profundo y exhaustivo: Analiza patrones de fallo profundamente mediante experimentos de control como Oracle
- Limitación de dominio: Se concentra principalmente en fijación de precios en turismo, con capacidad de generalización por verificar
- Cobertura de modelos limitada: No incluye una variedad más amplia de arquitecturas de modelos y estrategias de entrenamiento
- Soluciones insuficientes: Se enfoca principalmente en identificar problemas, con soluciones propuestas relativamente limitadas
- Contribución académica: Proporciona evidencia importante sobre las limitaciones de los LLMs en tareas complejas de razonamiento
- Valor práctico: Proporciona referencias importantes para aplicaciones de IA en la industria turística
- Contribución metodológica: El método CaR puede generalizarse a otros dominios que requieren cálculos complejos
- Aplicaciones intensivas en reglas: Aplicable a escenarios que requieren manejar reglas complejas y superpuestas
- Tareas intensivas en cálculo: Campos de aplicación que requieren cálculo numérico preciso
- Sistemas críticos para el negocio: Aplicaciones con requisitos extremadamente altos de precisión y críticas para los ingresos
El artículo cita múltiples trabajos importantes en campos relacionados, incluyendo:
- Investigación relacionada con generación de código y resolución de problemas matemáticos
- Trabajos de evaluación de aplicaciones de LLMs en escenarios reales
- Métodos relacionados con modelos de lenguaje asistidos por programas
Resumen: A través de la construcción del primer conjunto de pruebas de fijación de precios en turismo, PricingLogic, este artículo revela sistemáticamente las limitaciones de los LLMs actuales al manejar tareas complejas de razonamiento del mundo real. Aunque el método de razonamiento asistido por código proporciona mejoras significativas, aún existe una brecha sustancial en las tareas más difíciles, enfatizando la importancia de realizar evaluaciones rigurosas antes de desplegar sistemas de IA en aplicaciones críticas para los ingresos.