2025-11-17T23:01:13.424205

PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks

Liu, Zhu, Al-Khalili et al.
We present PricingLogic, the first benchmark that probes whether Large Language Models(LLMs) can reliably automate tourism-related prices when multiple, overlapping fare rules apply. Travel agencies are eager to offload this error-prone task onto AI systems; however, deploying LLMs without verified reliability could result in significant financial losses and erode customer trust. PricingLogic comprises 300 natural-language questions based on booking requests derived from 42 real-world pricing policies, spanning two levels of difficulty: (i) basic customer-type pricing and (ii)bundled-tour calculations involving interacting discounts. Evaluations of a line of LLMs reveal a steep performance drop on the harder tier,exposing systematic failures in rule interpretation and arithmetic reasoning.These results highlight that, despite their general capabilities, today's LLMs remain unreliable in revenue-critical applications without further safeguards or domain adaptation. Our code and dataset are available at https://github.com/EIT-NLP/PricingLogic.
academic

PricingLogic: Evaluación del Razonamiento de LLMs en Tareas Complejas de Fijación de Precios en Turismo

Información Básica

  • ID del Artículo: 2510.12409
  • Título: PricingLogic: Evaluating LLMs Reasoning on Complex Tourism Pricing Tasks
  • Autores: Yunuo Liu, Dawei Zhu, Zena Al-Khalili, Dai Cheng, Yanjun Chen, Dietrich Klakow, Wei Zhang, Xiaoyu Shen
  • Clasificación: cs.AI
  • Fecha de Publicación: 14 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.12409

Resumen

En este artículo se presenta PricingLogic, el primer conjunto de pruebas (benchmark) para evaluar la capacidad de razonamiento de los modelos de lenguaje grandes (LLMs) en tareas complejas de fijación de precios en turismo. El conjunto de pruebas contiene 300 preguntas en lenguaje natural basadas en 42 políticas de fijación de precios del mundo real, abarcando dos niveles de dificultad: (1) fijación de precios para tipos de clientes básicos y (2) cálculos de paquetes turísticos que implican descuentos interactivos. La evaluación de múltiples LLMs revela un deterioro agudo del rendimiento en tareas más difíciles, exponiendo fallos sistemáticos en la interpretación de reglas y el razonamiento aritmético.

Contexto de Investigación y Motivación

Definición del Problema

Las agencias de viajes necesitan urgentemente delegar tareas de cálculo de precios propensas a errores a sistemas de IA, pero desplegar LLMs sin verificar su confiabilidad podría resultar en pérdidas financieras significativas y daño a la confianza del cliente. Los conjuntos de pruebas existentes no capturan adecuadamente el conocimiento específico del dominio, la navegación de reglas conflictivas y los requisitos de alta confiabilidad necesarios en aplicaciones reales.

Importancia de la Investigación

  1. Alto valor práctico: La fijación de precios en turismo implica múltiples destinos, diferentes tipos de tarifas y políticas de fijación de precios dinámica, lo que hace que el procesamiento manual sea tanto tedioso como propenso a errores
  2. Grandes desafíos técnicos: Requiere razonamiento bajo restricciones complejas, lo que presenta un desafío no trivial para los LLMs
  3. Necesidad comercial urgente: Las agencias de viajes desean utilizar sistemas basados en LLMs para procesar preguntas expresadas en lenguaje natural

Limitaciones de Métodos Existentes

Los conjuntos de pruebas existentes presentan deficiencias al evaluar cómo los LLMs manejan aplicaciones del mundo real, particularmente en escenarios que requieren conocimiento especializado del dominio, manejo de reglas conflictivas y garantía de alta confiabilidad.

Contribuciones Principales

  1. Primer conjunto de pruebas de fijación de precios en turismo: Se presenta PricingLogic, que contiene 300 preguntas y 42 documentos de políticas de fijación de precios reales
  2. Evaluación integral del rendimiento: Se realizó una evaluación exhaustiva de múltiples LLMs de código abierto y comerciales, demostrando que esta tarea presenta un desafío significativo para los LLMs actuales
  3. Método de razonamiento asistido por código: Se demuestra el efecto de mejora significativa del método de razonamiento asistido por código (CaR) en tareas de razonamiento complejo y cálculo
  4. Análisis de fallos sistemáticos: Se revelan problemas sistemáticos de los LLMs en la interpretación de reglas y el razonamiento aritmético

Explicación Detallada de Métodos

Definición de Tareas

Entrada: Solicitud de reserva turística en lenguaje natural y documento de política de fijación de precios correspondiente Salida: Cálculo preciso del precio total Restricciones: Necesidad de manejar múltiples reglas de tarifa superpuestas, seleccionando el esquema de fijación de precios más favorable para el cliente

Construcción del Conjunto de Datos

Recopilación de Datos

  • Cobertura geográfica: 7 atracciones turísticas, 33 actividades diferentes
  • Tipos de clientes: 9 tipos de clientes (turistas comunes, grupos contratados, personas mayores, estudiantes, etc.)
  • Complejidad de políticas: Incluye estructuras de fijación de precios específicas, umbrales de descuento y condiciones especiales

Configuración de Tareas

Tarea 1: Políticas de Precio Estándar

  • Utiliza 33 documentos de fijación de precios
  • 150 ejemplos de prueba
  • No incluye empaquetamiento de paquetes

Tarea 2: Políticas de Precio de Paquetes

  • Introduce descuentos de paquetes turísticos basados en la Tarea 1
  • Aumenta la complejidad de las preguntas
  • Pueden existir múltiples opciones de fijación de precios viables

Arquitectura del Modelo

Método de Indicaciones de Extremo a Extremo (E2E)

  • Procesa la fijación de precios en un único proceso de inferencia
  • Normaliza la estructura de documentos de políticas de fijación de precios y terminología
  • Guía a los LLMs a través de dos fases: identificación de artículos y cálculo de precios

Método de Razonamiento Asistido por Código (CaR)

Primera fase: Genera funciones de calculadora dedicadas para cada archivo de política de fijación de precios Segunda fase: Analiza la orden en lenguaje natural, extrae información relevante y la convierte en parámetros de entrada de código

Puntos de Innovación Técnica

  1. Diseño de separación de dos fases: Separa la interpretación de políticas de la extracción de parámetros, mejorando la capacidad de manejo de lógica de fijación de precios compleja
  2. Modelado de restricciones reales: Maneja restricciones reales como grupos de clientes diversificados y reglas de descuento superpuestas
  3. Experimentos de control Oracle: Separa errores de generación de código de errores de extracción de parámetros mediante el método CaR-Oracle

Configuración Experimental

Conjunto de Datos

  • Número total de preguntas: 300 preguntas en lenguaje natural
  • Distribución de dificultad: Preguntas/tareas fáciles (60), medias (50), difíciles (40)
  • Documentos de políticas: 42 documentos de políticas de fijación de precios del mundo real

Métricas de Evaluación

Se utiliza coincidencia exacta (exact match) para comparar predicciones del modelo con respuestas correctas, reportando la precisión

Métodos de Comparación

Se evaluaron múltiples LLMs recientes:

  • Modelos comerciales: GPT-4o, DeepSeek-V3/R1, Claude Sonnet 4
  • Modelos de código abierto: Qwen2.5-7B/32B/Max

Detalles de Implementación

  • Temperatura establecida en 0.0 para garantizar salidas deterministas
  • Se introduce la condición de control CaR-Oracle para separar fuentes de error
  • Se compara el rendimiento de 0-shot versus 3-shot

Resultados Experimentales

Resultados Principales

Resultados de la Tarea 1

Preguntas simples:

  • Método E2E: Todos los modelos excepto Qwen2.5-7B alcanzan una precisión superior al 76%
  • Método CaR: La mayoría de los modelos alcanzan una precisión superior al 90%
  • Mejor rendimiento: Claude Sonnet 4 alcanza 96.67% (CaR)

Preguntas difíciles:

  • Método E2E: Todos los modelos apenas superan el 50% de precisión
  • Método CaR: Aún por debajo del 60%, con espacio significativo para mejora

Resultados de la Tarea 2

Deterioro notable del rendimiento:

  • Incluso el más fuerte Claude Sonnet 4 alcanza solo 35.0% de precisión E2E en preguntas difíciles
  • El método CaR proporciona mejoras significativas, particularmente en preguntas de dificultad media

Experimentos de Ablación

Análisis CaR-Oracle

  • Tareas simples: Tres LLMs utilizando código oracle alcanzan 100% de precisión
  • Tareas medias: El código generado presenta defectos importantes, pero los LLMs fuertes aún pueden mapear parámetros correctamente
  • Tareas difíciles: Incluso con código escrito por humanos, los modelos tienen dificultades para proporcionar parámetros correctos

Comparación 3-shot versus 0-shot

  • Las indicaciones 3-shot solo proporcionan mejoras marginales
  • Sin mejora en escenarios complejos
  • Sugiere que las limitaciones de rendimiento reflejan desafíos de razonamiento fundamental más que demostraciones insuficientes

Análisis de Casos

Análisis de Patrones de Error

  1. Identificación incorrecta de categoría de cliente: Los modelos frecuentemente identifican incorrectamente el tipo de cliente
  2. Omisión de condiciones de fijación de precios: Ignoran condiciones de fijación de precios importantes
  3. Error en lógica de paquetes: Dificultad para identificar cuándo se debe utilizar descuento de paquete
  4. Fallo en cálculo de combinación óptima: Incapacidad para calcular la combinación óptima de múltiples opciones de paquete válidas

Variabilidad en Calidad de Código

  • Código generado por LLM: Estructura lineal simplificada de if-elif
  • Código escrito por humanos: Sistema complejo de evaluación de múltiples opciones, comparando y seleccionando sistemáticamente la opción óptima

Trabajo Relacionado

Aplicaciones de LLMs en Escenarios Reales

  • La investigación reciente se enfoca en la evaluación de LLMs en aplicaciones reales
  • RuleArena prueba la capacidad de cumplimiento de reglas, pero carece de manejo de conflictos de reglas
  • Este trabajo extiende este paradigma al dominio real de fijación de precios en turismo

Razonamiento Asistido por Código

  • Mejora del razonamiento de LLMs en tareas intensivas en cálculo mediante código
  • Trabajos anteriores se enfocaban principalmente en problemas matemáticos controlados
  • Este método extiende el paradigma a aplicaciones del mundo real más allá de la complejidad de problemas de libros de texto

Conclusiones y Discusión

Conclusiones Principales

  1. Limitaciones de rendimiento: Incluso los LLMs avanzados muestran un desempeño deficiente en escenarios complejos de fijación de precios
  2. Efectividad del método CaR: El razonamiento asistido por código generalmente supera al método de extremo a extremo
  3. Desafíos sistemáticos: Las tareas que implican múltiples reglas superpuestas exponen limitaciones fundamentales de los LLMs

Limitaciones

  1. Alcance de métodos limitado: Se enfoca solo en métodos E2E y CaR, sin explorar otros enfoques como ajuste fino
  2. Desafíos en entornos dinámicos: Los métodos de ajuste fino no son prácticos en entornos comerciales dinámicos
  3. Alcance de evaluación: Se concentra principalmente en el dominio de fijación de precios en turismo

Direcciones Futuras

  1. Técnicas de adaptación de dominio: Desarrollar salvaguardas especializadas para aplicaciones críticas de ingresos
  2. Sistemas de razonamiento híbrido: Combinar razonamiento simbólico y métodos neurales
  3. Mecanismos de validación en tiempo real: Desarrollar mecanismos de detección y corrección de errores en tiempo real

Evaluación Profunda

Fortalezas

  1. Significancia práctica considerable: Aborda necesidades comerciales reales con valor de aplicación directa
  2. Diseño riguroso del conjunto de pruebas: Construido sobre datos reales con niveles de dificultad claramente diferenciados
  3. Innovación metodológica: El método CaR está ingeniosamente diseñado, separando efectivamente diferentes tipos de errores
  4. Análisis profundo y exhaustivo: Analiza patrones de fallo profundamente mediante experimentos de control como Oracle

Insuficiencias

  1. Limitación de dominio: Se concentra principalmente en fijación de precios en turismo, con capacidad de generalización por verificar
  2. Cobertura de modelos limitada: No incluye una variedad más amplia de arquitecturas de modelos y estrategias de entrenamiento
  3. Soluciones insuficientes: Se enfoca principalmente en identificar problemas, con soluciones propuestas relativamente limitadas

Impacto

  1. Contribución académica: Proporciona evidencia importante sobre las limitaciones de los LLMs en tareas complejas de razonamiento
  2. Valor práctico: Proporciona referencias importantes para aplicaciones de IA en la industria turística
  3. Contribución metodológica: El método CaR puede generalizarse a otros dominios que requieren cálculos complejos

Escenarios Aplicables

  1. Aplicaciones intensivas en reglas: Aplicable a escenarios que requieren manejar reglas complejas y superpuestas
  2. Tareas intensivas en cálculo: Campos de aplicación que requieren cálculo numérico preciso
  3. Sistemas críticos para el negocio: Aplicaciones con requisitos extremadamente altos de precisión y críticas para los ingresos

Referencias

El artículo cita múltiples trabajos importantes en campos relacionados, incluyendo:

  • Investigación relacionada con generación de código y resolución de problemas matemáticos
  • Trabajos de evaluación de aplicaciones de LLMs en escenarios reales
  • Métodos relacionados con modelos de lenguaje asistidos por programas

Resumen: A través de la construcción del primer conjunto de pruebas de fijación de precios en turismo, PricingLogic, este artículo revela sistemáticamente las limitaciones de los LLMs actuales al manejar tareas complejas de razonamiento del mundo real. Aunque el método de razonamiento asistido por código proporciona mejoras significativas, aún existe una brecha sustancial en las tareas más difíciles, enfatizando la importancia de realizar evaluaciones rigurosas antes de desplegar sistemas de IA en aplicaciones críticas para los ingresos.