2025-11-12T12:19:10.304562

Fair Ordering

Haseeb, Geng, Mittal et al.
A growing class of applications demands \emph{fair ordering/sequencing} of events which ensures that events generated earlier by one client are processed before later events from other clients. However, achieving such sequencing is fundamentally challenging due to the inherent limitations of clock synchronization. We advocate for an approach that embraces, rather than eliminates, clock variability. Instead of attempting to remove error from a timestamp, Tommy, our proposed system, leverages a statistical model to compare two noisy timestamps probabilistically by learning per-clock offset distributions. Our preliminary statistical model computes the probability that one event precedes another w.r.t. the wall-clock time without access to the wall-clock. This serves as a foundation for a new relation: \emph{likely-happened-before} denoted by $\xrightarrow{p}$ where $p$ represents the probability of an event to have happened before another. The $\xrightarrow{p}$ relation provides a basis for ordering multiple events which are otherwise considered \emph{concurrent} by the typical \emph{happened-before} ($\rightarrow$) relation. We highlight various related challenges including intransitivity of $\xrightarrow{p}$ relation as opposed to the transitive $\rightarrow$ relation. We also outline several research directions: online fair sequencing, stochastically fair total ordering, host-level support for fairness and more.
academic

Más Allá de Lamport, Hacia un Ordenamiento Justo Probabilístico

Información Básica

  • ID del Artículo: 2510.13664
  • Título: Beyond Lamport, Towards Probabilistic Fair Ordering
  • Autores: Muhammad Haseeb, Jinkun Geng, Radhika Mittal, Aurojit Panda, Srinivas Narayana, Anirudh Sivaraman
  • Clasificación: cs.NI (Redes de Computadoras)
  • Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.13664v1

Resumen

Este artículo aborda los desafíos del ordenamiento justo (fair ordering) en sistemas distribuidos, proponiendo un nuevo enfoque que abraza en lugar de eliminar la variabilidad de reloj. Los autores diseñan el sistema Tommy, que aprende la distribución de desviaciones de cada reloj y utiliza modelos estadísticos para comparaciones probabilísticas de marcas de tiempo ruidosas. La innovación central es la proposición de la relación "likely-happened-before" (p\xrightarrow{p}), donde pp representa la probabilidad de que un evento ocurra antes que otro. Esta relación permite ordenar eventos que la relación tradicional happened-before (\rightarrow) considera concurrentes, pero también introduce nuevos desafíos como la no transitividad.

Antecedentes de Investigación y Motivación

1. Definición del Problema

El ordenamiento justo en sistemas distribuidos requiere garantizar que los eventos generados más temprano por un cliente se procesen antes que los eventos generados más tarde por otros clientes. Esto es crítico en aplicaciones competitivas como bolsas de valores financieras, intercambios de publicidad y otras aplicaciones denominadas "auction-apps".

2. Importancia del Problema

  • Equidad Financiera: En transacciones financieras, el orden de procesamiento de mensajes afecta directamente los resultados comerciales; el ordenamiento injusto puede causar pérdidas económicas significativas
  • Necesidad de Migración a la Nube: Las bolsas de valores financieras tradicionales utilizan infraestructura dedicada para garantizar equidad, pero la migración a nubes públicas requiere nuevas primitivas de red
  • Expansión del Alcance de Aplicaciones: Además de transacciones financieras, mercados competitivos, transacciones NFT y compras de productos limitados requieren ordenamiento justo

3. Limitaciones de Métodos Existentes

  • Suposición de Sincronización Perfecta de Reloj: Los enfoques existentes asumen sincronización de reloj casi perfecta, lo cual es inviable en redes asincrónicas reales
  • Dependencia de Infraestructura Especial: Las soluciones tradicionales requieren cables de longitud igual, conmutadores de bajo jitter y otro hardware especializado
  • Acoplamiento de Aplicaciones: Algunos enfoques están fuertemente acoplados a la lógica de aplicaciones específicas, lo que dificulta su generalización

4. Desafíos Fundamentales

Limitaciones fundamentales de la sincronización de reloj: en redes asincrónicas o síncronas acotadas, la precisión de sincronización de reloj de nn procesos no puede exceder u(11/n)u(1-1/n), donde uu representa la incertidumbre en el retardo de enlace.

Contribuciones Principales

  1. Nueva Definición de Relación: Proposición de la relación likely-happened-before (p\xrightarrow{p}), que extiende la relación happened-before de Lamport
  2. Modelo Estadístico: Diseño de un método de comparación probabilística de marcas de tiempo basado en distribuciones de desviación de reloj
  3. Sistema Tommy: Implementación de un prototipo de ordenador justo sin necesidad de sincronización perfecta de reloj
  4. Análisis Teórico: Demostración de transitividad de relaciones probabilísticas bajo distribuciones gaussianas
  5. Direcciones de Investigación: Proposición de múltiples direcciones de investigación incluyendo ordenamiento justo en línea y orden total justo aleatorio

Explicación Detallada del Método

Definición de Tarea

Definición de Ordenamiento Justo: El orden en que el servidor observa los mensajes debe ser idéntico al orden observado por un observador omnisciente.

Entrada: Flujo de mensajes de cliente con marcas de tiempo locales Salida: Lotes de mensajes ordenados justamente por tiempo de generación Restricciones: Sin acceso a reloj global, solo sincronización de reloj de mejor esfuerzo

Arquitectura del Modelo

1. Modelo de Sistema

  • Cada cliente ii envía un mensaje con marca de tiempo TiT_i
  • Marca de tiempo real: Ti=Ti+θiT_i^* = T_i + \theta_i, donde θi\theta_i es la desviación de reloj
  • La desviación θi\theta_i sigue una distribución de probabilidad fθif_{\theta_i}

2. Cálculo Probabilístico

Probabilidad del orden de dos eventos: P(Ti<TjTi,Tj)=P(θjθi>TiTj)P(T_i^* < T_j^* | T_i, T_j) = P(\theta_j - \theta_i > T_i - T_j)

Definiendo Δθ=θjθifΔθ\Delta\theta = \theta_j - \theta_i \sim f_{\Delta\theta}, entonces: P(Ti<TjTi,Tj)=TiTjfΔθdΔP(T_i^* < T_j^* | T_i, T_j) = \int_{T_i-T_j}^{\infty} f_{\Delta\theta}d\Delta

3. Solución en Forma Cerrada para Caso Gaussiano

Para errores distribuidos gaussianamente de forma independiente: P(Ti<TjTi,Tj)=Φ(TjTi+(μiμj)σi2+σj2)P(T_i^* < T_j^* | T_i, T_j) = \Phi\left(\frac{T_j-T_i+(\mu_i-\mu_j)}{\sqrt{\sigma_i^2+\sigma_j^2}}\right)

donde Φ(x)\Phi(x) es la función de distribución acumulada de la distribución normal estándar.

4. Procesamiento de Distribuciones Arbitrarias

  • Aprendizaje del Cliente: Cada cliente aprende su propia distribución de desviación fθif_{\theta_i}
  • Cálculo de Convolución: El ordenador calcula fΔθf_{\Delta\theta} mediante convolución
  • Optimización FFT: Utilización de transformada rápida de Fourier para optimizar el cálculo de convolución

Puntos de Innovación Técnica

1. Construcción de Relación Probabilística

Modelado de mensajes como nodos en un grafo, con relaciones p\xrightarrow{p} como aristas dirigidas ponderadas. Para cada par de nodos, se retiene la arista con peso más alto.

2. Algoritmo de Ordenamiento Justo

  • Caso Transitivo: El grafo forma un torneo transitivo con un único ordenamiento topológico
  • Caso No Transitivo: Posible existencia de ciclos, requiriendo eliminación de aristas o ajuste probabilístico

3. Formación de Lotes

Creación de límites de lote según umbral thresholdthreshold:

  • Si ipji \xrightarrow{p} j y p>thresholdp > threshold, crear límite de lote entre ii y jj
  • Los mensajes cuyo orden no puede confirmarse se incluyen en el mismo lote

4. Ordenamiento en Línea

  • Garantía de Completitud: Esperar a que todos los clientes envíen mensajes con marca de tiempo mayor que tt
  • Emisión Segura: Calcular tiempo futuro TiBT_i^B tal que P(Ti<TiB)>psafeP(T_i^* < T_i^B) > p_{safe}

Configuración Experimental

Conjunto de Datos

  • Entorno de Simulación: 500 clientes, cada uno asignado con distribución de desviación de reloj gaussiana N(μ,σ2)\mathcal{N}(\mu, \sigma^2)
  • Generación de Marcas de Tiempo: Los clientes leen el reloj de pared tt, muestrean ruido ϵ\epsilon, marcan el mensaje como T=t+ϵT = t + \epsilon
  • Recopilación de Verdad Base: Recopilación de marcas de tiempo de verdad base para evaluación

Métricas de Evaluación

Puntuación de Consistencia de Clasificación (RAS):

  • Pares de mensajes ordenados correctamente: +1 punto
  • Pares de mensajes ordenados incorrectamente: -1 punto
  • Pares indiferentes (mismo lote): 0 puntos

Métodos de Comparación

Línea Base TrueTime: Simulación de Spanner TrueTime, asignando a cada mensaje un intervalo de incertidumbre [T3σ,T+3σ][T-3\sigma, T+3\sigma], asignando el mismo rango a intervalos superpuestos.

Detalles de Implementación

  • Configuración de umbral: threshold=0.75threshold = 0.75
  • Modo de evaluación: Ordenamiento sin conexión (ordenamiento después de la llegada de todos los mensajes)
  • Control de variables: Desviación estándar del error de reloj, intervalo entre mensajes

Resultados Experimentales

Resultados Principales

La Figura 5 muestra el desempeño de Tommy en relación con TrueTime:

  • Error de Reloj Bajo: Ambos sistemas tienen desempeño comparable
  • Error de Reloj Alto o Intervalo de Mensaje Pequeño: Tommy supera significativamente a TrueTime
  • Incertidumbre Extremadamente Alta: La naturaleza probabilística de Tommy puede resultar en RAS negativo, mientras que TrueTime mantiene una puntuación conservadora de 0

Hallazgos Clave

  1. Ventaja Adaptativa: Tommy muestra mejor desempeño cuando la calidad de sincronización de reloj es deficiente
  2. Costo Probabilístico: Bajo alta incertidumbre puede ocurrir ordenamiento incorrecto
  3. Compensación de Umbral: La selección de umbral afecta el tamaño de lote y la confianza en la equidad

Trabajo Relacionado

Intercambios en la Nube

  • Onyx: Ordenador WFO que asume que el error de sincronización de reloj es despreciable
  • CloudEx, DBO: Intercambios financieros para entorno en la nube, pero dependientes de suposiciones fuertes

Intercambios Tradicionales

Soluciones de ingeniería utilizando cables de longitud igual y conmutadores de bajo jitter, donde el procesamiento en orden de llegada es equivalente al ordenamiento por tiempo de generación.

Tolerancia Bizantina

Pompe: Mecanismo de consenso que limita el impacto de nodos bizantinos en el orden de eventos, pero no puede forzar ordenamiento justo.

Análisis Teórico

Demostración de Transitividad

Proposición 1: Para variables aleatorias normales independientes XN(μX,σX2)X \sim \mathcal{N}(\mu_X, \sigma_X^2), YN(μY,σY2)Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2), ZN(μZ,σZ2)Z \sim \mathcal{N}(\mu_Z, \sigma_Z^2), definiendo la relación de preferencia XYPr[X>Y]>12X \succ Y \Leftrightarrow \Pr[X > Y] > \frac{1}{2}, entonces \succ es transitiva.

Puntos Clave de la Demostración: Pr[A>B]>12μA>μB\Pr[A > B] > \frac{1}{2} \Leftrightarrow \mu_A > \mu_B

Debido a la transitividad de las medias, la relación probabilística también es transitiva.

Desafíos de No Transitividad

Para distribuciones arbitrarias, la transitividad no está garantizada, pudiendo ocurrir ciclos como ABA \succ B, BCB \succ C, CAC \succ A, similar al fenómeno de "piedra, papel o tijera".

Direcciones de Investigación Futura

1. Caracterización de Relaciones

  • Investigación de condiciones de distribución que hacen transitiva la relación p\xrightarrow{p}
  • Desarrollo de métodos de transformación para manejar no transitividad

2. Variabilidad de Red de Host

Investigación del impacto del jitter de ruta de datos del host en el acceso a reloj y retardos de envío de mensajes.

3. Extensión a Orden Total Justo

Extensión del orden parcial justo a orden total justo, investigación de mecanismos de equidad aleatoria.

4. Aprendizaje de Desviación de Reloj

Desarrollo de mecanismos robustos de aprendizaje de distribución de desviación de reloj, manejo de condiciones anómalas como cambios de temperatura abruptos.

5. Clientes Bizantinos

Investigación de garantías de equidad bajo fallos bizantinos, prevención de ataques de manipulación de marca de tiempo.

Conclusiones y Discusión

Conclusiones Principales

  1. Innovación Conceptual: La relación likely-happened-before proporciona una nueva perspectiva para ordenar eventos concurrentes
  2. Valor Práctico: Tommy supera métodos tradicionales bajo condiciones reales de sincronización de reloj
  3. Fundamento Teórico: La transitividad bajo distribuciones gaussianas proporciona apoyo teórico al método

Limitaciones

  1. Suposición de Transitividad: El diseño actual asume transitividad; casos no transitivos requieren investigación adicional
  2. Evaluación Sin Conexión: Los experimentos solo evalúan ordenamiento sin conexión; el desempeño en línea requiere verificación
  3. Suposición de Distribución: La suposición de distribución gaussiana puede no aplicarse a todos los escenarios prácticos
  4. Tolerancia Bizantina: Falta de mecanismos de protección contra clientes maliciosos

Evaluación de Impacto

Fortalezas

  1. Contribución Teórica: Extensión de la relación clásica happened-before
  2. Orientación Práctica: Solución de problemas reales en migración a la nube
  3. Marco Genérico: Soporte para distribuciones arbitrarias de desviación de reloj
  4. Ventaja de Desempeño: Superioridad sobre métodos existentes bajo condiciones realistas

Insuficiencias

  1. Completitud Incompleta: Soluciones incompletas para manejo de no transitividad
  2. Análisis de Seguridad: Falta de análisis profundo de amenazas de seguridad
  3. Limitaciones Experimentales: Solo experimentos de simulación, falta de verificación en sistemas reales

Escenarios Aplicables

  • Sistemas de transacciones financieras desplegados en múltiples centros de datos
  • Sistemas de pujas con requisitos estrictos de equidad
  • Aplicaciones que requieren implementar ordenamiento justo en infraestructura de red genérica

Valor de Investigación

Este artículo propone de manera innovadora el concepto de ordenamiento justo probabilístico, proporcionando una nueva dirección de solución para problemas de equidad en sistemas distribuidos. Aunque existen algunos desafíos teóricos e implementacionales, su idea central posee importante valor académico y potencial práctico, sentando las bases para investigaciones posteriores.

Referencias

Las referencias clave incluyen:

  • Lamport, L. "Time, clocks, and the ordering of events in a distributed system" (relación clásica happened-before)
  • Corbett, J.C. et al. "Spanner: Google's globally distributed database" (mecanismo TrueTime)
  • Ghalayini, A. et al. "Cloudex: A fair-access financial exchange in the cloud" (trabajo relacionado en intercambios en la nube)