2025-11-12T12:19:10.304562

Fair Ordering

Haseeb, Geng, Mittal et al.

A growing class of applications demands \emph{fair ordering/sequencing} of events which ensures that events generated earlier by one client are processed before later events from other clients. However, achieving such sequencing is fundamentally challenging due to the inherent limitations of clock synchronization. We advocate for an approach that embraces, rather than eliminates, clock variability. Instead of attempting to remove error from a timestamp, Tommy, our proposed system, leverages a statistical model to compare two noisy timestamps probabilistically by learning per-clock offset distributions. Our preliminary statistical model computes the probability that one event precedes another w.r.t. the wall-clock time without access to the wall-clock. This serves as a foundation for a new relation: \emph{likely-happened-before} denoted by $\xrightarrow{p}$ where $p$ represents the probability of an event to have happened before another. The $\xrightarrow{p}$ relation provides a basis for ordering multiple events which are otherwise considered \emph{concurrent} by the typical \emph{happened-before} ($\rightarrow$) relation. We highlight various related challenges including intransitivity of $\xrightarrow{p}$ relation as opposed to the transitive $\rightarrow$ relation. We also outline several research directions: online fair sequencing, stochastically fair total ordering, host-level support for fairness and more.

academic

Más Allá de Lamport, Hacia un Ordenamiento Justo Probabilístico

Información Básica

ID del Artículo: 2510.13664
Título: Beyond Lamport, Towards Probabilistic Fair Ordering
Autores: Muhammad Haseeb, Jinkun Geng, Radhika Mittal, Aurojit Panda, Srinivas Narayana, Anirudh Sivaraman
Clasificación: cs.NI (Redes de Computadoras)
Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13664v1

Resumen

Este artículo aborda los desafíos del ordenamiento justo (fair ordering) en sistemas distribuidos, proponiendo un nuevo enfoque que abraza en lugar de eliminar la variabilidad de reloj. Los autores diseñan el sistema Tommy, que aprende la distribución de desviaciones de cada reloj y utiliza modelos estadísticos para comparaciones probabilísticas de marcas de tiempo ruidosas. La innovación central es la proposición de la relación "likely-happened-before" ( $\xrightarrow{p}$ ), donde $p$ representa la probabilidad de que un evento ocurra antes que otro. Esta relación permite ordenar eventos que la relación tradicional happened-before ( $\rightarrow$ ) considera concurrentes, pero también introduce nuevos desafíos como la no transitividad.

Antecedentes de Investigación y Motivación

1. Definición del Problema

El ordenamiento justo en sistemas distribuidos requiere garantizar que los eventos generados más temprano por un cliente se procesen antes que los eventos generados más tarde por otros clientes. Esto es crítico en aplicaciones competitivas como bolsas de valores financieras, intercambios de publicidad y otras aplicaciones denominadas "auction-apps".

2. Importancia del Problema

Equidad Financiera: En transacciones financieras, el orden de procesamiento de mensajes afecta directamente los resultados comerciales; el ordenamiento injusto puede causar pérdidas económicas significativas
Necesidad de Migración a la Nube: Las bolsas de valores financieras tradicionales utilizan infraestructura dedicada para garantizar equidad, pero la migración a nubes públicas requiere nuevas primitivas de red
Expansión del Alcance de Aplicaciones: Además de transacciones financieras, mercados competitivos, transacciones NFT y compras de productos limitados requieren ordenamiento justo

3. Limitaciones de Métodos Existentes

Suposición de Sincronización Perfecta de Reloj: Los enfoques existentes asumen sincronización de reloj casi perfecta, lo cual es inviable en redes asincrónicas reales
Dependencia de Infraestructura Especial: Las soluciones tradicionales requieren cables de longitud igual, conmutadores de bajo jitter y otro hardware especializado
Acoplamiento de Aplicaciones: Algunos enfoques están fuertemente acoplados a la lógica de aplicaciones específicas, lo que dificulta su generalización

4. Desafíos Fundamentales

Limitaciones fundamentales de la sincronización de reloj: en redes asincrónicas o síncronas acotadas, la precisión de sincronización de reloj de $n$ procesos no puede exceder $u(1-1/n)$ , donde $u$ representa la incertidumbre en el retardo de enlace.

Contribuciones Principales

Nueva Definición de Relación: Proposición de la relación likely-happened-before ( $\xrightarrow{p}$ ), que extiende la relación happened-before de Lamport
Modelo Estadístico: Diseño de un método de comparación probabilística de marcas de tiempo basado en distribuciones de desviación de reloj
Sistema Tommy: Implementación de un prototipo de ordenador justo sin necesidad de sincronización perfecta de reloj
Análisis Teórico: Demostración de transitividad de relaciones probabilísticas bajo distribuciones gaussianas
Direcciones de Investigación: Proposición de múltiples direcciones de investigación incluyendo ordenamiento justo en línea y orden total justo aleatorio

Explicación Detallada del Método

Definición de Tarea

Definición de Ordenamiento Justo: El orden en que el servidor observa los mensajes debe ser idéntico al orden observado por un observador omnisciente.

Entrada: Flujo de mensajes de cliente con marcas de tiempo locales Salida: Lotes de mensajes ordenados justamente por tiempo de generación Restricciones: Sin acceso a reloj global, solo sincronización de reloj de mejor esfuerzo

Arquitectura del Modelo

1. Modelo de Sistema

Cada cliente $i$ envía un mensaje con marca de tiempo $T_i$
Marca de tiempo real: $T_i^* = T_i + \theta_i$ , donde $\theta_i$ es la desviación de reloj
La desviación $\theta_i$ sigue una distribución de probabilidad $f_{\theta_i}$

2. Cálculo Probabilístico

Probabilidad del orden de dos eventos: $P(T_i^* < T_j^* | T_i, T_j) = P(\theta_j - \theta_i > T_i - T_j)$

Definiendo $\Delta\theta = \theta_j - \theta_i \sim f_{\Delta\theta}$ , entonces: $P(T_i^* < T_j^* | T_i, T_j) = \int_{T_i-T_j}^{\infty} f_{\Delta\theta}d\Delta$

3. Solución en Forma Cerrada para Caso Gaussiano

Para errores distribuidos gaussianamente de forma independiente: $P(T_i^* < T_j^* | T_i, T_j) = \Phi\left(\frac{T_j-T_i+(\mu_i-\mu_j)}{\sqrt{\sigma_i^2+\sigma_j^2}}\right)$

donde $\Phi(x)$ es la función de distribución acumulada de la distribución normal estándar.

4. Procesamiento de Distribuciones Arbitrarias

Aprendizaje del Cliente: Cada cliente aprende su propia distribución de desviación $f_{\theta_i}$
Cálculo de Convolución: El ordenador calcula $f_{\Delta\theta}$ mediante convolución
Optimización FFT: Utilización de transformada rápida de Fourier para optimizar el cálculo de convolución

Puntos de Innovación Técnica

1. Construcción de Relación Probabilística

Modelado de mensajes como nodos en un grafo, con relaciones $\xrightarrow{p}$ como aristas dirigidas ponderadas. Para cada par de nodos, se retiene la arista con peso más alto.

2. Algoritmo de Ordenamiento Justo

Caso Transitivo: El grafo forma un torneo transitivo con un único ordenamiento topológico
Caso No Transitivo: Posible existencia de ciclos, requiriendo eliminación de aristas o ajuste probabilístico

3. Formación de Lotes

Creación de límites de lote según umbral $threshold$ :

Si $i \xrightarrow{p} j$ y $p > threshold$ , crear límite de lote entre $i$ y $j$
Los mensajes cuyo orden no puede confirmarse se incluyen en el mismo lote

4. Ordenamiento en Línea

Garantía de Completitud: Esperar a que todos los clientes envíen mensajes con marca de tiempo mayor que $t$
Emisión Segura: Calcular tiempo futuro $T_i^B$ tal que $P(T_i^* < T_i^B) > p_{safe}$

Configuración Experimental

Conjunto de Datos

Entorno de Simulación: 500 clientes, cada uno asignado con distribución de desviación de reloj gaussiana $\mathcal{N}(\mu, \sigma^2)$
Generación de Marcas de Tiempo: Los clientes leen el reloj de pared $t$ , muestrean ruido $\epsilon$ , marcan el mensaje como $T = t + \epsilon$
Recopilación de Verdad Base: Recopilación de marcas de tiempo de verdad base para evaluación

Métricas de Evaluación

Puntuación de Consistencia de Clasificación (RAS):

Pares de mensajes ordenados correctamente: +1 punto
Pares de mensajes ordenados incorrectamente: -1 punto
Pares indiferentes (mismo lote): 0 puntos

Métodos de Comparación

Línea Base TrueTime: Simulación de Spanner TrueTime, asignando a cada mensaje un intervalo de incertidumbre $[T-3\sigma, T+3\sigma]$ , asignando el mismo rango a intervalos superpuestos.

Detalles de Implementación

Configuración de umbral: $threshold = 0.75$
Modo de evaluación: Ordenamiento sin conexión (ordenamiento después de la llegada de todos los mensajes)
Control de variables: Desviación estándar del error de reloj, intervalo entre mensajes

Resultados Experimentales

Resultados Principales

La Figura 5 muestra el desempeño de Tommy en relación con TrueTime:

Error de Reloj Bajo: Ambos sistemas tienen desempeño comparable
Error de Reloj Alto o Intervalo de Mensaje Pequeño: Tommy supera significativamente a TrueTime
Incertidumbre Extremadamente Alta: La naturaleza probabilística de Tommy puede resultar en RAS negativo, mientras que TrueTime mantiene una puntuación conservadora de 0

Hallazgos Clave

Ventaja Adaptativa: Tommy muestra mejor desempeño cuando la calidad de sincronización de reloj es deficiente
Costo Probabilístico: Bajo alta incertidumbre puede ocurrir ordenamiento incorrecto
Compensación de Umbral: La selección de umbral afecta el tamaño de lote y la confianza en la equidad

Trabajo Relacionado

Intercambios en la Nube

Onyx: Ordenador WFO que asume que el error de sincronización de reloj es despreciable
CloudEx, DBO: Intercambios financieros para entorno en la nube, pero dependientes de suposiciones fuertes

Intercambios Tradicionales

Soluciones de ingeniería utilizando cables de longitud igual y conmutadores de bajo jitter, donde el procesamiento en orden de llegada es equivalente al ordenamiento por tiempo de generación.

Tolerancia Bizantina

Pompe: Mecanismo de consenso que limita el impacto de nodos bizantinos en el orden de eventos, pero no puede forzar ordenamiento justo.

Análisis Teórico

Demostración de Transitividad

Proposición 1: Para variables aleatorias normales independientes $X \sim \mathcal{N}(\mu_X, \sigma_X^2)$ , $Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2)$ , $Z \sim \mathcal{N}(\mu_Z, \sigma_Z^2)$ , definiendo la relación de preferencia $X \succ Y \Leftrightarrow \Pr[X > Y] > \frac{1}{2}$ , entonces $\succ$ es transitiva.

Puntos Clave de la Demostración: $\Pr[A > B] > \frac{1}{2} \Leftrightarrow \mu_A > \mu_B$

Debido a la transitividad de las medias, la relación probabilística también es transitiva.

Desafíos de No Transitividad

Para distribuciones arbitrarias, la transitividad no está garantizada, pudiendo ocurrir ciclos como $A \succ B$ , $B \succ C$ , $C \succ A$ , similar al fenómeno de "piedra, papel o tijera".

Direcciones de Investigación Futura

1. Caracterización de Relaciones

Investigación de condiciones de distribución que hacen transitiva la relación $\xrightarrow{p}$
Desarrollo de métodos de transformación para manejar no transitividad

2. Variabilidad de Red de Host

Investigación del impacto del jitter de ruta de datos del host en el acceso a reloj y retardos de envío de mensajes.

3. Extensión a Orden Total Justo

Extensión del orden parcial justo a orden total justo, investigación de mecanismos de equidad aleatoria.

4. Aprendizaje de Desviación de Reloj

Desarrollo de mecanismos robustos de aprendizaje de distribución de desviación de reloj, manejo de condiciones anómalas como cambios de temperatura abruptos.

5. Clientes Bizantinos

Investigación de garantías de equidad bajo fallos bizantinos, prevención de ataques de manipulación de marca de tiempo.

Conclusiones y Discusión

Conclusiones Principales

Innovación Conceptual: La relación likely-happened-before proporciona una nueva perspectiva para ordenar eventos concurrentes
Valor Práctico: Tommy supera métodos tradicionales bajo condiciones reales de sincronización de reloj
Fundamento Teórico: La transitividad bajo distribuciones gaussianas proporciona apoyo teórico al método

Limitaciones

Suposición de Transitividad: El diseño actual asume transitividad; casos no transitivos requieren investigación adicional
Evaluación Sin Conexión: Los experimentos solo evalúan ordenamiento sin conexión; el desempeño en línea requiere verificación
Suposición de Distribución: La suposición de distribución gaussiana puede no aplicarse a todos los escenarios prácticos
Tolerancia Bizantina: Falta de mecanismos de protección contra clientes maliciosos

Evaluación de Impacto

Fortalezas

Contribución Teórica: Extensión de la relación clásica happened-before
Orientación Práctica: Solución de problemas reales en migración a la nube
Marco Genérico: Soporte para distribuciones arbitrarias de desviación de reloj
Ventaja de Desempeño: Superioridad sobre métodos existentes bajo condiciones realistas

Insuficiencias

Completitud Incompleta: Soluciones incompletas para manejo de no transitividad
Análisis de Seguridad: Falta de análisis profundo de amenazas de seguridad
Limitaciones Experimentales: Solo experimentos de simulación, falta de verificación en sistemas reales

Escenarios Aplicables

Sistemas de transacciones financieras desplegados en múltiples centros de datos
Sistemas de pujas con requisitos estrictos de equidad
Aplicaciones que requieren implementar ordenamiento justo en infraestructura de red genérica

Valor de Investigación

Este artículo propone de manera innovadora el concepto de ordenamiento justo probabilístico, proporcionando una nueva dirección de solución para problemas de equidad en sistemas distribuidos. Aunque existen algunos desafíos teóricos e implementacionales, su idea central posee importante valor académico y potencial práctico, sentando las bases para investigaciones posteriores.

Referencias

Las referencias clave incluyen:

Lamport, L. "Time, clocks, and the ordering of events in a distributed system" (relación clásica happened-before)
Corbett, J.C. et al. "Spanner: Google's globally distributed database" (mecanismo TrueTime)
Ghalayini, A. et al. "Cloudex: A fair-access financial exchange in the cloud" (trabajo relacionado en intercambios en la nube)