A growing class of applications demands \emph{fair ordering/sequencing} of events which ensures that events generated earlier by one client are processed before later events from other clients. However, achieving such sequencing is fundamentally challenging due to the inherent limitations of clock synchronization. We advocate for an approach that embraces, rather than eliminates, clock variability. Instead of attempting to remove error from a timestamp, Tommy, our proposed system, leverages a statistical model to compare two noisy timestamps probabilistically by learning per-clock offset distributions. Our preliminary statistical model computes the probability that one event precedes another w.r.t. the wall-clock time without access to the wall-clock. This serves as a foundation for a new relation: \emph{likely-happened-before} denoted by $\xrightarrow{p}$ where $p$ represents the probability of an event to have happened before another. The $\xrightarrow{p}$ relation provides a basis for ordering multiple events which are otherwise considered \emph{concurrent} by the typical \emph{happened-before} ($\rightarrow$) relation. We highlight various related challenges including intransitivity of $\xrightarrow{p}$ relation as opposed to the transitive $\rightarrow$ relation. We also outline several research directions: online fair sequencing, stochastically fair total ordering, host-level support for fairness and more.
academic
Más Allá de Lamport, Hacia un Ordenamiento Justo Probabilístico
Este artículo aborda los desafíos del ordenamiento justo (fair ordering) en sistemas distribuidos, proponiendo un nuevo enfoque que abraza en lugar de eliminar la variabilidad de reloj. Los autores diseñan el sistema Tommy, que aprende la distribución de desviaciones de cada reloj y utiliza modelos estadísticos para comparaciones probabilísticas de marcas de tiempo ruidosas. La innovación central es la proposición de la relación "likely-happened-before" (p), donde p representa la probabilidad de que un evento ocurra antes que otro. Esta relación permite ordenar eventos que la relación tradicional happened-before (→) considera concurrentes, pero también introduce nuevos desafíos como la no transitividad.
El ordenamiento justo en sistemas distribuidos requiere garantizar que los eventos generados más temprano por un cliente se procesen antes que los eventos generados más tarde por otros clientes. Esto es crítico en aplicaciones competitivas como bolsas de valores financieras, intercambios de publicidad y otras aplicaciones denominadas "auction-apps".
Equidad Financiera: En transacciones financieras, el orden de procesamiento de mensajes afecta directamente los resultados comerciales; el ordenamiento injusto puede causar pérdidas económicas significativas
Necesidad de Migración a la Nube: Las bolsas de valores financieras tradicionales utilizan infraestructura dedicada para garantizar equidad, pero la migración a nubes públicas requiere nuevas primitivas de red
Expansión del Alcance de Aplicaciones: Además de transacciones financieras, mercados competitivos, transacciones NFT y compras de productos limitados requieren ordenamiento justo
Suposición de Sincronización Perfecta de Reloj: Los enfoques existentes asumen sincronización de reloj casi perfecta, lo cual es inviable en redes asincrónicas reales
Dependencia de Infraestructura Especial: Las soluciones tradicionales requieren cables de longitud igual, conmutadores de bajo jitter y otro hardware especializado
Acoplamiento de Aplicaciones: Algunos enfoques están fuertemente acoplados a la lógica de aplicaciones específicas, lo que dificulta su generalización
Limitaciones fundamentales de la sincronización de reloj: en redes asincrónicas o síncronas acotadas, la precisión de sincronización de reloj de n procesos no puede exceder u(1−1/n), donde u representa la incertidumbre en el retardo de enlace.
Nueva Definición de Relación: Proposición de la relación likely-happened-before (p), que extiende la relación happened-before de Lamport
Modelo Estadístico: Diseño de un método de comparación probabilística de marcas de tiempo basado en distribuciones de desviación de reloj
Sistema Tommy: Implementación de un prototipo de ordenador justo sin necesidad de sincronización perfecta de reloj
Análisis Teórico: Demostración de transitividad de relaciones probabilísticas bajo distribuciones gaussianas
Direcciones de Investigación: Proposición de múltiples direcciones de investigación incluyendo ordenamiento justo en línea y orden total justo aleatorio
Definición de Ordenamiento Justo: El orden en que el servidor observa los mensajes debe ser idéntico al orden observado por un observador omnisciente.
Entrada: Flujo de mensajes de cliente con marcas de tiempo locales
Salida: Lotes de mensajes ordenados justamente por tiempo de generación
Restricciones: Sin acceso a reloj global, solo sincronización de reloj de mejor esfuerzo
Modelado de mensajes como nodos en un grafo, con relaciones p como aristas dirigidas ponderadas. Para cada par de nodos, se retiene la arista con peso más alto.
Línea Base TrueTime: Simulación de Spanner TrueTime, asignando a cada mensaje un intervalo de incertidumbre [T−3σ,T+3σ], asignando el mismo rango a intervalos superpuestos.
La Figura 5 muestra el desempeño de Tommy en relación con TrueTime:
Error de Reloj Bajo: Ambos sistemas tienen desempeño comparable
Error de Reloj Alto o Intervalo de Mensaje Pequeño: Tommy supera significativamente a TrueTime
Incertidumbre Extremadamente Alta: La naturaleza probabilística de Tommy puede resultar en RAS negativo, mientras que TrueTime mantiene una puntuación conservadora de 0
Soluciones de ingeniería utilizando cables de longitud igual y conmutadores de bajo jitter, donde el procesamiento en orden de llegada es equivalente al ordenamiento por tiempo de generación.
Proposición 1: Para variables aleatorias normales independientes X∼N(μX,σX2), Y∼N(μY,σY2), Z∼N(μZ,σZ2), definiendo la relación de preferencia X≻Y⇔Pr[X>Y]>21, entonces ≻ es transitiva.
Puntos Clave de la Demostración:
Pr[A>B]>21⇔μA>μB
Debido a la transitividad de las medias, la relación probabilística también es transitiva.
Para distribuciones arbitrarias, la transitividad no está garantizada, pudiendo ocurrir ciclos como A≻B, B≻C, C≻A, similar al fenómeno de "piedra, papel o tijera".
Desarrollo de mecanismos robustos de aprendizaje de distribución de desviación de reloj, manejo de condiciones anómalas como cambios de temperatura abruptos.
Este artículo propone de manera innovadora el concepto de ordenamiento justo probabilístico, proporcionando una nueva dirección de solución para problemas de equidad en sistemas distribuidos. Aunque existen algunos desafíos teóricos e implementacionales, su idea central posee importante valor académico y potencial práctico, sentando las bases para investigaciones posteriores.