2025-11-12T05:58:09.775127

Comparative Performance Analysis of Modern NoSQL Data Technologies: Redis, Aerospike, and Dragonfly

Bodra, Khairnar
The rise of distributed applications and cloud computing has created a demand for scalable, high-performance key-value storage systems. This paper presents a performance evaluation of three prominent NoSQL key-value stores: Redis, Aerospike, and Dragonfly, using the Yahoo! Cloud Serving Benchmark (YCSB) framework. We conducted extensive experiments across three distinct workload patterns (read-heavy, write-heavy), and balanced while systematically varying client concurrency from 1 to 32 clients. Our evaluation methodology captures both latency, throughput, and memory characteristics under realistic operational conditions, providing insights into the performance trade-offs and scalability behaviour of each system
academic

Análisis Comparativo del Desempeño de Tecnologías Modernas de Datos NoSQL: Redis, Aerospike y Dragonfly

Información Básica

  • ID del Artículo: 2510.08863
  • Título: Análisis Comparativo del Desempeño de Tecnologías Modernas de Datos NoSQL: Redis, Aerospike y Dragonfly
  • Autores: Deep Bodra (Harrisburg University of Science and Technology), Sushil Khairnar (Virginia Tech)
  • Clasificación: cs.DB cs.DC
  • Revista de Publicación: Journal of Research, Innovation and Technologies, Volumen IV, Número 2(8), 2025
  • Enlace del Artículo: https://doi.org/10.57017/jorit.v4.2(8).05

Resumen

Con el auge de las aplicaciones distribuidas y la computación en la nube, la demanda de sistemas de almacenamiento de pares clave-valor escalables y de alto desempeño ha crecido significativamente. Este artículo realiza una evaluación del desempeño de tres sistemas principales de almacenamiento de pares clave-valor NoSQL utilizando el marco Yahoo! Cloud Serving Benchmark (YCSB): Redis, Aerospike y Dragonfly. La investigación llevó a cabo experimentos extensos bajo tres patrones de carga de trabajo distintos (intensivo en lectura, intensivo en escritura y equilibrado), variando sistemáticamente el número de clientes concurrentes de 1 a 32. La metodología de evaluación capturó características de latencia, rendimiento y memoria en condiciones operacionales realistas, proporcionando información profunda sobre los compromisos de desempeño y comportamientos de escalabilidad de cada sistema.

Contexto de Investigación y Motivación

Definición del Problema

  1. Desafíos de Requisitos de Aplicaciones Modernas: El entorno digital moderno implica la creación y uso masivo de datos, y la rápida expansión de aplicaciones web, tecnología móvil y dispositivos de Internet de las Cosas plantea nuevos desafíos a los sistemas de bases de datos
  2. Limitaciones de Bases de Datos Tradicionales: Aunque los sistemas tradicionales de gestión de bases de datos relacionales son potentes, tienen dificultades para satisfacer los requisitos de desempeño y escalabilidad de las aplicaciones modernas, particularmente aquellas que requieren tiempos de respuesta de submilisegundos y procesamiento de millones de operaciones por segundo
  3. Auge de Bases de Datos NoSQL: Las bases de datos NoSQL, especialmente los almacenes de pares clave-valor, superan estos desafíos enfatizando el desempeño y la escalabilidad

Importancia de la Investigación

  • Valor Práctico: Proporciona orientación práctica a los arquitectos de sistemas para seleccionar soluciones de almacenamiento de pares clave-valor apropiadas
  • Valor Académico: Llena el vacío de evaluaciones comparativas sistemáticas de los sistemas Redis, Aerospike y Dragonfly
  • Valor Técnico: Revela características de desempeño de cada sistema mediante evaluación sistemática bajo diferentes patrones de carga de trabajo y niveles de concurrencia

Limitaciones de Investigaciones Existentes

Aunque estos sistemas se utilizan ampliamente, existe una falta de estudios comparativos comprehensivos que evalúen sistemáticamente sus características de desempeño bajo diversos patrones de carga de trabajo y niveles de concurrencia.

Contribuciones Principales

  1. Comparación de Desempeño Comprehensiva: Proporciona análisis comparativo completo del desempeño incluyendo métricas de latencia y rendimiento
  2. Análisis de Características de Consumo de Memoria: Análisis profundo de los patrones de uso de memoria y eficiencia de los tres sistemas
  3. Evaluación Multicargas de Trabajo: Evaluación sistemática bajo tres cargas de trabajo: intensiva en lectura, intensiva en escritura y equilibrada
  4. Análisis de Escalabilidad: Revela características de escalabilidad de cada sistema mediante pruebas con 1-32 clientes concurrentes
  5. Orientación Práctica: Proporciona orientación práctica a los arquitectos de sistemas para seleccionar soluciones de almacenamiento de pares clave-valor apropiadas

Detalles de la Metodología

Descripción General de Sistemas

Redis:

  • Almacén de estructuras de datos en memoria de código abierto, desarrollado en 2009
  • Arquitectura de un solo hilo, eliminando mecanismos complejos de bloqueo pero limitando la escalabilidad en sistemas multicore
  • Soporta múltiples estructuras de datos: cadenas, tablas hash, listas, conjuntos, conjuntos ordenados, etc.
  • Implementa persistencia mediante instantáneas periódicas o archivos de solo anexión

Aerospike:

  • Base de datos NoSQL distribuida, fundada en 2009
  • Arquitectura de memoria híbrida: DRAM para almacenar índices, SSD para almacenar datos
  • Arquitectura sin compartición, cada nodo opera independientemente
  • Proporciona consistencia fuerte y conmutación automática por error

Dragonfly:

  • Almacén de datos en memoria lanzado en 2022, como sustituto directo de Redis
  • Arquitectura multithread sin compartición, puede aprovechar múcleos de CPU
  • Compatible con protocolo Redis
  • Implementa gestión de memoria compleja y estructuras de datos sin bloqueos

Configuración Experimental

Entorno de Hardware:

  • Sistema: Mac OS con chip Apple M3 Pro
  • Configuración: 12 núcleos, 36GB RAM, macOS Sequoia
  • Despliegue: Uso de contenedores Docker para garantizar entorno consistente y aislado

Marco de Pruebas Comparativas:

  • Utiliza Yahoo! Cloud Serving Benchmark (YCSB)
  • Enfoque de dos fases: fase de carga para completar datos iniciales, fase de ejecución para ejecutar operaciones de referencia
  • Niveles de concurrencia: 1, 2, 4, 8, 16, 32 clientes
  • Distribución de selección de claves: distribución Zipfian, simulando patrones de acceso no uniforme realistas

Configuración de Cargas de Trabajo

Carga de Trabajo Intensiva en Lectura:

  • 95% operaciones de lectura, 5% operaciones de actualización
  • 1KB de datos por registro (10 campos, 100 bytes cada uno)
  • Carga de 1,474,560 registros
  • Simula escenarios de caché, sistemas de distribución de contenido, etc.

Carga de Trabajo Equilibrada:

  • 50% operaciones de lectura, 50% operaciones de actualización
  • Misma estructura de registro de 1KB
  • Representa patrones de acceso mixto de plataformas de redes sociales, aplicaciones colaborativas, etc.

Carga de Trabajo Intensiva en Escritura:

  • 10% operaciones de lectura, 90% operaciones de inserción
  • Datos de series temporales, 64 campos, 8 caracteres por campo
  • Fase de ejecución realiza 2,949,120 operaciones de inserción
  • Simula escenarios de ingesta de datos de alto rendimiento de aplicaciones IoT, sistemas de monitoreo, etc.

Resultados Experimentales

Desempeño de Carga de Trabajo Intensiva en Lectura

Aerospike Desempeño Óptimo:

  • Latencia P99: 436ms (cliente único) a 2,979ms (32 clientes)
  • Rendimiento: 3,348 ops/s a 32,592 ops/s
  • La ventaja de desempeño proviene de la arquitectura de memoria híbrida y diseño sin compartición

Redis Desempeño Medio:

  • Latencia P99: 862ms a 4,447ms
  • Rendimiento: 1,656 a 17,158 ops/s
  • La arquitectura de un solo hilo se convierte en cuello de botella de desempeño bajo alta concurrencia

Dragonfly Latencia Más Alta:

  • Latencia P99: 1,137ms a 4,883ms
  • Rendimiento: 1,371 a 16,328 ops/s
  • Los gastos generales de coordinación multithread compensan las ventajas del procesamiento paralelo

Desempeño de Carga de Trabajo Equilibrada

Jerarquía de Desempeño Consistente:

  • Aerospike: Latencia P99 441ms-2,409ms, rendimiento 3,372-33,741 ops/s
  • Redis: Latencia P99 874ms-4,017ms, rendimiento 1,664-17,004 ops/s
  • Dragonfly: Latencia P99 1,187ms-4,631ms, rendimiento 1,278-16,497 ops/s

Desempeño de Carga de Trabajo Intensiva en Escritura

Desempeño Óptimo de Todos los Sistemas:

  • Aerospike: Latencia P99 410ms-2,233ms, rendimiento 3,562-34,896 ops/s
  • Redis: Latencia P99 808ms-3,547ms, rendimiento 1,757-17,170 ops/s
  • Dragonfly: Latencia P99 1,124ms-3,859ms, rendimiento 1,331-16,925 ops/s

Análisis de Consumo de Memoria

SistemaAntes de Ejecución (MB)Después de Ejecución (MB)Factor de Crecimiento
Redis36.32261072x
Aerospike232.1772.33.3x
Dragonfly58.98235040x

Hallazgos Clave:

  • Aerospike tiene la mayor eficiencia de memoria, beneficiándose del modelo de almacenamiento híbrido
  • Redis tiene el mayor gasto general de memoria, reflejando limitaciones del almacenamiento en memoria de nodo único
  • Dragonfly se encuentra entre ambos, con gastos generales adicionales de estructuras de coordinación multithread

Análisis de Escalabilidad

Características de Escalabilidad de Rendimiento:

  • Aerospike: Escalabilidad casi lineal, mejora de 9-10x
  • Redis: Mejora de 10-11x, pero crecimiento de latencia más significativo
  • Dragonfly: Mejora de 12-13x, pero desempeño de línea base más bajo

Trabajo Relacionado

El artículo cita múltiples investigaciones relacionadas:

  1. Marcos de Pruebas Comparativas: El marco YCSB de Cooper et al. (2010) establece la base para pruebas comparativas de sistemas de servicios en la nube
  2. Investigaciones Comparativas NoSQL: Comparación empírica de almacenes de pares clave-valor de Anthony & Rao
  3. Investigaciones Específicas de Sistemas: Investigación de Aerospike de Volminger (2021), análisis de Redis de Charan et al.
  4. Desarrollos Recientes: Evaluación de NoSQL para cargas de trabajo OLAP de Mohan et al. (2024)

Conclusiones y Discusión

Conclusiones Principales

  1. Liderazgo Integral de Aerospike: Desempeño óptimo bajo todas las cargas de trabajo y niveles de concurrencia, con la mejor escalabilidad de rendimiento y latencia relativamente baja
  2. Redis Estable y Confiable: Desempeño consistente y predecible bajo todos los patrones de carga de trabajo, pero limitado por arquitectura de un solo hilo
  3. Dragonfly Potencial y Desafíos Coexisten: A pesar del diseño moderno, desempeño de latencia deficiente, mostrando potencial en escenarios intensivos en escritura
  4. Impacto Significativo de Carga de Trabajo: Todos los sistemas de bases de datos muestran desempeño óptimo bajo condiciones intensivas en escritura

Orientación Práctica

  • Requisitos de Máximo Desempeño: Seleccionar Aerospike
  • Prioridad de Simplicidad Operacional: Redis es suficiente para satisfacer requisitos
  • Requisitos de Compatibilidad con Redis: Dragonfly es una opción interesante, pero requiere evaluación cuidadosa para aplicaciones sensibles a latencia

Limitaciones

  1. Entorno de Prueba de Máquina Única: Todas las pruebas se realizaron en una sola máquina, sin reflejar completamente las ventajas de sistemas distribuidos
  2. Condiciones de Red Limitadas: No se consideran los efectos de latencia de red y particiones en el desempeño
  3. Distribución de Datos Única: Solo se utiliza distribución Zipfian, las aplicaciones reales pueden tener patrones diferentes
  4. Ausencia de Modo Cluster: No se prueban escenarios de despliegue distribuido real

Direcciones Futuras

  1. Pruebas en Entorno de Producción: Evaluar desempeño de sistemas bajo condiciones de producción reales
  2. Escenarios Distribuidos: Probar escalabilidad distribuida real en modo cluster
  3. Investigación de Modelos de Consistencia: Impacto del teorema CAP en el diseño de cada sistema
  4. Mecanismos de Tolerancia a Fallos: Evaluación de mecanismos de tolerancia a fallos durante fallos de nodos
  5. Replicación Entre Centros de Datos: Consistencia de datos y latencia de replicación bajo particiones de red

Evaluación Profunda

Fortalezas

  1. Metodología Rigurosa: Uso del marco estándar YCSB garantiza comparación justa
  2. Experimentos Comprehensivos: Cubre múltiples cargas de trabajo y niveles de concurrencia
  3. Análisis Profundo: No solo proporciona datos de desempeño, sino también análisis profundo de causas arquitectónicas
  4. Alto Valor Práctico: Proporciona orientación clara para selección de sistemas reales
  5. Escritura Clara: Estructura razonable, descripción técnica precisa

Deficiencias

  1. Limitaciones de Entorno: Entorno Docker de máquina única no puede demostrar completamente ventajas de sistemas distribuidos
  2. Configuración Única: No se prueban efectos de diferentes parámetros de configuración en desempeño
  3. Ausencia de Persistencia: Falta evaluación detallada del impacto de mecanismos de persistencia en desempeño
  4. Falta de Análisis de Costos: No se consideran costos de hardware y complejidad operacional
  5. Estabilidad a Largo Plazo: Falta pruebas de estabilidad de ejecución prolongada

Impacto

  1. Valor Académico: Proporciona metodología sistemática para investigación de desempeño de bases de datos NoSQL
  2. Valor Práctico: Proporciona referencia para industria en selección de sistemas de almacenamiento de pares clave-valor apropiados
  3. Contribución Metodológica: Demuestra cómo comparar sistemáticamente desempeño de sistemas NoSQL
  4. Reproducibilidad: Descripción detallada de configuración experimental facilita reproducción y extensión

Escenarios Aplicables

  1. Selección de Sistemas: Proporciona referencia para proyectos que necesitan seleccionar sistemas de almacenamiento de pares clave-valor
  2. Optimización de Desempeño: Proporciona referencia para optimización de desempeño de sistemas existentes
  3. Diseño de Arquitectura: Proporciona base para diseño de arquitectura de sistemas distribuidos a gran escala
  4. Investigación Académica: Proporciona datos de base y referencia metodológica para investigación en campos relacionados

Referencias

El artículo cita múltiples referencias importantes, incluyendo:

  • Cooper, B.F. et al. (2010). Benchmarking cloud serving systems with YCSB
  • Anthony, A., & Rao, Y. N. M. Comparación Empírica de Almacenes de Pares Clave-Valor Memcached, Redis y Aerospike
  • Mohan, R. K. et al. (2024). Evaluación de Bases de Datos NoSQL para Cargas de Trabajo OLAP
  • Así como documentación oficial y materiales técnicos de sistemas de bases de datos

Este artículo proporciona una contribución valiosa al campo de evaluación de desempeño de bases de datos NoSQL. Mediante diseño experimental sistemático y análisis profundo, proporciona referencia importante para comprender características de desempeño de sistemas modernos de almacenamiento de pares clave-valor y seleccionar soluciones tecnológicas apropiadas.