The rise of distributed applications and cloud computing has created a demand for scalable, high-performance key-value storage systems. This paper presents a performance evaluation of three prominent NoSQL key-value stores: Redis, Aerospike, and Dragonfly, using the Yahoo! Cloud Serving Benchmark (YCSB) framework. We conducted extensive experiments across three distinct workload patterns (read-heavy, write-heavy), and balanced while systematically varying client concurrency from 1 to 32 clients. Our evaluation methodology captures both latency, throughput, and memory characteristics under realistic operational conditions, providing insights into the performance trade-offs and scalability behaviour of each system
- ID del Artículo: 2510.08863
- Título: Análisis Comparativo del Desempeño de Tecnologías Modernas de Datos NoSQL: Redis, Aerospike y Dragonfly
- Autores: Deep Bodra (Harrisburg University of Science and Technology), Sushil Khairnar (Virginia Tech)
- Clasificación: cs.DB cs.DC
- Revista de Publicación: Journal of Research, Innovation and Technologies, Volumen IV, Número 2(8), 2025
- Enlace del Artículo: https://doi.org/10.57017/jorit.v4.2(8).05
Con el auge de las aplicaciones distribuidas y la computación en la nube, la demanda de sistemas de almacenamiento de pares clave-valor escalables y de alto desempeño ha crecido significativamente. Este artículo realiza una evaluación del desempeño de tres sistemas principales de almacenamiento de pares clave-valor NoSQL utilizando el marco Yahoo! Cloud Serving Benchmark (YCSB): Redis, Aerospike y Dragonfly. La investigación llevó a cabo experimentos extensos bajo tres patrones de carga de trabajo distintos (intensivo en lectura, intensivo en escritura y equilibrado), variando sistemáticamente el número de clientes concurrentes de 1 a 32. La metodología de evaluación capturó características de latencia, rendimiento y memoria en condiciones operacionales realistas, proporcionando información profunda sobre los compromisos de desempeño y comportamientos de escalabilidad de cada sistema.
- Desafíos de Requisitos de Aplicaciones Modernas: El entorno digital moderno implica la creación y uso masivo de datos, y la rápida expansión de aplicaciones web, tecnología móvil y dispositivos de Internet de las Cosas plantea nuevos desafíos a los sistemas de bases de datos
- Limitaciones de Bases de Datos Tradicionales: Aunque los sistemas tradicionales de gestión de bases de datos relacionales son potentes, tienen dificultades para satisfacer los requisitos de desempeño y escalabilidad de las aplicaciones modernas, particularmente aquellas que requieren tiempos de respuesta de submilisegundos y procesamiento de millones de operaciones por segundo
- Auge de Bases de Datos NoSQL: Las bases de datos NoSQL, especialmente los almacenes de pares clave-valor, superan estos desafíos enfatizando el desempeño y la escalabilidad
- Valor Práctico: Proporciona orientación práctica a los arquitectos de sistemas para seleccionar soluciones de almacenamiento de pares clave-valor apropiadas
- Valor Académico: Llena el vacío de evaluaciones comparativas sistemáticas de los sistemas Redis, Aerospike y Dragonfly
- Valor Técnico: Revela características de desempeño de cada sistema mediante evaluación sistemática bajo diferentes patrones de carga de trabajo y niveles de concurrencia
Aunque estos sistemas se utilizan ampliamente, existe una falta de estudios comparativos comprehensivos que evalúen sistemáticamente sus características de desempeño bajo diversos patrones de carga de trabajo y niveles de concurrencia.
- Comparación de Desempeño Comprehensiva: Proporciona análisis comparativo completo del desempeño incluyendo métricas de latencia y rendimiento
- Análisis de Características de Consumo de Memoria: Análisis profundo de los patrones de uso de memoria y eficiencia de los tres sistemas
- Evaluación Multicargas de Trabajo: Evaluación sistemática bajo tres cargas de trabajo: intensiva en lectura, intensiva en escritura y equilibrada
- Análisis de Escalabilidad: Revela características de escalabilidad de cada sistema mediante pruebas con 1-32 clientes concurrentes
- Orientación Práctica: Proporciona orientación práctica a los arquitectos de sistemas para seleccionar soluciones de almacenamiento de pares clave-valor apropiadas
Redis:
- Almacén de estructuras de datos en memoria de código abierto, desarrollado en 2009
- Arquitectura de un solo hilo, eliminando mecanismos complejos de bloqueo pero limitando la escalabilidad en sistemas multicore
- Soporta múltiples estructuras de datos: cadenas, tablas hash, listas, conjuntos, conjuntos ordenados, etc.
- Implementa persistencia mediante instantáneas periódicas o archivos de solo anexión
Aerospike:
- Base de datos NoSQL distribuida, fundada en 2009
- Arquitectura de memoria híbrida: DRAM para almacenar índices, SSD para almacenar datos
- Arquitectura sin compartición, cada nodo opera independientemente
- Proporciona consistencia fuerte y conmutación automática por error
Dragonfly:
- Almacén de datos en memoria lanzado en 2022, como sustituto directo de Redis
- Arquitectura multithread sin compartición, puede aprovechar múcleos de CPU
- Compatible con protocolo Redis
- Implementa gestión de memoria compleja y estructuras de datos sin bloqueos
Entorno de Hardware:
- Sistema: Mac OS con chip Apple M3 Pro
- Configuración: 12 núcleos, 36GB RAM, macOS Sequoia
- Despliegue: Uso de contenedores Docker para garantizar entorno consistente y aislado
Marco de Pruebas Comparativas:
- Utiliza Yahoo! Cloud Serving Benchmark (YCSB)
- Enfoque de dos fases: fase de carga para completar datos iniciales, fase de ejecución para ejecutar operaciones de referencia
- Niveles de concurrencia: 1, 2, 4, 8, 16, 32 clientes
- Distribución de selección de claves: distribución Zipfian, simulando patrones de acceso no uniforme realistas
Carga de Trabajo Intensiva en Lectura:
- 95% operaciones de lectura, 5% operaciones de actualización
- 1KB de datos por registro (10 campos, 100 bytes cada uno)
- Carga de 1,474,560 registros
- Simula escenarios de caché, sistemas de distribución de contenido, etc.
Carga de Trabajo Equilibrada:
- 50% operaciones de lectura, 50% operaciones de actualización
- Misma estructura de registro de 1KB
- Representa patrones de acceso mixto de plataformas de redes sociales, aplicaciones colaborativas, etc.
Carga de Trabajo Intensiva en Escritura:
- 10% operaciones de lectura, 90% operaciones de inserción
- Datos de series temporales, 64 campos, 8 caracteres por campo
- Fase de ejecución realiza 2,949,120 operaciones de inserción
- Simula escenarios de ingesta de datos de alto rendimiento de aplicaciones IoT, sistemas de monitoreo, etc.
Aerospike Desempeño Óptimo:
- Latencia P99: 436ms (cliente único) a 2,979ms (32 clientes)
- Rendimiento: 3,348 ops/s a 32,592 ops/s
- La ventaja de desempeño proviene de la arquitectura de memoria híbrida y diseño sin compartición
Redis Desempeño Medio:
- Latencia P99: 862ms a 4,447ms
- Rendimiento: 1,656 a 17,158 ops/s
- La arquitectura de un solo hilo se convierte en cuello de botella de desempeño bajo alta concurrencia
Dragonfly Latencia Más Alta:
- Latencia P99: 1,137ms a 4,883ms
- Rendimiento: 1,371 a 16,328 ops/s
- Los gastos generales de coordinación multithread compensan las ventajas del procesamiento paralelo
Jerarquía de Desempeño Consistente:
- Aerospike: Latencia P99 441ms-2,409ms, rendimiento 3,372-33,741 ops/s
- Redis: Latencia P99 874ms-4,017ms, rendimiento 1,664-17,004 ops/s
- Dragonfly: Latencia P99 1,187ms-4,631ms, rendimiento 1,278-16,497 ops/s
Desempeño Óptimo de Todos los Sistemas:
- Aerospike: Latencia P99 410ms-2,233ms, rendimiento 3,562-34,896 ops/s
- Redis: Latencia P99 808ms-3,547ms, rendimiento 1,757-17,170 ops/s
- Dragonfly: Latencia P99 1,124ms-3,859ms, rendimiento 1,331-16,925 ops/s
| Sistema | Antes de Ejecución (MB) | Después de Ejecución (MB) | Factor de Crecimiento |
|---|
| Redis | 36.32 | 2610 | 72x |
| Aerospike | 232.1 | 772.3 | 3.3x |
| Dragonfly | 58.98 | 2350 | 40x |
Hallazgos Clave:
- Aerospike tiene la mayor eficiencia de memoria, beneficiándose del modelo de almacenamiento híbrido
- Redis tiene el mayor gasto general de memoria, reflejando limitaciones del almacenamiento en memoria de nodo único
- Dragonfly se encuentra entre ambos, con gastos generales adicionales de estructuras de coordinación multithread
Características de Escalabilidad de Rendimiento:
- Aerospike: Escalabilidad casi lineal, mejora de 9-10x
- Redis: Mejora de 10-11x, pero crecimiento de latencia más significativo
- Dragonfly: Mejora de 12-13x, pero desempeño de línea base más bajo
El artículo cita múltiples investigaciones relacionadas:
- Marcos de Pruebas Comparativas: El marco YCSB de Cooper et al. (2010) establece la base para pruebas comparativas de sistemas de servicios en la nube
- Investigaciones Comparativas NoSQL: Comparación empírica de almacenes de pares clave-valor de Anthony & Rao
- Investigaciones Específicas de Sistemas: Investigación de Aerospike de Volminger (2021), análisis de Redis de Charan et al.
- Desarrollos Recientes: Evaluación de NoSQL para cargas de trabajo OLAP de Mohan et al. (2024)
- Liderazgo Integral de Aerospike: Desempeño óptimo bajo todas las cargas de trabajo y niveles de concurrencia, con la mejor escalabilidad de rendimiento y latencia relativamente baja
- Redis Estable y Confiable: Desempeño consistente y predecible bajo todos los patrones de carga de trabajo, pero limitado por arquitectura de un solo hilo
- Dragonfly Potencial y Desafíos Coexisten: A pesar del diseño moderno, desempeño de latencia deficiente, mostrando potencial en escenarios intensivos en escritura
- Impacto Significativo de Carga de Trabajo: Todos los sistemas de bases de datos muestran desempeño óptimo bajo condiciones intensivas en escritura
- Requisitos de Máximo Desempeño: Seleccionar Aerospike
- Prioridad de Simplicidad Operacional: Redis es suficiente para satisfacer requisitos
- Requisitos de Compatibilidad con Redis: Dragonfly es una opción interesante, pero requiere evaluación cuidadosa para aplicaciones sensibles a latencia
- Entorno de Prueba de Máquina Única: Todas las pruebas se realizaron en una sola máquina, sin reflejar completamente las ventajas de sistemas distribuidos
- Condiciones de Red Limitadas: No se consideran los efectos de latencia de red y particiones en el desempeño
- Distribución de Datos Única: Solo se utiliza distribución Zipfian, las aplicaciones reales pueden tener patrones diferentes
- Ausencia de Modo Cluster: No se prueban escenarios de despliegue distribuido real
- Pruebas en Entorno de Producción: Evaluar desempeño de sistemas bajo condiciones de producción reales
- Escenarios Distribuidos: Probar escalabilidad distribuida real en modo cluster
- Investigación de Modelos de Consistencia: Impacto del teorema CAP en el diseño de cada sistema
- Mecanismos de Tolerancia a Fallos: Evaluación de mecanismos de tolerancia a fallos durante fallos de nodos
- Replicación Entre Centros de Datos: Consistencia de datos y latencia de replicación bajo particiones de red
- Metodología Rigurosa: Uso del marco estándar YCSB garantiza comparación justa
- Experimentos Comprehensivos: Cubre múltiples cargas de trabajo y niveles de concurrencia
- Análisis Profundo: No solo proporciona datos de desempeño, sino también análisis profundo de causas arquitectónicas
- Alto Valor Práctico: Proporciona orientación clara para selección de sistemas reales
- Escritura Clara: Estructura razonable, descripción técnica precisa
- Limitaciones de Entorno: Entorno Docker de máquina única no puede demostrar completamente ventajas de sistemas distribuidos
- Configuración Única: No se prueban efectos de diferentes parámetros de configuración en desempeño
- Ausencia de Persistencia: Falta evaluación detallada del impacto de mecanismos de persistencia en desempeño
- Falta de Análisis de Costos: No se consideran costos de hardware y complejidad operacional
- Estabilidad a Largo Plazo: Falta pruebas de estabilidad de ejecución prolongada
- Valor Académico: Proporciona metodología sistemática para investigación de desempeño de bases de datos NoSQL
- Valor Práctico: Proporciona referencia para industria en selección de sistemas de almacenamiento de pares clave-valor apropiados
- Contribución Metodológica: Demuestra cómo comparar sistemáticamente desempeño de sistemas NoSQL
- Reproducibilidad: Descripción detallada de configuración experimental facilita reproducción y extensión
- Selección de Sistemas: Proporciona referencia para proyectos que necesitan seleccionar sistemas de almacenamiento de pares clave-valor
- Optimización de Desempeño: Proporciona referencia para optimización de desempeño de sistemas existentes
- Diseño de Arquitectura: Proporciona base para diseño de arquitectura de sistemas distribuidos a gran escala
- Investigación Académica: Proporciona datos de base y referencia metodológica para investigación en campos relacionados
El artículo cita múltiples referencias importantes, incluyendo:
- Cooper, B.F. et al. (2010). Benchmarking cloud serving systems with YCSB
- Anthony, A., & Rao, Y. N. M. Comparación Empírica de Almacenes de Pares Clave-Valor Memcached, Redis y Aerospike
- Mohan, R. K. et al. (2024). Evaluación de Bases de Datos NoSQL para Cargas de Trabajo OLAP
- Así como documentación oficial y materiales técnicos de sistemas de bases de datos
Este artículo proporciona una contribución valiosa al campo de evaluación de desempeño de bases de datos NoSQL. Mediante diseño experimental sistemático y análisis profundo, proporciona referencia importante para comprender características de desempeño de sistemas modernos de almacenamiento de pares clave-valor y seleccionar soluciones tecnológicas apropiadas.