Optimising Virtual Resource Mapping in Multi-Level NUMA Disaggregated Systems
Lakew, Svärd, Elmroth et al.
Disaggregated systems have a novel architecture motivated by the requirements of resource intensive applications such as social networking, search, and in-memory databases. The total amount of resources such as memory and CPU cores is very large in such systems. However, the distributed topology of disaggregated server systems result in non-uniform access latency and performance, with both NUMA aspects inside each box, as well as additional access latency for remote resources. In this work, we study the effects complex NUMA topologies on application performance and propose a method for improved, NUMA-aware, mapping for virtualized environments running on disaggregated systems. Our mapping algorithm is based on pinning of virtual cores and/or migration of memory across a disaggregated system and takes into account application performance, resource contention, and utilization. The proposed method is evaluated on a 288 cores and around 1TB memory system, composed of six disaggregated commodity servers, through a combination of benchmarks and real applications such as memory intensive graph databases. Our evaluation demonstrates significant improvement over the vanilla resource mapping methods. Overall, the mapping algorithm is able to improve performance by significant magnitude compared the default Linux scheduler used in system.
academic
Optimierung der virtuellen Ressourcenzuordnung in mehrstufigen NUMA-Disaggregationssystemen
Diese Arbeit untersucht die Auswirkungen komplexer NUMA-Topologien auf die Anwendungsleistung in Disaggregationssystemen und schlägt eine verbesserte NUMA-bewusste Zuordnungsmethode vor. Die Methode basiert auf virtueller Kern-Bindung und Speichermigration und berücksichtigt umfassend Anwendungsleistung, Ressourcenkonkurrenz und Auslastung. Die Evaluierung auf einem Disaggregationssystem mit 6 kommerziellen Servern, 288 Kernen und etwa 1 TB Speicher zeigt erhebliche Leistungsverbesserungen gegenüber dem Standard-Linux-Scheduler.
Herausforderungen der Disaggregationsarchitektur: Disaggregationssysteme unterstützen ressourcenintensive Anwendungen (wie soziale Netzwerke, Suchmaschinen, In-Memory-Datenbanken) durch Aggregation von Ressourcen mehrerer physischer Server, aber die verteilte Topologie führt zu nicht-uniformen Zugriffslatenzen und Leistungsproblemen
Komplexität mehrstufiger NUMA: Das System weist sowohl NUMA-Eigenschaften innerhalb einzelner Maschinen als auch Zugriffslatenzen für verteilte Remote-Ressourcen auf, was eine komplexe mehrstufige NUMA-Topologie bildet
Optimierung in virtualisierten Umgebungen: Der vorhandene Linux-Scheduler kann solche komplexen Ressourcenzuordnungsszenarien nicht effektiv bewältigen
Erste umfassende Messstudie an Disaggregationssystemen: Durchführung tiefgreifender Messungen an echter Disaggregationshardware unter Berücksichtigung von Ressourcenkonkurrenz, Lokalität und Interferenzgrad
Anwendungsklassifizierung und Leistungskennzahlensystem: Anwendungsklassifizierung nach der Animal-Classes-Methode mit IPC und MPI als Leistungsindikatoren
NUMA-bewusster Zuordnungsalgorithmus: Vorschlag eines Online-Zuordnungsalgorithmus, der Anwendungsklassifizierung, Ressourcennähe und Laufzeit-Hardwareleistungszähler berücksichtigt
Signifikante Leistungsverbesserung: Durchschnittliche Leistungssteigerung um das 50-fache auf dem realen System
Eingabe: VM-Anforderungen (CPU-Kernanzahl, Speicherbedarf), Anwendungsklassifizierung, Systemressourcenzustand
Ausgabe: Optimales Zuordnungsschema von virtuellen CPUs zu physischen CPUs
Einschränkungen: Vermeidung von Ressourcenüberzeichnung, Minimierung der NUMA-Distanz, Reduzierung von Anwendungsinterferenz
Stufe 1: Remote-Verarbeitung (bei Ankunft der Anwendung)
if VMi is a new arrival then
if Free slot is suitable for VMi given ci, ai then
Map VMi directly
else
Reshuffle existing VMs to create suitable slot
Map VMi to new slot
for each VMi do
if (expected_perf - measured_perf)/expected_perf ≥ Threshold then
Add VMi to affected list
for each affected VM do
Build potential neighbor list based on class compatibility
Compute new configuration with minimal reshuffle
Remap if beneficial
Signifikante Leistungsverbesserung: Der vorgeschlagene NUMA-bewusste Zuordnungsalgorithmus erreicht durchschnittlich 50-fache Leistungsverbesserung gegenüber dem Standard-Scheduler
Stabilitätsverbesserung: Deutliche Reduzierung der Leistungsvariabilität mit vorhersehbarer Leistung
Effektivität der Anwendungsklassifizierung: Die auf Animal Classes basierende Klassifizierungsmethode kann Ressourcenzuordnungsentscheidungen effektiv leiten
Statische Klassifizierungsannahme: Die aktuelle Anwendungsklassifizierung ist statisch und berücksichtigt nicht die dynamischen Verhaltensänderungen von Anwendungen
Begrenzte Arbeitslasttypen: Die Evaluierung konzentriert sich hauptsächlich auf spezifische Anwendungstypen
Spezifische Hardwareplattform: Experimente wurden nur auf der NumaConnect-Plattform durchgeführt
Plattformabhängigkeit: Forschung basiert hauptsächlich auf NumaConnect-Plattform; Anwendbarkeit auf anderen Disaggregationssystemen muss überprüft werden
Arbeitslastabdeckung: Evaluierte Anwendungstypen sind relativ begrenzt; vielfältigere Arbeitslasten zur Validierung erforderlich
Unzureichende Dynamik: Anpassungsfähigkeit des Algorithmus an dynamische Systemlaständerungen bedarf weiterer Forschung
Fehlende theoretische Analyse: Mangel an theoretischer Analyse von Algorithmuskomplexität und Konvergenz
Diese Arbeit zitiert 26 verwandte Arbeiten, die wichtige Forschungsergebnisse in mehreren Bereichen wie Disaggregationssystemen, NUMA-Optimierung und Virtualisierungstechnologie abdecken und eine solide theoretische Grundlage für die Forschungsarbeit bieten.
Gesamtbewertung: Dies ist eine Arbeit mit wichtigen Beiträgen im Bereich der Ressourcenverwaltung in Disaggregationssystemen. Durch sorgfältige experimentelle Gestaltung und umfassende Leistungsbewertung wird die Effektivität des NUMA-bewussten Zuordnungsalgorithmus nachgewiesen. Trotz einiger Einschränkungen sind sowohl der praktische Wert als auch der akademische Beitrag erheblich und legen den Grundstein für die weitere Entwicklung in diesem Bereich.