The exploitation of space group symmetries in numerical calculations of periodic crystalline solids accelerates calculations and provides physical insight. We present results for a space-group symmetry adaptation of electronic structure calculations within the finite-temperature self-consistent GW method along with an efficient parallelization scheme on accelerators. Our implementation employs the simultaneous diagonalization of the Dirac characters of the orbital representation. Results show that symmetry adaptation in self-consistent many-body codes results in substantial improvements of the runtime, and that block diagonalization on top of a restriction to the irreducible wedge results in additional speedup.
- Papier-ID: 2405.09494
- Titel: Symmetry adaptation for self-consistent many-body calculations
- Autoren: Xinyang Dong (AI for Science Institute Beijing & University of Michigan), Emanuel Gull (University of Michigan)
- Klassifizierung: physics.comp-ph
- Veröffentlichungsdatum: 16. Mai 2024 (Preprint eingereicht bei Computer Physics Communications)
- Papierlink: https://arxiv.org/abs/2405.09494
Dieses Papier untersucht die Nutzung von Raumgruppensymmetrien zur Beschleunigung von Berechnungen und zur Bereitstellung physikalischer Einsichten in numerischen Berechnungen periodischer kristalliner Festkörper. Die Autoren implementieren die Raumgruppensymmetrieadaption in selbstkonsistenten GW-Methoden der Elektronenstrukturberechnung bei endlicher Temperatur und schlagen effiziente Parallelisierungsschemata auf Beschleunigern vor. Die Implementierung nutzt die simultane Diagonalisierungsmethode der Dirac-Charaktere in Orbitaldarstellung. Die Ergebnisse zeigen, dass die Symmetrieadaption in selbstkonsistenten Vielteilchencodes die Laufzeit erheblich verbessert, wobei die Blockdiagonalisierung auf Basis des irreduziblen Keils zusätzliche Beschleunigungseffekte bietet.
- Zu lösende Probleme: Moderne Vielteilchentheorie-Berechnungen (wie selbstkonsistente GW-Methoden) bei der Behandlung periodischer Kristallmaterialien stehen vor enormen Rechenlasten, die wiederholte Berechnungen frequenzabhängiger Propagatoren, Vertexfunktionen und abgeschirmter Wechselwirkungen erfordern.
- Bedeutung des Problems:
- Raumgruppensymmetrien sind Schlüssel zum Verständnis von Kristallmaterialien und bieten physikalische Einsichten
- Die Nutzung von Symmetrien kann numerische Berechnungen erheblich beschleunigen
- Moderne Rechnerarchitekturen wie GPUs können die durch Gruppenstrukturen offengelegte Parallelität effektiv nutzen
- Einschränkungen bestehender Methoden:
- Standardelektronenstrukturcodes (Hartree-Fock, DFT, nicht-selbstkonsistente GW) basieren hauptsächlich auf Einteilchen-Dichtematrizen, wobei Symmetrieadaptionsformalisierungen bereits etabliert sind
- Moderne Vielteilchentechniken erfordern jedoch Berechnungen von Objekten jenseits der Dichtematrix, wobei der Formalisierungsgrad der Symmetrieadaption unzureichend ist
- Forschungsmotivation: Verallgemeinerung der von Dovesi et al. in Hartree-Fock- und DFT-Theorien etablierten Symmetrieadaptionsformalisierung auf selbstkonsistente GW-Methoden und effiziente Parallelisierung auf modernen GPU-Architekturen.
- Methodenerweiterung: Erweiterung der auf simultaner Dirac-Charakterdiagonalisierung basierenden Symmetrieadaptionsmethode von Einteilchentheorien auf selbstkonsistente Vielteilchen-GW-Berechnungen
- Effiziente Implementierung: Entwicklung eines effizienten Parallelisierungsschemas auf GPU-Beschleunigern mit hybrider MPI- und CUDA-Parallelisierung
- Leistungssteigerung: Nachweis, dass Symmetrieadaption kombiniert mit Blockdiagonalisierung zu einer Reduktion der Gleitkommaoperationen um etwa eine Größenordnung führt
- Algorithmusoptimierung: Vorschlag eines vollständigen numerischen Algorithmus zur Behandlung nicht-symmorphischer Raumgruppen und Projektionsdarstellungen
Dieses Papier untersucht die Elektronenstrukturberechnung periodischer Kristallfestkörper bei endlicher Temperatur, insbesondere wie Raumgruppensymmetrien in selbstkonsistenten GW-Methoden zur Beschleunigung von Berechnungen genutzt werden können. Die Eingaben sind Kristallstruktur und Hamiltonoperator, die Ausgaben sind selbstkonsistente Greenfunktionen und Selbstenergie.
- Raumgruppenoperationen: Dargestellt als α^={α∣v(α)}, wobei α die Punktgruppenoperation und v(α) die Translation ist
- Orbitalentransformation: Die Wirkung der Symmetrieoperation auf Orbitale ist:
α^g(xj)k(r)=exp[−ik~⋅vαx]×[O(α)g(xj)k~(r)]
Für den Impuls k wird die Projektionsdarstellungsmatrix definiert als:
Dk(α)=exp[ik⋅v(α)]Ok(α^)λk(α,β)=exp{ik⋅[v(β)−αv(β)]}
- Dirac-Charakterdefinition:
Ωc=hnc∑β∈GD(α)⋅D(γ)⋅D(β)−1
- Simultane Diagonalisierung: Erwerben der Transformationsmatrix Uk durch simultane Diagonalisierung aller relevanten Dirac-Charaktere
- Erweiterung auf Vielteilchentheorie: Erstmalige systematische Anwendung der simultanen Dirac-Charakterdiagonalisierung auf selbstkonsistente GW-Berechnungen
- Tensortransformation: Entwicklung von Symmetrietransformationsformeln für dreiindexige Wechselwirkungstensoren:
Vk~ik~j=Oˉq(α^)Oki(α^)VkikjOkj†(α^)
- GPU-Optimierung: Entwurf eines GPU-Beschleunigungsschemas mit asynchroner Stream-Verarbeitung und Batch-ZGEMM-Aufrufen
Tests an vier III-V- und IV-Verbindungen:
- Si (Raumgruppe 227, nicht-symmorphisch)
- BN (Raumgruppe 194, nicht-symmorphisch)
- AlP (Raumgruppe 216, symmorphisch)
- GaAs (Raumgruppe 216, symmorphisch)
- Basissatz: gthdzvp-Basissatz und def2-svp-ri Hilfbasissatz
- Temperaturgitter: 114 imaginäre Zeitpunkte, 103 Boson-Frequenzpunkte
- Impulsgitter: nk×nk×nk (nk=1,2,4,6)
- Gleitkommaoperationen (FLOP)
- GPU-Beschleunigungsfaktor
- Speichernutzung
- Vollständige Brillouin-Zone-Berechnung (Full)
- Nur irreduzible Keil-Rotation (Rotation)
- Rotation + Blockdiagonalisierung (Block Diag)
Am Beispiel von Si, FLOP-Vergleich bei verschiedenen nk-Werten:
| nk | nik | Full | Rotation | Block Diag | Beschleunigung |
|---|
| 1 | 1 | 1.31×1010 | 1.31×1010 | 1.50×109 | 8.7× |
| 2 | 3 | 1.73×1012 | 1.01×1012 | 2.24×1011 | 7.7× |
| 4 | 8 | 1.10×1014 | 2.13×1013 | 8.55×1012 | 12.9× |
| 6 | 16 | 1.25×1015 | 1.43×1014 | 6.87×1013 | 18.2× |
- Nahezu ideale lineare Beschleunigung auf 16 V100-GPUs erreicht
- Sowohl P0- als auch Σ̃-Berechnungskerne zeigen ausgezeichnete Skalierbarkeit
- Effekt der k-Punkt-Anzahl: Der Vorteil der Punkt-zu-Punkt-Rotation wird mit zunehmender Gesamtzahl der k-Punkte deutlicher
- Vorteil der Blockdiagonalisierung: Die Blockdiagonalisierung ist bei weniger k-Punkten effektiver, da mehr Punkte an der IBZ-Oberfläche liegen
- Vorteil nicht-symmorphischer Gruppen: Nicht-symmorphische Raumgruppen (wie Si, BN) zeigen größere Beschleunigungsfaktoren als symmorphische Gruppen
- Traditionelle Symmetrieadaption: Bahnbrechende Arbeiten von Dovesi et al. im CRYSTAL-Code
- Vielteilchentheorie: Hedins GW-Methode und ihre selbstkonsistente Implementierung
- GPU-Berechnung: Beschleuniger-Optimierung für Elektronenstrukturberechnungen
- Erstmalige systematische Erweiterung der Symmetrieadaption auf selbstkonsistente Vielteilchenberechnungen
- Bereitstellung eines vollständigen Behandlungsschemas für nicht-symmorphische Raumgruppen
- Implementierung effizienter GPU-Parallelisierung
- Symmetrieadaption führt zu signifikanten Laufzeitverbesserungen in selbstkonsistenten Vielteilchencodes
- Blockdiagonalisierung bietet zusätzliche Beschleunigung auf Basis der irreduziblen Keil-Einschränkung
- GPU-Architektur kann die durch Symmetrie offengelegte Parallelität effektiv nutzen
- Die aktuelle Implementierung ist auf Standardraumgruppen beschränkt und umfasst keine magnetischen Raumgruppen
- Bei Systemen mit sehr großer k-Punkt-Anzahl nimmt der Vorteil der Blockdiagonalisierung ab
- Ausreichender GPU-Speicher ist erforderlich, um kritische Datenstrukturen zu speichern
- Magnetische Raumgruppen: Erweiterung auf Shubnikov-Gruppen zur Behandlung magnetischer und relativistischer Systeme
- Optische Antwort: Nutzung von Symmetriewissen zur Interpretation optischer Antwortfunktionen
- Höherordnungsmethoden: Anwendung auf präzisere Simulationsmethoden mit Vertexfunktionen
- Theoretische Strenge: Basierend auf etablierten gruppentheoretischen Grundlagen mit vollständigen mathematischen Ableitungen
- Praktischer Wert: Realisierung einer Rechenleistungssteigerung um etwa eine Größenordnung mit großer Bedeutung für Großrechnungen
- Technische Vollständigkeit: Bereitstellung einer vollständigen Lösung von der Theorie bis zur Implementierung
- Leistungsverifikation: Validierung der Methode durch mehrere Materialsysteme
- Anwendungsbereich: Derzeit nur auf periodische Systeme anwendbar; Erweiterbarkeit auf Oberflächen- oder Defektsysteme unklar
- Speicheranforderungen: GPU-Implementierung hat hohe Speicheranforderungen, die die Anwendung auf große Systeme einschränken können
- Algorithmische Stabilität: Bei großen Orbitaldarstellungsmatrizen können numerische Stabilitätsprobleme bei der simultanen Diagonalisierung auftreten
- Akademischer Beitrag: Bereitstellung eines Standardparadigmas für die Symmetrienutzung in Vielteilchenberechnungen
- Praktischer Wert: Erhebliche Reduktion der Kosten für selbstkonsistente GW-Berechnungen, wodurch Berechnungen größerer Systeme möglich werden
- Reproduzierbarkeit: Implementierung auf Basis von Open-Source-Software, was die Übernahme und Verbesserung durch die Gemeinschaft erleichtert
- Hochsymmetrische periodische Kristallmaterialien
- Elektronenstrukturberechnungen, die genaue Vielteilcheneffekte erfordern
- Großflächige Parallelrechnerumgebungen, besonders GPU-Cluster
Dieses Papier basiert hauptsächlich auf folgenden Schlüsselarbeiten:
- Symmetrieadaptionstheorie von Dovesi et al. (Int. J. Quantum Chem. 1986, 1998)
- Hedins GW-Methode (Phys. Rev. 1965)
- Mathematische Theorie der Symmetrie von Festkörpern und Molekülen von Bradley & Cracknell
- Symmetrieprinzipien in Festkörper- und Molekülphysik von Lax
Dieses Papier stellt einen wichtigen Beitrag zum Bereich der Computerphysik dar und kombiniert erfolgreich Symmetrietheorie mit modernen Vielteilchenberechnungen und GPU-Beschleunigungstechnologie und bietet neue Lösungen für effiziente Elektronenstrukturberechnungen.