Die rasant fortschreitende Digitalisierung und der zunehmende Einsatz künstlicher Intelligenz benötigen immer mehr Rechenleistung – und dadurch auch immer mehr Energie. In Deutschland haben Rechenzentren mittlerweile einen Anteil von knapp 4 Prozent am Stromverbrauch, Tendenz steigend. Effizientes Rechnen hat daher in den vergangenen Jahren zunehmend an Bedeutung gewonnen – wie auch die die Forschung und Maßnahmen zur Steigerung der Energieeffizienz.
Der von der europäischen Supercomputing-Initiative EuroHPC Joint Undertaking (EuroHPC JU) beschaffte Supercomputer JUPITER präsentiert sich als echter Vorreiter auf diesem Gebiet. Der im April installierte erste Baustein, das „JUPITER Exascale Development Instrument“ oder kurz JEDI, schafft 72 Milliarden Rechenoperationen pro Sekunde pro Watt. Der vorherige Spitzenreiter kam im Vergleich dazu auf rund 65 Milliarden.
Entscheidend für die herausragende Effizienz von JEDI ist der Einsatz von Grafikprozessoren, kurz GPUs, und die Tatsache, dass es gelungen ist, wissenschaftliche Anwendungen für die Berechnung auf Grafikprozessoren zu optimieren. Praktisch alle führenden Systeme der Green500 setzen heute massiv auf GPUs, die Berechnungen bauartbedingt wesentlich energiesparsamer ausführen können als herkömmliche Hauptprozessoren, kurz CPUs.
Das Entwicklungssystem JEDI gehört zu den ersten Systemen weltweit, die die neueste Beschleuniger-Generation von NVIDIA einsetzen: den NVIDIA GH200 Grace Hopper Superchip, der einen NVIDIA Hopper-Grafikprozessor (GPU) und NVIDIA Grace-Hauptprozessor (CPU) auf einem Chip vereint. Die hocheffiziente Warmwasserkühlung von Eviden, die deutlich weniger Energie benötigt als eine klassische Luftkühlung, leistet ebenfalls einen Beitrag und erlaubt es darüber hinaus die entstehende Wärme im Nachgang weiter zu nutzen.
Der JUPITER-Vorbote JEDI verfügt bereits über die gleiche Ausstattung wie das spätere JUPITER Booster Modul. Wissenschaftlerinnen und Wissenschaftler können so bereits in einer frühen Phase des Aufbaus im Rahmen des „JUPITER Research and Early Access Program“ (JUREAP) auf die Hardware zugreifen, um ihre Codes zu optimieren. Unterstützt werden sie dabei von Expertinnen und Experten des Jülich Supercomputing Centre.
Exascale-Supercomputer JUPITER
JUPITER soll als erster Supercomputer in Europa die Marke von einem Exaflops durchbrechen, was einer Trillion – einer „1“ mit 18 Nullen – Rechenoperationen pro Sekunde entspricht. Das finale System wird im zweiten Halbjahr dieses Jahres schrittweise installiert und wissenschaftlichen Anwenderinnen und Anwendern zunächst im Rahmen des Early Access Program zugänglich gemacht, bevor es Anfang 2025 in den allgemeinen Nutzerbetrieb übergeht.
Die enorme Rechenleistung von JUPITER soll dazu beitragen, die Grenzen wissenschaftlicher Simulationen zu erweitern und große KI-Modelle zu trainieren. Das modular aufgebaute Exascalesystem basiert auf der dynamischen modularen Systemarchitektur (dMSA), die ParTec und das Jülich Supercomputing Centre gemeinsam entwickelt haben. Das derzeit installierte Booster-Modul von JUPITER wird aus 125 BullSequana XH300 Racks und über rund rund 24.000 NVIDIA GH200 Superchips verfügen, die über ein Quantum-2 InfiniBand-Netzwerk miteinander verbunden sind. Bei Berechnungen mit 8 bit, wie sie für das Training von KI-Modellen üblich sind, soll die Rechenleistung auf deutlich mehr als 70 Exaflops steigen. Stand heute wäre JUPITER damit der weltweit schnellste Rechner für KI.
Der Energiebedarf von JUPITER wird nach Schätzungen im Mittel etwa 11 Megawatt betragen. Weitere Maßnahmen sollen dazu beitragen, die Energie noch nachhaltiger zu nutzen. So ist das modulare Rechenzentrum, in dem JUPITER untergebracht wird, darauf ausgelegt, die beim Kühlen anfallende Wärme auszukoppeln und zum Heizen der Gebäude auf dem Campus des Forschungszentrum Jülich zu nutzen.
Alle Hard- und Software-Komponenten von JUPITER werden durch den eigens entwickelten JUPITER Management Stack installiert und gesteuert. Dabei handelt es sich um eine Kombination aus ParaStation Modulo (ParTec), SMC xScale (Atos/Eviden) und Softwarekomponenten des JSC.
JUPITER-Entwicklungssystem JEDI
Das JUPITER-Entwicklungssystem JEDI ist deutlich kleiner als der finale Exascalerechner. Es besteht aus einem einzelnen Rack der neuesten BullSequana XH3000-Reihe, das aktuell 24 Einzelrechner, sogenannte Rechenknoten, enthält. Diese sind über 4 Mellanox Quantum-2 InfiniBand Switches miteinander verbunden und werden im Laufe des Mais durch 24 weitere Rechenknoten komplettiert.
Bei der Messung für die Green500-Liste der energieeffizientesten Supercomputer erzielte das JEDI-System eine Rechenleistung von 4,5 Billiarden Rechenoperationen pro Sekunde oder 4,5 Petaflops bei einem Stromverbrauch von im Schnitt 66 Kilowatt. Bei einem optimierten Lauf konnte die Leistungsaufnahme auf 52 Kilowatt reduziert werden.