Krachtigste Nederlandse supercomputer met 1.160 AMD Epyc-CPU's heet Snellius

43 reacties

Update, 6 maart — SURF heeft aangekondigd dat de naam van de nieuwe supercomputer Snellius zal zijn. Snellius was een Nederlandse wis- en natuurkundige, humanist, taalkundige en astronoom uit de Nederlandse gouden eeuw naar wie de brekingswet (wet van Snellius) is vernoemd.

De naam is voor een deel gekozen om dat het geassocieerd kan worden met het woord 'snel'. Het zal namelijk de snelste supercomputer in Nederland zijn. Hieronder vind je het oorspronkelijke bericht, dat op 9 februari 2021 is gepubliceerd.

Oorspronkelijk bericht — Het Nederlandse onderzoeksinstituut SURF werkt met Lenovo aan een nieuwe supercomputer op basis van servertechniek van AMD en Nvidia. Er wordt gefaseerd aan het nieuwe cluster gewerkt. Het project zal worden ingezet voor het onderzoek van de vele aangesloten instituten.

Er zijn drie fasen. De eerste fase moet halverwege 2021 operationeel zijn en voor alle cpu-nodes maken gebruik van AMD's Epyc 7H12-processors uit de Rome-generatie (Zen 2). Ze hebben allemaal 64 cores op een basisklokfrequentie van 2,6 GHz. Er komen in totaal 580 Lenovo-servers in totaal in het cluster, met elk twee Epyc-cpu's. 576 van deze servers zijn ThinkSystem 645-systemen. Deze in afgelopen mei aangekondigde servers hebben twee sockets en plek voor in totaal 4 TB ecc-werkgeheugen en maximaal 40 ssd's, waarvan 32 nvme-ssd's.

De 504 thin nodes zijn voorzien van elk 256 GB werkgeheugen. De 72 fat nodes zijn gevuld met 1 TB werkgeheugen en 6,4 TB nvme-opslag per systeem. Van de high memory nodes zijn er twee varianten, de één heeft 4 TB werkgeheugen en de tweede 8 TB. Allebei maken ze gebruik van ThinkSystem SR665-servers met een 2U-ontwerp. De totale CPU-gebaseerde  'phase 1-rekenkracht' is vastgesteld op een flinke 3,1 petaflops'.


Links de SR665 (2U, high memory nodes), rechts de SR665 (1U, overige nodes)

Naast de cpu-nodes komen er in fase 1 ook 36 gpu-nodes met de ThinkSystem SD650-N V2-servers. Ze zijn voorzien van Intel Xeon processors met twee stuks per systeem.  Hier wordt per systeem 512 GB ram aan gekoppeld. De gpu's in kwestie zijn de relatief nieuwe Nvidia A100-gpu's met 40 GB hbm2, die met name uit moeten blinken in machine learning-workloads. Deze GPU's voegen nog eens 3 petaflops toe. De totale eerste fase biedt dan dus in totaal 6,1 petaflops.

De fase 2-systemen zullen halverwege 2022 operationeel zijn. Door dit gefaseerde plan kan gebruik gemaakt worden van de laatste technologie. Er mag immers nog weinig onthuld worden over de cpu's in kwestie. In ieder geval zal er exclusief gebruik worden gemaakt van thin nodes, elk met 2 GB ram per cpu-core. De piekprestaties voor deze tweede fase moeten uitkomen op 5,1 petaflops.

De derde fase zal pas halverwege 2023 operationeel zijn, daarom valt er nog minder te zeggen over de gebruikte hardware. Er zijn volgens het instituut nog drie mogelijkheden om uit te kiezen. Zo kan het kiezen uit exclusief thin nodes met uitsluitend cpu's, net zoals bij fase 2. In dat geval moet er 2,4 petaflops aan rekenkracht bijkomen. Uiteraard blijft het nog onduidelijk wat voor hardware dit zal zijn. Als er gekozen wordt voor gpu-nodes wordt er wederom gebruikgemaakt van toekomstige Nvidia-gpu's met een rekenkracht van 10,3 petaflops. Als laatste optie kan er voor een nog niet vastgestelde hoeveelheid opslagcapaciteit worden gekozen. Als er voor fase 3 voor cpu-nodes wordt gekozen, dan komt de totale rekenkracht uit op 13,6 petaflops.

Uiteraard is er ook behoefte aan een flinke  interconnects. Voor de fase 1-cpu-nodes is gekozen voor Mellanox InfiniBand HDR100-host channel adapters. Volgens HPC Wire moeten de gebruikte uitvoeringen goed zijn voor een bandbreedte van 100 Gb/s. Elke gpu-node wordt verbonden met twee HDR-adapters. Voor het verbinden van de gpu-nodes van het derde deel van het project wordt gebruikgemaakt van Mellanox' NDR-technologie. Voor de switches wordt gebruikgemaakt van HDR voor fase 1 en van NDR voor fase 2 en 3.

Voor data-opslag komen er aparte servers op basis van Lenovo's Distributed Storage Solution (DSS-G) met IBM's geclusterde Spectrum Scale-bestandssystemen. In totaal hebben de bestandssystemen voor projecten een capaciteit van maar liefst 12,4 pebibyte (bijna 14 petabyte) met behulp van harde schijven. Voor de home file systems wordt 720 tebibyte (792 terabyte) aan ssd-capaciteit ingezet en er zal 215 tebibyte (236 terabyte) aan nvme-opslag zijn voor metadata-intensief werk.

Bron: SURF


4 besproken producten

Vergelijk   Product Prijs
AMD Epyc 7H12 Tray

AMD Epyc 7H12 Tray

  • Socket SP3
  • 64 cores
  • 280 W

€ 6.205,64

2 winkels
Lenovo ThinkSystem SR645 (7D2XA01KEA)

Lenovo ThinkSystem SR645 (7D2XA01KEA)

  • 32 GB

€ 4.689,51

1 winkel
Lenovo ThinkSystem SR665 (7D2VA01KEA)

Lenovo ThinkSystem SR665 (7D2VA01KEA)

  • 32 GB

€ 5.178,80

1 winkel
Nvidia A100

Nvidia A100

  • A100
  • 6912 cores
  • 40960 MB
  • 5120 bit
  • DirectX 12 fl 12_1
  • PCI-Express 4.0 x16
Niet verkrijgbaar
« Vorig bericht Volgend bericht »
0
*