[Pro] AMD introduceert Instinct MI100 met CDNA: tot 7 keer sneller

15 reacties

AMD heeft de Instinct MI100 geïntroduceerd, de eerste accelerator voor datacentra op basis van de CDNA-architectuur. Hij is voorzien van een flinke 120 compute units, goed voor een totaal van 7680 stream processors.

Dat betekent dat hij meer rekenkernen heeft dan Nvidia's A100-gpu, een chip met een enorm formaat van 826 vierkante millimeter. Het formaat van de op hetzelfde 7nm-productieproces gebakken MI100 is echter nog niet bekend. Hoewel hij niet is voorzien van tensor-cores zal de gpu geen kleintje zijn. De MI100 moet tot zeven keer sneller zijn dan de MI50, dat geldt voor fp16-matrixworkloads. De piekprestaties in fp32-workloads (single precision) zouden rond 23,1 teraflops liggen, en het is met 11,5 teraflops het eerste product dat de 10tflops-grens overschrijdt in double precision-workloads.

De C in CDNA staat voor compute en is een doorontwikkeling van Vega en GCN. Met RDNA en CDNA heeft AMD ervoor gekozen om zijn gpu-producten op te splitsen in twee categorieën, omdat voor beide specifieke hardware-eigenschappen optimaal zijn voor de prestaties. De chipontwerper heeft naast de floating point-prestaties ook gesleuteld aan de matrix-engines.

De capaciteit van het hbm2-geheugen is met 32 GB onveranderd gebleven, maar wel is de snelheid met 20% toegenomen tot 1,23 TB/s. Uiteraard is het voorzien van ecc-ondersteuning voor foutcorrectie. Verder is de Infinity Fabric-interconnect voor de MI100 van de tweede generatie, wat betekent dat nu tot twee clusters met vier MI100's aan elkaar gekoppeld kunnen worden. Daarvoor levert AMD ook een fysieke interconnect mee die bovenop de accelerators kan worden aangebracht. Verder zijn bijna alle functies in de ROCm-softwaresuite uit de bètafase gehaald.

Er zouden al producten met de kaarten beschikbaar zijn van Dell, Gigabyte, HP Enterprise en Supermicro. Afgelopen zomer leek het erop dat de kaarten vooral geschikt zouden zijn voor workloads als deeltjessimulaties en minder voor kunstmatige intelligentie, maar begin deze maand kregen we het idee dat ook op het vlak van AI-workloads de mogelijkheden flink gegroeid zijn ten opzichte van de concurrentie. Of de kaarten op dit vlak even concurrerend zullen zijn hangt vermoedelijk af van de prijs van de systemen.

{IMG-125-9044}

AMD Instinct MI100-accelerator
Compute Units 120
Stream Processors 7680
FP64 11,5 TFLOPS
FP32 tot 23.1 TFLOPS
FP32 Matrix tot 46.1 TFLOPS
FP16/FP16 Matrix tot 184.6 TFLOPS
INT4 | INT8 tot 184.6 TOPS
bFloat16 tot 92.3 TFLOPS
Geheugen 32 GB HBM2, ECC
Geheugenkloksnelheid 1,2 GHz
Geheugenbandbreedte tot 1,23 TB/s
Aansluiting PCIe 4.0
Total Board Power 300 watt
Koeling passief
 

Bron: AMD

« Vorig bericht Volgend bericht »
0
*