Graphcore Colossus-IPU verplettert Nvidia's A100-topmodel in nieuwe benchmarks

7 reacties

Graphcore heeft in juli zijn tweede accelerator-chip onthuld, genaamd de Colossus MK2 GC200. Het bedrijf constateerde toen al dat hij een enorm prestatieniveau moet bieden dat zelfs meer is dan de kersverse A100 van Nvidia. Nu heeft het Britse bedrijf meer details onthuld in de vorm van een aantal grafieken.

De M2000 is een rackmount die voorzien is van een soort chip dat het bedrijf een 'ipu' noemt. Dit staat voor 'intelligent processing unit' (lees: een AI-accelerator) en hij is duidelijk niet bedoeld voor het produceren van Cyberpunk-frames. De chip wordt gemaakt op TSMC's 7nm-node en is voorzien van 1.472 cores. Dat is goed voor maar liefst een petaflop aan rekenkracht.

Graphcore vergelijkt een enkele Colossus MK2 GC200-chip met de A100, en een zelfontwikkeld IPU-Pod64-systeem met Nvidia's DGX A100-rackmount. Elke DGX A100-server biedt plaats aan acht A100's met 80 GB hbm2e. Graphcore zegt waar mogelijk appels met appels te vergelijken, maar de Pod64 blijkt plaats te bieden aan vier modules met elk 16 van deze chips.

Het systeem met de Graphcore-chips blijkt vijf keer zo snel te zijn als de DGX A100 in bert-large-training, dat gericht is op het trainen van AI-modellen voor het vertalen van taalinformatie. Daarnaast is de latency van de M2000 bij inferentieworkloads in bert-large een stuk lager bij dezelfde doorvoersnelheid. Graphcore claimt een latency van 2 milliseconden te halen bij een doorvoersnelheid van 2.000 sequenties per seconde, de A100 met 40 GB haalt hier ongeveer 3,5 ms bij gebruik van de tensor-cores. De latency van beide chips neemt uiteraard exponentieel toe bij een hogere doorvoersnelheid, maar die van Graphcores strijdpaard blijft relatief gezien lager.

In ResNet-50-software voor beeldclassificatie weet de IPU-M2000 2,6 keer meer beelden per seconde te verwerken, dat komt neer op een totaal van 4.076 stuks met behulp van PyTorch en 4.326 stuks met TensorFlow. De A100 haalt met TensorFlow slechts 1.632 afbeeldingen. De ResNeXt-101-software is ontwikkeld voor beeldclassificatie met een hogere precisie, hier haalt de Graphcore-chip een 3,7 keer zo hoge doorvoersnelheid. Wat inferentie betreft heeft hij een flinke 40 keer hogere doorvoersnelheid met een tiende van de latency.

Bij het inzetten van Efficientnet-B4-trainingen is een enkele M2000 pakweg tien keer zo snel als de 'nieuwste gpu' met TensorFlow, PyTorch kan iets beter overweg met de M2000. Bij inferentie moet de M2000 zelfs een 60 keer hogere doorvoersnelheid hebben met tegelijkertijd een 16 keer lagere latency.

Ook in Baidu's DeepVoice 3 TTS-training (speech to text) moet hij een doorvoersnelheid halen die 13,6 keer hoger ligt ten opzichte van de 'snelste gpu', hoewel het niet duidelijk is of hier gebruik is gemaakt van de A100 met 40 GB vram of de variant met 80 GB. Hij doet een financiële Markov Chain Monte Carlo-workload (mcmc) in slechts 3 uur, terwijl de A100 over dezelfde workload 48 uur doet.

Het LSTM-model voor machine learning is een ander veelgebruikt model is de finance-wereld. Hier weet de M2000 maar liefst 600 keer beter te presteren dan de A100. Dat is gemeten met de laagste latency voor Nvidia's gpu. Graphcore zegt ook qua prijs een groot voordeel te bieden, Nvidia's oplossing kost namelijk zo'n drie miljoen dollar terwijl het Graphcore-systeem zo'n 260.000 USD moet kosten.

Bron: Graphcore

« Vorig bericht Volgend bericht »
0
*