Dit is de eerste Nvidia Ampere GPU: A100 met 54 miljard transistors

42 reacties

Nvidia heeft tijdens zijn uitgestelde GTC-keynote, in dit geval een livestream, het bestaan van de Nvidia A100-videokaart wereldkundig gemaakt. Deze videokaart, een zogenaamde accelerator voor servers en supercomputers, is de eerste videokaart die gebruikmaakt van de nieuwe Ampere architectuur.

54 miljard transistors, gebakken op 7nm bij TSMC

De Nvidia A100 is gebaseerd op de gelijknamige A100-gpu, die bestaat uit 6912 shader units (of cuda-cores, zoals Nvidia ze noemt). Daarmee heeft de A100 50% meer rekeneenheden dan een volledig ingeschakelde TU102-gpu zoals die in de Titan RTX zit. De gigantische chip meet 826 mm2 en wordt gebakken op TSMC's 7nm-proces. Hij bestaat uit 54 miljard transistors, tweeënhalf keer zoveel als in de GV100-chip die aan de basis stond van de Tesla V100.

Op de vrijgegeven foto's tellen we een zestal hbm-stacks, vermoedelijk van de tweede generatie en waarvan één dummy, die samen goed zouden zijn voor een totale 40 gigabyte aan videogeheugen. Gezien de totale geheugenbandbreedte van 1550 GB/s vermoeden we dat Nvidia een 5120-bit bus gebruikt en het hbm2-geheugen op 3200 MHz klokt, maar de gpu-ontwerper heeft zelf geen gedetailleerde specificaties vrijgegeven.

Algemeen
 
MerkNvidia
ProductnaamA100
ProductcodeA100
DetailsProductinfo
Chip
CodenaamA100
ArchitectuurAmpere
Rekenkernen6912 cores
Kloksnelheid boost1410 MHz
Transistors54000 mln
Die-grootte826 mm²
Productieprocedé7 nm
Geheugen
Geheugengrootte40960 MB
Type geheugenHBM2
Geheugensnelheid3200 MHz
Geheugencontroller5120 bit
Bandbreedte1555 GB/s
Functionaliteit
DirectX versieDirectX 12 fl 12_1
SLI compatible
Crossfire compatible
Kaartontwerp
InterfacePCI-Express 4.0 x16
Extra power-connector
Total board power400 W

Vooral meer half-precision rekenkracht

Zoals gebruikelijk heeft Nvidia op de Tesle A100 de dual-precision rekenkracht (fp64) volledig vrijgegeven, wat neerkomt op 9,7 tflops. Bij reguliere single-precision berekeningen tikt de chip maximaal 19,5 tflops aan. Dat is eigenlijk maar een bescheiden stap ten opzichte van de 15,7 tflops van de Tesla V100, die gebaseerd was op de Volta-architectuur. De fp16-berekeningen, die worden versneld door de tensorcores, maken met een ruime verdubbeling van de rekenkracht een veel grotere stap. Tot slot introduceert Nvidia ook enkele nieuwe formaten voor instructies, zoals int8 en tf32. Workloads moeten daar wel voor geschikt zijn (of worden gemaakt).

PCI-Express 4.0 en 400W TDP

De A100-videokaart maakt gebruik van pci-express 4.0 en Nvidia's eigen NVLink-interface voor supersnelle onderlinge communicatie, die in de nieuwste iteratie een topsnelheid van 600 GB/s bereikt. Het tdp is vastgesteld op 400 watt. Nvidia komt met een referentiesysteem, de DGX A100, waarin acht A100-gpu's worden gecombineerd met onder meer negen 200Gb-netwerkinterfaces en 15 TB aan pci-express 4.0-ssd's. Eén systeem gaat 199.000 dollar kosten. Het eerste systeem is reeds onderweg naar een Amerikaans laboratorium waar het coronavirus wordt onderzocht.

Nvidia A100

Ampere komt ook naar gamers!

In tegenstelling tot de Volta-architectuur, die exclusief voor grootzakelijke toepassingen is gebruikt, komt Ampere ook beschikbaar voor gamers. Daar wil Nvidia het op dit moment nog niet te veel over hebben - vandaag gaat het immers uitsluitend over het neusje van de zalm - maar CEO Jen-Hsen Huang gaf wel aan dat Ampere uiteindelijk zowel de Turing-architectuur voor gamers als de Volta-architectuur voor serverhardware gaat opvolgen.

Hoewel de consumentenversie van Ampere dus gebaseerd zal zijn op dezelfde architectuur, zal de configuratie ervan duidelijk verschillen. Het ligt bijvoorbeeld voor de hand dat de gamingkaarten veel meer zullen focussen op reguliere fp32-rekenkracht en bijvoorbeeld de raytracingcores.

Over wanneer we nieuwe consumentenvideokaarten op basis van Ampere kunnen verwachten, heeft Nvidia helaas nog niets bekendgemaakt.

 


1 besproken product

Vergelijk   Product Prijs
Nvidia A100

Nvidia A100

  • A100
  • 6912 cores
  • 40960 MB
  • 5120 bit
  • DirectX 12 fl 12_1
  • PCI-Express 4.0 x16
Niet verkrijgbaar
« Vorig bericht Volgend bericht »
0
*