Nvidia heeft vandaag een nieuwe GPU-accelerator aangekondigd, de Tesla V100. De nieuwe GPU bevat 21 miljard transistoren, wordt geproduceerd op TSMC's 12nm FinFet-procedé en is een gigantische 815mm2 groot. De chip heeft maar liefst 5120 CUDA-cores en kan daarmee 7,5 double-precision TFLOPS, 15 single-precision TFLOPS en maar liefst 120 TFLOPS aan Tensor-operaties verzetten.
Opvallend is de gigantische die size. Met meer dan 800mm2 is de GPU ruim 30% groter dan de grootste chip die Nvidia ooit gemaakt heeft. De grotere die size is gebruikt om ruimte te maken voor 6 miljard extra transistors, ruim 60% bovenop de GP100. Het aantal FP32 (single-precision) CUDA-cores is gestegen van 3584 naar 5120, 42% meer, terwijl het aantal FP64-cores met eenzelfde percentage is verhoogt. Tevens zijn er 8 SM's met nieuwe Tensor-cores, die 4x4 matrixvermenigvuldigingen kunnen uitvoeren van het type D = A*B+C.
Ondanks dat de klokfrequentie met 1455 MHz een fractie omlaag is gegaan leidt dit tot flink hogere prestaties. FP32- en FP64-performance is 42% hoger en er een gigantische 120 aan 8-bit integer TFLOPS aanwezig, 3 tot 5 maal meer dan in de P100. De geheugenconfiguratie is gelijk gebleven met 16GB HBM2-geheugen over een 4096-bit bus, maar de L2-cache is wel 50% groter.
De GPU is dus flink groter en bevat veel meer transistors, maar het is Nvidia gelukt om het TDP gelijk te houden met 300 watt. Dit geeft aan dat Nvidia Volta flink heeft geoptimaliseerd en het TSMC's 12nm FinFet een stuk betere performance biedt.
Tesla Product | Tesla K40 | Tesla M40 | Tesla P100 | Tesla V100 |
---|---|---|---|---|
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) | GV100 (Volta) |
SMs | 15 | 24 | 56 | 80 |
TPCs | 15 | 24 | 28 | 40 |
FP32 Cores / SM | 192 | 128 | 64 | 64 |
FP32 Cores / GPU | 2880 | 3072 | 3584 | 5120 |
FP64 Cores / SM | 64 | 4 | 32 | 32 |
FP64 Cores / GPU | 960 | 96 | 1792 | 2560 |
Tensor Cores / SM | n/a | n/a | n/a | 8 |
Tensor Cores / GPU | n/a | n/a | n/a | 640 |
GPU Boost Clock | 810/875 MHz | 1114 MHz | 1480 MHz | 1455 MHz |
Peak FP32 TFLOP/s* | 5.04 | 6.8 | 10.6 | 15 |
Peak FP64 TFLOP/s* | 1.68 | 2.1 | 5.3 | 7.5 |
Peak Tensor Core TFLOP/s* | n/a | n/a | n/a | 120 |
Texture Units | 240 | 192 | 224 | 320 |
Memory Interface | 384-bit GDDR5 | 384-bit GDDR5 | 4096-bit HBM2 | 4096-bit HBM2 |
Memory Size | Up to 12 GB | Up to 24 GB | 16 GB | 16 GB |
L2 Cache Size | 1536 KB | 3072 KB | 4096 KB | 6144 KB |
Shared Memory Size / SM | 16 KB/32 KB/48 KB | 96 KB | 64 KB | Configurable up to 96 KB |
Register File Size / SM | 256 KB | 256 KB | 256 KB | 256KB |
Register File Size / GPU | 3840 KB | 6144 KB | 14336 KB | 20480 KB |
TDP | 235 Watts | 250 Watts | 300 Watts | 300 Watts |
Transistors | 7.1 billion | 8 billion | 15.3 billion | 21.1 billion |
GPU Die Size | 551 mm² | 601 mm² | 610 mm² | 815 mm² |
Manufacturing Process | 28 nm | 28 nm | 16 nm FinFET+ | 12 nm FFN |
Bronnen: Nvidia Press, Devblog
1 besproken product
Vergelijk | Product | Prijs | |
---|---|---|---|
![]() |
Nvidia Tesla V100
|
Niet verkrijgbaar |