De eerste Volta: Nvidia Titan V review

65 reacties
1 besproken product
Inhoudsopgave
  1. 1. Inleiding
  2. 2. De Volta-architectuur doorgelicht
  3. 3. Het Titan V-recept: Meer cores & HBM2
  4. 4. Testprocedure
  5. 5. Benchmarks: 3DMark Firestrike / Timespy
  6. 6. Benchmarks: Unigine Superposition
  7. 7. Benchmarks: Battlefield 1 (DX12)
  8. 8. Benchmarks: Doom (Vulkan)
  9. 9. Benchmarks: F1 2017 (DX11)
  10. 10. Benchmarks: Forza Motorsport 7 (DX12)
  11. 11. Benchmarks: Ghost Recon: Wildlands (DX11)
  12. 12. Benchmarks: GTA V (DX11)
  13. 13. Benchmarks: Rise of the Tomb Raider (DX12)
  14. 14. Benchmarks: The Division (DX12)
  15. 15. Benchmarks: The Witcher 3 (DX11)
  16. 16. Benchmarks: Total War: Warhammer (DX12)
  17. 17. Benchmarks: Hardware.Info GPU Prestatiescore 2018
  18. 18. Testresultaten: Stroomverbruik
  19. 19. Testresultaten: Geluidsproductie
  20. 20. Testresultaten: Duurtest
  21. 21. Testresultaten: Mining
  22. 22. Testresultaten: GPGPU
  23. 23. Overklokken
  24. 24. Conclusie
  25. 1 besproken product
  26. 65 reacties

De Volta-architectuur doorgelicht

Nvidia laat er geen misverstand over bestaan: Volta is ontwikkeld voor in het datacenter. De tagline van de nieuwe architectuur luidt 'The Core of AI', waarbij AI uiteraard staat voor artificial intelligence oftewel kunstmatige intelligentie. De grootste vernieuwing die Volta extreem geschikt maakt voor dergelijke toepassingen is de nieuwe tensor core, maar er zijn ook diverse andere aanpassingen die Volta onderscheiden van zijn voorganger Pascal.

De GV100-gpu bestaat net als alle andere hedendaagse Nvidia-chips uit zogenaamde streaming multiprocessors. Deze SM's zijn clusters van diverse grafische rekeneenheden, enigszins vergelijkbaar met AMD's compute units. GV100 bestaat uit 84 SM's, waarvan er in de Titan V tachtig daadwerkelijk bruikbaar zijn. Elke SM bevat 64 FP32-cores en 64 INT32-cores voor het oplossen van berekeningen met kommagetallen (floating point) en hele getallen (integer). Daarnaast zijn er 32 FP64-cores aanwezig, waarmee double-precisionberekeningen op halve snelheid kunnen worden uitgevoerd. Ter vergelijking: bij een consumentenkaart als de GTX 1080 gebeurt dat slechts op 1/32ste van de FP32-snelheid. Verder zijn er in elke SM vier texture-units aanwezig.


Een blokdiagram van de Nvidia GV100-gpu.

Tensor cores

Nieuw is dat elke SM ook over een achttal tensor cores beschikt. Dit nieuwe type rekeneenheid is gespecialiseerd in het uitvoeren van matrixberekeningen, oftewel het vermenigvuldigen van twee FP16-matrixen om er vervolgens een FP16- of FP32-matrix bij op te tellen. In jargon staan dergelijke instructies bekend onder de naam fused multiply add (FMA). Door deze specialisatie kunnen de acht tensor cores die instructies vier keer zo snel uitvoeren als alle normale CUDA-cores in één SM bij elkaar bij de Pascal-generatie.

In deeplearning-achtige toepassingen zijn dat type matrixinstructies schering en inslag. Mits de gebruikte software geschikt is om gebruik te maken van Nvidia's tensor cores, kunnen de prestaties daardoor meerdere keren over de kop gaan ten opzichte van Pascal-gebaseerde GPU's. Nu volgt de grote maar: die cores zijn voor alle andere toepassingen onbruikbaar, terwijl ze uiteraard wel flink wat ruimte innemen. Alleen al daarom zullen we ze in de toekomst waarschijnlijk niet terugzien op 'gaming-Volta's.


Een voorbeeld van een matrix-FMA-berekening waarvoor de tensor cores bedoeld zijn.

Andere wijzigingen: interne lay-out op de schop

De tensor cores zijn niet de enige veranderingen aan de Volta-architectuur. Sinds de 'Fermi' GF100-chip, bekend (of berucht) van de GTX 480, gebruikt Nvidia in elke SM een duale warp-scheduler. Een warp is een reeks van maximaal 32 identieke instructies, die door de warp-scheduler op een zo slim mogelijke manier bij elkaar worden gezocht. Op die manier kunnen er zo veel mogelijk berekeningen gelijktijdig worden verwerkt. De dubbele warp-scheduler leverde feitelijk twee sets berekeningen aan, zodat de cores op elk moment iets te rekenen hebben. Je zou het bijna een mini-implementatie van zeer lokale hyperthreading kunnen noemen.

Bij Volta is die tweede scheduler verdwenen. Het volledig verzadigen van de cores moet zodoende vanuit de threads komen en kan niet meer hardwarematig op instructieniveau gebeuren. Het nut van de tweede scheduler hing volledig van de workload af. In elk geval voor deze grote Volta-chip gaf Nvidia er de voorkeur aan ruimte te besparen door de tweede warp-scheduler weg te laten, boven de potentiële prestatiewinst die hij zou kunnen opleveren. Gezien de reusachtige afmetingen die de GV100-gpu in deze staat al heeft, valt dat te begrijpen.

Nvidia Titan V

Een ander, deels gerelateerde wijziging is dat de shader-units (bestaande uit floating-point en integer units) uit elkaar zijn getrokken. Ze kunnen nu dus los van elkaar berekeningen doen, al wordt dat voor een deel bemoeilijkt doordat de tweede warp-scheduler is verdwenen. Zodoende kan er maar één warp-instructie per kloktik worden klaargezet. Echter, als de floating-point cores aan het werk worden gezet met berekeningen die meerdere kloktikken in beslag nemen, kunnen de integer cores bij de tweede kloktik worden aangestuurd. Zo kan dit toch een efficiëntieslag opleveren, zij het in specifieke workloads. Onder meer de latency van FMA-berekeningen en bepaalde geheugenadresseringen hebben hier voordeel bij, volgens Nvidia.

Op 12 nanometer bij TSMC

Naast alle architecturale vernieuwingen is Volta ook nog eens de eerste gpu die wordt gebakken op het gloednieuwe 12nm-productieprocedé bij TSMC. Nu moeten we het enthousiasme direct enigszins temperen, want de naamgeving is niet helemaal representatief voor de technische aspecten van het nieuwe proces. 12 nanometer is een doorontwikkelde versie van TSMC's 16nm-procedé en zou onder andere wat minder last van leakage moeten hebben, maar is geen daadwerkelijke fysieke verkleining van het proces.

Puristen doen de naamgeving daarom af als marketing, wellicht om het 14nm-proces van Globalfoundries en Samsung 'in te halen', al zal '12nm' ongetwijfeld een kleine verbetering in efficiëntie brengen ten opzichte van het 16nm-proces dat voor Pascal werd gebruikt.


1 besproken product

Vergelijk   Product Prijs
Nvidia Titan V

Nvidia Titan V

  • GV100
  • 5120 cores
  • 1200 MHz
  • 12228 MB
  • 3072 bit
  • DirectX 12 fl 12_1
  • PCI-Express 3.0 x16
Niet verkrijgbaar
0