Nvidia heeft een mysterieuze paper gepubliceerd waarin het een nieuwe techniek beschrijft hoe het gpu-chiplets wil gebruiken. Twitteraar Redfire heeft het onderzoek nagelopen en zet uitgebreid uiteen wat er in vermeld wordt.
Het onderzoek beschrijft een 'gpu-n', een chiplet die voor gpu's met een modulair ontwerp gebruikt kan worden. De chiplet heeft 8576 cores, verspreid over 134 sm's. Dat is iets meer dan het aantal van de A100-gpu, die er 6912 heeft in 108 sm's. Dat is een toename van slechts 24%, maar het mag benadrukt worden dat dit aantal minimaal verdubbeld zal worden en dus mimimaal 17152 cuda-cores zal hebben als er geen extra cores uitgeschakeld worden.
Ook wordt een kloksnelheid van 1,4 GHz genoemd. Het is niet duidelijk of dit de uiteindelijke snelheid zal zijn, in ieder geval draait de A100 op 1,410 GHz. De theoretische fp32-rekenkracht is minimaal 24,2 teraflops, terwijl de fp16-prestaties minimaal 779 tflops moet zijn. Met name de fp16-prestaties (half precision) zijn hard toegenomen, met meer dan een factor twee zelfs.
Verder is de capaciteit van de L2-cache toegenomen met 50%, maar bijzonder is dat de hoeveelheid cache veel groter kan zijn dan wat op de gpu-chiplet zit. Nvidia heeft het over twee verschillende varianten, één is voor high-performance computing, terwijl de tweede bij uitstek geschikt is voor deep learning. Laatstgenoemde heeft een extra chiplet die specifiek voor extra cache bedoeld is. Hier zou 960 GB of zelfs 1920 GB aan cache op zitten, terwijl de kaart ook plek moet hebben voor tot 233 GB aan hbm2e. De geheugeninterface staat een bandbreedte van 6,3 TB/s toe.
Al met al ligt het voor de hand dat de technieken voor Hopper gebruikt zullen worden, met oog op de prestaties en de timing van deze onthulling. In verband met de concurrentie zal Nvidia immers de eigenschappen zo lang mogelijk geheim willen houden.
Bronnen: Association for Computing Machinery, Redfire (Twitter)