Arm in 2019: weer een forse verhoging van CPU- en GPU-prestaties

21 reacties
Inhoudsopgave
  1. 1. Inleiding
  2. 2. CPU: Niet Apple achterna, wel nieuw ontwerp
  3. 3. De Cortex-A76 in detail 
  4. 4. GPU: Meer AI met 3rd gen. Bifrost 
  5. 5. Video: Dubbele decode: 8k60fps anyone?
  6. 6. Implementaties en toekomstplannen
  7. 21 reacties

GPU: Meer AI met 3rd gen. Bifrost 

Waar de nieuwe Cortex-A76 gpu echt een geheel nieuw ontwerp is, is de nieuwe Mali-G76 GPU een doorontwikkeling van het ontwerp van vorig jaar. We hebben hier van doen met de derde (en vermoedelijk laatste) generatie -highend gpu met Arms ruim twee jaar geleden geïntroduceerde Bifrost architectuur (na G71 en G72). De G76 staat dan ook niet zozeer in het teken van nieuwe mogelijkheden en technieken, maar primair van het verbeteren van de prestaties. Dat doet Arm met drie hoofddoelen in het achterhoofd; betere prestaties voor gaming, betere geschiktheid voor VR/AR applicaties en bovenal betere prestaties voor AI / machine learning workloads. Al met al mogen we naar verluidt zo'n 1,5x betere prestaties verwachten. Tegelijkertijd heeft Arm voor dezelfde prestaties 30% minder chipoppervlak nodig (met hetzelfde procedé!). 

 

Net als voorloper Mali-G72 zitten er bij de G76 drie execution units per shader core. Het aantal cores dat in G76 gpu zit is afhankelijk van de gekozen implementatie 4 tot maximaal 20 stuks. Dat laatste is minder dan het maximum van 32 cores bij de G72, maar schijn bedriegt: iedere execution unit binnen de G76 kan nu namelijk 8 FP32 vector threads verwerken ten opzichte van 4 bij de G72. Dat maakt dat een enkele core twee keer zoveel rekenkracht biedt ten opzichte van de vorige generatie. Hoewel de cores zélf daardoor uiteraard groter zijn, is dat verschil slechts 28%, waardoor de chips als geheel kleiner kunnen worden.

Vanuit energie oogpunt maakt het in principe geen verschil: een workload uitvoeren binnen een 8 lane core kost exact evenveel energie als binnen een 4 lane core (maar gaat uiteraard wel twee keer zo snel). Het verschil zit hem er echter in dat er veel minder overhead nodig is, bijvoorbeeld bij de paden om data bij de cores uit te laten komen. Dat maakt dat de overstap van 4 naar 8 lanes per core uiteindelijk toch voor ruim 15% energiewinst zorgt, wat zich weer kan uitbetalen in ofwel een lager stroomverbruik, ofwel betere prestaties bij identiek stroomverbruik.

De belangrijkste verbetering is echter dat de 32-bit pipelines binnen de gpu kunnen worden omgeschakeld om per pipeline vier 8-bit integer getallen te verwerken. Veel AI en machine learning algoritmes zijn gebaseerd op Int8-data en deze kan nu dus in feite vier keer zo snel door de pipelines verwerkt worden, wat een gigantische prestatiewinst bij dergelijke workloads tot gevolg zal hebben.

 

De maximale prestaties kunnen bij de Mali-G76 25% hoger zijn dan bij G72. Reken maar mee: bij G72 zijn er maximaal 32 cores met 3 execution engines per core, met elk 4 execution lanes; oftewel 32 x 3 x 4 = 384 execution lanes. Bij G76 zijn er maximaal 20 cores, met 3 engine per core en 8 lanes per engine. 20 x 3 x 80 = 480. Overigens is dit vooral theorie; wij kennen geen chips waarin uiteindelijk 32 Mali-G72 cores zijn verwerkt en het is ook maar de vraag of Mali-G76 varianten met 20 cores gaan zien.

Verder zijn er nog wat kleinere verbeteringen in de gpu. Zo heeft iedere core nu twee in plaats van één texture unit, waardoor er per klokslag twee texels (pixels van textures) opgehaald kunnen worden. Arm zag dat met de steeds mooiere en complexere games op mobiele platforms hier een bottleneck begon te ontstaan, die op die manier effectief is verholpen. Verder zijn er nog talloze kleine, architecturale verbeteringen die bij elkaar opgeteld de prestaties en/of de energie-efficiëntie verder verhogen..

 

 

0
*