Arm in 2019: weer een forse verhoging van CPU- en GPU-prestaties

21 reacties
Inhoudsopgave
  1. 1. Inleiding
  2. 2. CPU: Niet Apple achterna, wel nieuw ontwerp
  3. 3. De Cortex-A76 in detail 
  4. 4. GPU: Meer AI met 3rd gen. Bifrost 
  5. 5. Video: Dubbele decode: 8k60fps anyone?
  6. 6. Implementaties en toekomstplannen
  7. 21 reacties

CPU: Niet Apple achterna, wel nieuw ontwerp

Bijna alle moderne microprocessoren voor mid-range en high-end telefoons bevatten tegenwoordig twee soorten cpu-kernen. De eerste is een compacte in-order core, die instructies uitvoert in de volgorde waar ze binnenkomen en relatief klein en energiezuinig is. De tweede is een grotere out-of-order core, die instructies ook in een andere volgorde kan uitvoeren en meer performance biedt ten koste van formaat en energie-efficiëntie.

Waar deze kleine en grote kernen vroeger in aparte cpu-clusters zaten, kunnen deze sinds vorig jaar ook samen in één cluster geplaatst worden, waarbij er gebruik kan worden gemaakt van een gezamenlijke caches en de latency tussen de cores een stuk lager ligt. Onder de naam DynamIQ waren de Cortex-A75 en -A55 respectievelijk de grote en kleine kern voor deze nieuwe indeling. De A55-core mag nog even door, terwijl de A75 dit jaar vervangen wordt door de A76.

Meer dan alleen smartphones

In tegenstelling tot Apple of Samsung, die hun high-end cpu-kernen speciaal voor een chip of zelfs een apparaat kunnen ontwikkelen, moeten Arm's ontwerpen in een breed scala aan elektronica terechtkomen. Smartphones zijn verantwoordelijk voor de meeste implementaties, maar ook tablets, servers, routers, televisies en nu ook laptops maken gebruik van hetzelfde cpu-ontwerp. Dit ontwerp moet dus voor verschillende applicaties met verschillende chipoppervlakte- en stroombudgetten geschikt zijn, en kan dus niet enkel voor de smartphone geoptimaliseerd worden.

Om deze reden staan Arm's ontwerpen niet in steen gegraveerd, maar is een aantal aspecten flexibel ingericht. Ze kunnen op verschillende processen gemaakt worden, hebben variabele cachegroottes en kunnen aan de hand van de stroomvoorziening op verschillende kloksnelheden draaien. Daarnaast kunnen ze dus in verschillende aantallen in een DynamIQ-cluster geplaatst worden, die ook weer een cache van variabel formaat heeft.

Performance voor laptops en tablets

Bij het ontwerp van Cortex-A76 is daarom veel rekening gehouden met apparaten die meer stroom en chipoppervlak ter beschikking hebben, maar wel daar meer performance voor terugverwachten. Om niet een compleet nieuwe cpu-kern te hoeven ontwerpen, zijn er daarom twee aanpassingen gedaan voor deze apparaten: grotere caches en hogere klokfrequenties. Deze eigenschappen zijn tevens erg gunstig voor de servermarkt, waar Arm ook nog steeds een voet tussen de deur probeert te krijgen.

Voor de A76 is de chipontwerper dan ook met een leeg vel begonnen, zijn alle sterke elementen uit eerdere cores meegenomen en is de rest opnieuw ontworpen. In dit proces is de pipeline kritisch bekeken en zijn zo veel mogelijk van de flessenhalzen verwijderd, samen met wederom een optimalisatieslag. We moeten direct eerlijk zijn: in de A76 vinden we geen bijzondere nieuwe slimmigheden en/of zaken die wezenlijk anders werken dan bij de A75. Het is voornamelijk een kwestie van "meer en sneller": meer cache, lagere latency's, hogere bandbreedtes, en dat alles op talloze plekken. 

De beloftes van Arm zijn mooi: gemiddeld zo'n 35% betere prestaties, 50% betere energie-efficiëntie en zelfs tot 4x betere prestaties bij machine learning workloads ten opzichte van voorloper Cortex-A75. Let wel, hierbij vergelijkt men de manier waarop de A76 vermoedelijk het vaakst zal worden ingezet (geproduceerd op 7nm en werkend op 3 GHz) met de manier waarop de A75 op dit moment optimaal wordt geïmplementeerd (10nm en 2,8 GHz). De oplettende lezer ziet trouwens dat we geen grote stappen qua klokfrequenties mogen verwachten; Arm geeft aan dat er bij de nieuwste procedés (14nm, 10nm, 7nm) steeds minder ruimte is om de klokfrequentie te verhogen, omdat er een bottleneck begint te ontstaan bij de dataverbindingen binnen de chips.

De energie-efficiëntie kan zich volgens Arm op twee manier uitbetalen: een op 7nm geproduceerde Cortex-A76 cpu zou met een identiek stroomverbruik als een 10nm Cortex-A75 (750 mW) zo'n 40% beter kunnen presteren. De andere kant van de medaille is dat voor een identiek prestatieniveau een 7nm Cortex-A76 slechts de helft van de stroom nodig heeft van een 10nm Cortex-A75. Alle verbeteringen zorgen er wel voor dat de A76 een stukje groter en complexer is dan de A75, maar geproduceerd op een state-of-the-art 7nm procedé moet een A76 kern vrijwel even groot zijn als een 10nm A75 kern.

Voor laptops (waar de cpus eerder 5 watt dan minder dan 1 watt mogen verbruiken) moeten de te verwachten prestatiewinsten ten opzichte van de bestaande generatie nóg groter zijn, mede dankzij de mogelijkheid om de Cortex-A76 van een grote L3-cache te voorzien, iets waar een besturingssysteem als Windows flink van profiteert. Arm zegt dan ook met zoveel woorden dan het met de komst van de Cortex-A76 helemaal klaar is om de stap naar de markt van Windows-laptops écht te gaan maken, waar eerder dit jaar samen met Qualcomm voorzichtig de eerste stappen werden gezet.

Hoewel Arm over het algemeen niet happig is om prestatievergelijkingen met concurrenten te overleggen, geeft men bij navraag aan dat in situaties waar er een grote beperking is voor energie die een chip mag gebruiken en de temperatuur die deze mag worden (lees: tablets, zeer dunne laptops, etc.) de Cortex-A76 zo'n 10% verwijderd is van het prestatieniveau van Intels Skylake cores. Om dat in perspectief te zetten: op het oppervlak van één Skylake core passen drie A76's, plus een grotere cache. Tijdens de presentatie die we kregen van Arm werd één ding wel duidelijk: het bedrijf ziet zo'n beetje iedereen als concurrent, maar heeft primair zijn pijlen gericht op Intel, want juist in de hoek waar Intel sterk is, kan Arm nog flink marktaandeel winnen. 

Zeer recent heeft Arm haar claims ten opzichte van Intel nog wat sterker aangezet. Tijdens een presentatie op het Hotchips symposium gaf men aan dat een Cortex-A76 gebaseerde soc (waarbij het aantal cores niet gedefinieerd was) een gelijkaardig prestatieniveau moest bieden als een Intel Core i5-7300U... bij een derde van het stroomverbruik.

0
*