AMD Carrizo notebook-APU preview: flinke stap vooruit

28 reacties
Inhoudsopgave
  1. 1. Inleiding
  2. 2. Excavator
  3. 3. GPU
  4. 4. Videomogelijkheden
  5. 5. HSA compatible
  6. 6. Energiebesparing
  7. 7. In vergelijking met Intel
  8. 8. Conclusie
  9. 28 reacties

Excavator

Carrizo bevat een viertal CPU-cores, gebaseerd op de Excavator generatie. Excavator is de vierde en laatste uitvoering van de - laten we het vriendelijk zeggen - niet heel erg lekker uit de verf gekomen Bulldozer architectuur. Wie de nieuwsvoorziening op Hardware.Info op de voet volgt, weet dat AMD druk doende is met een geheel nieuwe x86 CPU-architectuur, codenaam Zen, die de Bulldozer familie in 2016 of 2017 moet gaan opvolger.

Net als bij de andere Bulldozer-implementaties hebben we bij Excavator opnieuw van doen met modules, waarin twee integer CPU-cores worden gecombineerd met één floating point core. Carrizo bevat twee van deze modules en heeft zodoende dus vier integer cores, die in totaal twee floating point cores delen. Ieder model heeft bij Excavator 1 MB L2-cache, een halvering ten opzichte van de vorige generatie. Dat wordt volgens AMD echter ruim gecompenseerd door uiteenlopende optimalisaties, waaronder een verhoging van de L1 data-cache.

Een belangrijk verschil met Steamroller is dat Excavator is ontwikkeld met behulp van het High Density Library Design principe dat ook wordt toegepast voor AMD's GPU-tak, in tegenstelling tot High Performance Libraries die tot nu toe voor CPU's gebruikt werden. Die High Performance Libraries zijn primair bedoeld voor het behalen van zeer hoge klokfrequenties, maar nemen fysiek wat meer plek in. Door te kiezen voor de High Density Libraries heeft AMD de fysieke grootte van de CPU-cores flink kunnen terugbrengen, 23% naar verluidt, net als het stroomverbruik.

Het mooie van de nieuwe implementatie is dat juist bij lage TDP's er hogere klokfrequenties mogelijk zijn. AMD geeft aan dat bij TDP's van ordegrootte 10W - 15W, waar de Carrizo APU's voor zijn bedoeld, de mogelijke klokfrequenties bij identiek stroomverbruik een stuk hoger zijn. Het tegenovergestelde is echter ook waar: bij 20W zit er in de getoonde grafiek een punt waar bij de lijnen elkaar kruisen: bij hogere TDP's zou de nieuwe implementatie met high density library dus juist tot lagere klokfrequenties in staat zijn. Het geeft maar aan dat wie hoopt dat AMD op basis van Excavator ook snellere desktop-processors zal uitbrengen, vermoedelijk van een koude kermis thuiskomt. Daar is het CPU-ontwerp simpelweg niet voor geoptimaliseerd.

Excavator is echter niet alleen door de kleinere transistors en nieuwe implementatie sneller dan voorloper Steamroller. In de processorarchitectuur heeft AMD verder de nodige aanpassingen gedaan om het aantal instructies dat de CPU per klokslag kan uitvoeren te verhogen.

Een belangrijke verbetering is dat de L1 data-cache is verdubbeld en dat de algoritmes om data uit het geheugen te pre-fetchen zijn verbeterd. AMD geeft aan dat de L1 cache verdubbeld is, terwijl men het stroomverbruik ervan door betere clock gating heeft kunnen halveren en de latency gelijk is gebleven. Ook is de branch predictor verbeterd, zodat de CPU minder vaak de verkeerde gok neemt als hij tegen een vertakking in programmacode aanloopt waarvan het resultaat nog in de pipeline zit. Het aantal vertakkingen dat de CPU-cores kunnen onthouden en terugzoeken is vergroot van 512 naar 768.

Daarnaast heeft AMD diverse nieuwe instructies toegevoegd, waaronder AVX2, MOVBE, SMEP en BMI1/2 ondersteuning. Hier moet echter wel een duidelijke nuance bij: AVX2 biedt de mogelijkheid om 512-bit floating point vector-instructies in één keer uit te voeren. AMD heeft de floating point units echter niet geüpgraded van 256-bit naar 512-bit, zoals Intel dat bij haar nieuwste generatie CPU's wel heeft gedaan, wat maakt dat AVX2 instructies in twee stappen van 256-bit worden uitgevoerd. De komst van AVX2 is dus alleen een voordeel voor de compatibiliteit en biedt in het geval van AMD geen extra snelheid.

Al met al zouden de optimalisaties binnen Excavator voor een 4-15 procent hogere IPC dan bij voorloper Steamroller moeten zorgen.

Wat betekent dat in de praktijk? Zoals geschreven is Excavator geoptimaliseerd voor APU's met een 15W TDP. Bij identiek stroomverbruik moet een Excavator gebaseerde CPU in Cinebench zo'n 55% betere presrtaties bieden, waarvan ruim 40% voor rekening van een hogere klokfrequentie komt (als gevolg van de kleinere, zuinigere procedé en de nieuwe libraries) en de rest door de verhoogde IPC. We zien dat de IPC bij single-threaded code zelfs nog iets meer toeneemt, maar dat het effect van de hogere klokfrequentie daar wat lager is. Maar desalniettemin: een prestatietoename van 40% bij single-threaded code is ook gigantisch te noemen en iets wat AMD hard nodig heeft om de achterstand op Intel gedeeltelijk in te halen.

Tegelijkertijd geeft AMD ook grif toe dat Excavator minder geschikt is voor chips met een hogere TDP. Men is zo eerlijk om in onderstaande grafiek met prestatietoenames ook getallen voor een 35W TDP te tonen. De toename in IPC-blijft dan in stand, maar er is slechts een klein of bij single-threaded code zelfs een negatieve verbetering voor wat betreft te behalen klokfrequenties. De combinatie van beide moet er echter alsnog voor zorgen dat Excavator ook bij 35W significant sneller is dan de voorloper. 

0
*