Intel Xeon Platinum 8180 review: Skylake voor servers

36 reacties
Inhoudsopgave
  1. 1. Inleiding
  2. 2. Xeon Scalable Series in een notendop
  3. 3. Modellen: Bronze t/m Platinum
  4. 4. Skylake architectuur
  5. 5. Mesh-architectuur en drie chipvarianten
  6. 6. Nieuw: AVX-512 en nieuwe cache indeling
  7. 7. Zes geheugenkanalen en snellere inter-CPU communicatie
  8. 8. Stroombesparing en overige vernieuwingen
  9. 9. Lewisburg chipset
  10. 10. Prestaties volgens Intel
  11. 11. Testplatform
  12. 12. Benchmarks Windows Server 2016
  13. 13. Benchmarks Windows Server 2016 - Stroomverbruik en performance-per-watt
  14. 14. Benchmarks Linux
  15. 15. Conclusie
  16. 1 besproken product
  17. 36 reacties

Mesh-architectuur en drie chipvarianten

Net als bij de vorige generatie Xeons heeft Intel onderliggende drie verschillende chipsoorten ontwikkeld, die men aanduidt met de termen XCC (eXtreme Core Count), HCC (High Core Count) en LCC (Low Core Count). De XCC variant bevat 28 cores, de HCC variant bevat 18 cores en de LCC variant bevat 10 cores. De manier waarop de processors zijn opgebouwd is fundamenteel anders als bij de vorige generatie. Waar Intel bij recente Xeon-versies gebruik maakte van een zogenaamde ringbus, communiceren de chiponderdelen bij de nieuwe Xeon-chips via een mesh netwerk.

De ringbus deed officeel voor het eerst zijn intrede in 2010 bij de Sandy Bridge generatie processors, al werd 'ie naar verluid in datzelfde jaar ook al gebruikt bij de Nehalem EX high-end server processors. Bij deze generatie had Intel serverprocessors met een maximum van 8 cores. De ringbus maakte het voor Intel relatief eenvoudig om chips met meer of minder cores te ontwerpen, doordat men extra cores met daaraan gekoppeld een stuk L3-cache als het ware als plakjes in een chipontwerp kon invoegen. De ringbus verbond alle onderdelen van de chip met elkaar. Deze ringbus werkt als een soort treinbaan met stations bij iedere core. Data kan via dit bidirectionele spoor van het ene chiponderdeel naar het andere verstuurd worden, waarbij transport van ieder station naar de volgende halte één klokslag in beslag neemt.

De laatste jaren is het aantal cores binnen Intels server processors geëxplodeerd. De bestaande Broadwell-generatie Xeon E5 v4 processors bieden tot 24 cores en zodoende moest men bij de laatste twee generaties zelfs al trucs uithalen door twee ringbussen te implementeren die via speciale knooppunten met elkaar verbonden worden. Die knooppunten hebben weer een extra latency van vijf klokslagen, wat maakt dat in het ergste geval - wanneer de core linksonder in de chip data nodig heeft uit het L3-cache geheugen dat is gekoppeld aan de core rechtsbovenin - er een latency is van maar liefst 14 klokslagen. Met nóg meer cores, wat Intel voor de huidige Skylake-generatie Xeon-processors uiteraard van plan was, zou de ringbus uiteindelijk te beperkend zijn geworden voor de prestaties..

Waar Intel bij de op desktops en laptops gerichte Skylake processors (met maximaal vier cores) nog steeds gebruik maakt van een ringbus, is dit voor Skylake server CPU's, waarbij men het aantal cores opnieuw wil verhogen, niet meer haalbaar. Vandaar dat Intel voor de nieuwe generatie server-CPU's is overgestapt op een nieuwe methode. Binnen de verschillende uitvoeringen van de Skylake server-chips zitten de cores in een soort Matrix-structuur, als een soort schaakbord dus, aan elkaar. Over dit schaakbord heeft men communicatielijnen aangebracht, zoals in horizontale richting als in verticale richting. Via dit zogenaamde mesh-netwerk van communicatiekanalen kunnen de verschillende onderdelen van de chip communiceren, waarbij opnieuw iedere halte één klokslag latency met zich mee brengt. Doordat er nu veel meer communicatiekanalen in de chip zitten dan één of twee ringbussen, is de totale bandbreedte waarmee de chiponderdelen onderling kunnen communiceren aanzienlijk toegenomen.

Het chipontwerp is nog altijd modulair; tussen de cores plaatst Intel links en rechts de geheugencontrollers en alle overige zaken, zoals PCI-Express controller en de verbindingen door communicatie met andere sockets worden bovenin de chip geplaatst. Zolang het aantal cores (minus twee voor de geheugencontrollers) maar in zo'n matrix past, kan Intel eenvoudig varianten met meer of minder cores produceren. Het maakt dat de 28-core XCC-variant gebruik maakt van een 6x6 mesh indeling, de 18-core variant van een 4x6 indeling en de 10-core variant van een 4x4 indeling.

In alle gevallen geldt dat data per klokslag één stap kan worden getransporteerd over het mesh-netwerk. Enkel op de plekken waar de aanknopingspunten van de caching en home agent verder van elkaar zitten (concreet tussen cores in kolom 2 en 3 en bij de XCC-variant ook tussen kolom 4 en 5 is en een hogere latency van 3 klokslagen. Het maakt bij de XCC-variant dat data uit het L3-cache die gekoppeld aan de core in één van de uithoeken van de chips met een latency van 13 klokslagen bij de core in de andere uithoek van de chip kan uitkomen. 

Wat in de overzichten duidelijk te zien is, is dat alle drie de chipvarianten een 6-channel DDR4-geheugen controller hebben en 48 PCI-Express 3.0 lanes bieden. Het is echter enkel het XCC-model dat bovenin controllers voor een drietal UPI-lanes biedt. De 18-core en 10-core chipvarianten bieden slechts twee UPI-lanes en zijn daarmee niet geschikt voor 8-socket systemen en minder geschikt voor 4-socket configuraties, aangezien dan niet alle CPU's rechtstreeks met elkaar verbonden kunnen zijn. 

Intel geeft overigens aan dat het Mesh-netwerk op een wat lagere klokfrequentie werkt dan de oude ringbus. Een hogere bandbreedte en lagere latencies moeten ervoor zorgen dat de communicatiesnelheid tussen verschillende chiponderdelen alsnog sneller is dan bij de vorige generatie Xeon-processors.


Besproken product

Vergelijk  

Product

Prijs

Intel Xeon Platinum 8180 Boxed

Intel Xeon Platinum 8180 Boxed

  • Socket 3647
  • 2.5 GHz
  • 28 cores
  • 205 W
  • 14 nm

€ 11.749,05

2 winkels
0
*