Intel Xeon Westmere test: 32nm voor servers

12 reacties
Inhoudsopgave
  1. 1. Inleiding
  2. 2. Westmere
  3. 3. Platform
  4. 4. Uitvoeringen
  5. 5. ASUS R700-E6
  6. 6. Benchmarks
  7. 7. Benchmarks: HPC (High Performance Computing)
  8. 8. Benchmarks: HPC (2)
  9. 9. Bechmarks: 3D-rendering
  10. 10. Linux: Parsec 2.1 (1)
  11. 11. Linux: Parsec 2.1 (2)
  12. 12. Linux: HWI MySQL Benchmark v3
  13. 13. Stroomverbruik
  14. 14. Performance per Watt
  15. 15. Conclusie
  16. 16. Besproken producten
  17. 17. Reacties

Inleiding

Net geen jaar geleden introduceerde Intel de Xeon 5500 reeks, de eerste serverprocessors op basis van de Nehalem-architectuur, waar we op dat moment al middels de Core i7 op de desktop mee kennis hadden gemaakt. De vernieuwingen binnen de Nehalem-architectuur bleken bij desktopsystemen al voor flinke prestatiewinsten te zorgen, maar juist bij servers kwamen ze echt goed tot hun recht. Vandaag introduceert Intel de opvolgers: de Xeon 5600 processorreeks, codenaam 'Westmere-EP', is gebaseerd op 32 nm transistors en biedt tot 6 cores per processor. Voor wie het nieuws de afgelopen week heeft gevolgd: deze processors zijn de server-broertjes van de vorige week geïntroduceerde Core i7 980X 'Gulftown' chip. De beloftes zijn niet mis: Intel geeft aan dat de nieuwe CPU's in vergelijking met de 5500 reeks dezelfde prestaties moeten kunnen bieden met een 30% lager stroomverbruik. Met een gelijk stroomverbruik zouden de nieuwe chips tot 40% beter moeten kunnen presteren. Om die claims te controleren, gingen wij aan de slag met een set Xeon X5670 en X5680 CPU's.

Vorig jaar

Eerst een korte terugblik naar vorig jaar.De nieuwe Nehalem processorarchitectuur betekende voor Intel een heel arsenaal aan nieuwe mogelijkheden: voor het eerst implementeerde men 4 cores in één chip, de frontsidebus werd ingeruild voor QuickPath, de geheugencontroller werd binnen de processor geïntegreerd, HyperThreading maakte zijn herintrede en de nieuwe turbo modus zorgde ervoor dat de processors zolang de temperatuur dat toelaat op een hogere kloksnelheid kunnen werken.

Op de desktop zorgde Nehalem architectuur in de vorm van de Core i7 processor al voor flinke prestatiewinsten. Maar juist aan het serverfront bleken de meeste nieuwe technologieën pas écht hun waren kracht te tonen. Zo zorgt HyperThreading ervoor dat een quad-core processor parallel kan werken aan instructies van 8 programmathreads. Juist in de serverwereld is er veel software die zeer goed van vele cores gebruik kan maken. De QuickPath bus had voor desktops weinig toegevoegde waarde, maar bij servers zorgt de nieuwe bus ervoor dat in systemen met meer dan één processor deze op hogere snelheid met elkaar kunnen communiceren. En vooral ook de in de processor geïntegreerde geheugencontroller bleek - zoal AMD al eerder bewees - een gouden greep voor servers: het aantal beschikbare geheugenkanalen stijgt immers mee met het aantal processors in het systeem.

Met de Nehalem Xeons heeft Intel het afgelopen jaar flinke successen geboekt in de servermarkt. Nu is het dus tijd voor de opvolger...

Tick-tock

De introductie van vandaag is de nieuwste stap in Intels veelsproken tick-tock strategie. Intel stelt zich tot doel om iedere jaar om-en-om ofwel een nieuwe processorarchitectuur ofwel een nieuwe productieprocedé te introduceren. Vorig jaar was het met Nehalem de beurt aan een nieuwe architectuur. Dit jaar is het de beurt aan een nieuwe productieprocedé. Hoewel de architectuur van Westmere grotendeels gelijk is aan Nehalem, bieden de 32 nm transistors Intel de mogelijkheid om een aantal nieuwe zaken te implementeren

Westmere

De nieuwe Westmere processor is zoals gezegd het server-broertje van de vorige week geïntroduceerde Core i7 980X Gulftown chip. Onderstaande foto van de chip zal menigeen dus bekend voorkomen. Het belangrijkste verschil tussen de Nehalem-EP en Westmere-EP chip is dat Intel het aantal cores heeft verhoogd van 4 naar 6. In een dual-cpu server kunnen zodoende 12 cores plaatsnemen, die dankzij HyperThreading instructies van 24 programmathreads kunnen verwerken. Een tweede grote verandering is dat de hoeveelheid L3-cache geheugen ook is uitgebreid, van 8 MB naar 12 MB. Dit alles zorgt ervoor dat het aantal transistors flink is gestegen: van circa 731 miljoen tot 1,17 miljard! Dankzij de kleinere 32 nm transistors is de chip echter niet veel groter geworden: Westmere-EP meet 248 mm², terwijl Nehalem-EP 233 mm² groot was.

Intel Core i7 980X Extreme Edition

De geïntegreerde geheugencontroller heeft ten opzichte van Nehelem een aantal kleine optimalisaties gekregen. Allereerst is het vanaf nu mogelijk om twee DIMM's per kanaal op 1333 MHz te laten werken. Nehalem-processors schakelden terug naar 1066 MHz bij het plaatsen van twee modules per kanaal. Daarnaast biedt Westmere-EP ondersteuning voor nieuwe Low-Voltage DDR3 modules, om op die manier het totale stroomverbruik van de server terug te dringen. Per kanaal worden maximaal drie DIMM's ondersteund, ofwel 9 DIMM's per processor. Met 4 GB DIMM's kom je zo tot 72 GB geheugen voor een dual-socket server. Met peperdure 16 GB modules zou een Westmere-EP server tot 288 GB geheugen moeten kunnen aansturen.

Buiten de extra cores, de vergroting van het L3-cache geheugen en de geoptimaliseerde geheugencontroller, is er nog een klein aantal andere vernieuwingen doorgevoerd. Net als de andere processors uit Intels nieuwe 32 nm generatie, heeft ook Westmere-EP de beschikking over de zes nieuwe AES-NI instructies. Deze kunnen het uitvoeren van AES encryptieberekeningen met ruim een factor tien versnellen. Bij veel servertoepassingen wordt AES toegepast, denk bijvoorbeeld aan webservers met SSL-encryptie. Door deze software opnieuw te compileren kan er een flinke prestatiewinst behaald worden.

Een andere instructie luistert naar de naam PCLMULQDQ ofwel pickle-micle-duck in de volksmond. Deze instructie kan vermenigvuldigen zonder carry bits. Gebruik van deze instructie kan vele algoritmes versnellen, waaronder het berekenen van hashes of CRC-waardes. Verder heeft Intel de APIC-timer aangepast, zodat deze ook in de diverse sleep states blijft draaien en biedt Westmere-EP voor het eerst ondersteuning voor geheugenpages van 1 GB.


Twee 6-core Westemere-EP processors met HyperThreading in één server resulteert in 24 virtuele processors.

Platform

De nieuwe Westmere-EP processors maken gebruik van exact dezelfde Socket 1366 processorvoet als de bestaande Nehalem-EP Xeons. Vanwege de onaangepaste QuickPath interface en gelijk gebleven geheugenondersteuning, werken de Westmere CPU's op dezelfde moederborden als de voorlopers, zij het dat een BIOS-update benodigd is. Dit zorgt ervoor dat serverbouwers eenvoudig nieuwe systemen op basis van de nieuwe processors kunnen introduceren: bestaande servers kunnen simpelweg van de nieuwe chips voorzien worden en hoeven daarna slechts gedeeltelijk opnieuw gevalideerd te worden. Dat betekent dat we vermoedelijk al snel de nodige Westmere servers van de verschillende serverfabrikanten mogen verwachten.

De voor Westmere aangewezen chipset is de vorig jaar geïntroduceerde Intel 5520. Deze chip kan dankzij twee QuickPath verbindingen rechtstreeks worden aangesloten op twee CPU's. De chipset bevat een PCI Express 2.0 controller met 36 lanes, die serverbouwers de mogelijkheid geeft om uiteenlopende keuzes te maken qua uitbreidingssloten. De 5520 wordt gecombineerd met een ICH10R south bridge.

In onderstaande afbeelding is de opbouw van een standaard Westmere-EP systeem te zien. Beide processors zijn met elkaar verbonden middels een rechtstreekse QuickPath verbinding. Verder is er vanuit beide CPU's een QuickPath verbinding naar de chipset. In totaal zijn er zes geheugenkanalen binnen een Westmere-EP systeem. Wanneer er behoefte is aan meer PCI-Express lanes, kan de serverbouwer ervoor kiezen om twee 5520 chips te plaatsen, elk in verbinding met één CPU.

Uitvoeringen

Intel brengt Westmere-EP in een twaalftal uitvoeringen op de markt. Het topmodel is de Xeon X5680 met 6-cores en een basisklokfrequentie van 3,33 GHz. Deze chip heeft een TDP van 130 Watt en kan zodoende alleen gebruikt worden in servers die voor dit vermogen zijn gecertifieerd. Er vier andere 6-core varianten; de X5670 (2,93 GHz), X5660 (2,8 GHz) en X5650 (2,67 GHz) hebben een TDP van 95 Watt, de L5640 (2,26 GHz) neemt genoegen met 60W.

Naast de varianten met 6 cores, komt er ook een zevental waarbij slechts vier cores zijn ingeschakeld. Dat doet Intel om verschillende redenen: de E5640 (2,67 GHz), E5630 (2,53 GHz) en E5620 (2,4 GHz) bieden in vergelijking met de quad-cores uit de 5500 reeks een hogere klokfrequentie en meer cache-geheugen voor hetzelfde prijspunt. Deze mid-range Westmere-EP chips hebben een TDP van 80W.


Wij gingen aan de slag met X5670 en X5680 CPU's.

Voor de L5630 (2,13 GHz) en L5690 (1,87 GHz) kiest Intel voor slechts vier cores om het stroomverbruik zo laag mogelijk te houden. Deze speciale low-power Xeons hebben een TDP van slechts 40 Watt: ideaal voor applicaties waar de CPU-prestaties van minder belang zijn, maar waar een flinke besparing op de stroomrekening welkom is.

De X5677 en X5667 processors hebben slechts vier cores om weer een andere reden: bij veel serversoftware moeten er per core licentiekosten worden betaald. In sommige gevallen is het zodoende financieel interessanter om minder cores, die wel sneller zijn te hebben. Deze twee processors werken dan ook op 3,46 en 3,06 GHz.

De 6-core X5600 chips lopen in prijs uiteen vanaf gemiddeld € 930 tot en met gemiddeld € 1550 voor het topmodel. De quad-cores zijn verkrijgbaar vanaf gemiddeld € 369 euro.

In de hogere segmenten zullen de Xeons uit de 5500 reeks langzaam uitgefaseerd worden. Wel komen er nog een drietal nieuwe budget-Xeons op basis van de Nehalem chip.

ASUS R700-E6

De nieuwe Xeon 5600 processors werken zoals beschreven op hetzelfde platform als hun voorlopers. Om dat in de praktijk te brengen, hebben we voor deze test gebruik gemaakt van dezelfde server als voor onze test van de Intel Xeon X5570. Een BIOS-update was voldoende om de ASUS R700-E6 1U server probleemloos te laten werken met de nieuwe Xeon X5670 en zelfs de Xeon X5680 (130W) processors.

Wij hebben de R700 uitgerust met 24 GB DDR3-1333 geheugen, uitgevoerd als één 4 GB module per kanaal. Onze serverbenchmarks zijn niet afhankelijk van de prestaties van de gebruikte storage oplossing. Zodoende plaatsen we een normale SATA300 schijf in de server.

De server van ASUS is full-featured met ondermeer vier hotswappable SATA/SAS drivebays, een optie voor een tweede redundante voeding en twee posities voor uitbreidingskaarten (PCI-Express x16 en x8). De server is voorzien van dual Gigabit LAN gebaseerd op Intel chips en verder alle functionaliteit die je van een serieuze server mag verwachten, zoals console toegang, uitgebreide sensormogelijkheden, en zo verder. Een hardwarematige RAID-controller is standaard niet voorhanden, maar daarvoor biedt ASUS een optionele uitbreidingskaart. De aansluitingen voor deze uitbreiding zijn al op het moederbord ondergebracht.


ASUS R700-E6 barebone server voorzien van Westmere processors en 24 GB DDR3-1333.

Benchmarks

Om een beeld te krijgen van de prestaties van de nieuwe Westemere-EP based Xeons, hebben we een aantal uiteenlopende tests uitgevoerd. Het grootste gedeelte van de benchmarks zijn uitgevoerd onder Windows Server 2008 Standard x64, maar we hebben ook aantal nieuwe tests onder CentOS Linux 5.4 (een afgeleide van Red Hat Enterprise Linux) toegevoegd.

Wij gingen aan de slag met Westmere-EP processors; de X5680 (3,33 GHz, 130W) en de X5670 (2,93 GHz, 95W). De processors zijn zoals beschreven getest in de ASUS R700-E6 barebone server met 24 GB DDR3-1333 geheugen. In dezelfde server hebben we ook de Xeon X5570 uit de vorige Nehalem-generatie getest. Deze processor werkt op dezelfde klokfrequentie als de X5670, wat ons de mogelijkheid geeft om te analyseren welke invloed de extra cores en het extra L3-cache geheugen hebben.

In de grafieken vinden we waar beschikbaar ook scores van enkele oudere Intel processors. De Xeon X5470 is een Harpertown chip, de generatie vóór Nehalem. Onze Linux benchmarks hebben we ook nog op een set vier jaar oude dual-core Xeon E5130 Woodcrest processors uitgevoerd, om het verschil in prestaties over een langere tijd te illustreren. Om het geheugen even op te frissen: de Woodcrest chip is de servervariant van de eerste generatie Intel Core 2 processors. De test van de X5470's en E5130's gebeurde met behulp van een Intel S5000SL moederbord met 16 GB DDR2-800 FBDIMM geheugen.

Van AMD namen we de Opteron 2356 (quad-core 65 nm Barcelona, 2,3 GHz, 95W), Opteron 2384 (quad-core 45 nm Shanghai, 2,7 GHz, 75 W), Opteron 2425 HE (6-core 45 nm Istanbul, 2,1 GHz, 55W) en de Opteron 2435 (6-core 45 nm Istanbul, 2,6 GHz, 75W) mee in de testresultaten. Deze zijn getest op een ASUS KSN5-D moederbord in combinatie met 16 GB DDR2-800 (8 DIMM's). Omdat we deze processors helaas niet meer in ons bezit hebben, konden we onze nieuwe Linux-benchmarks niet op het AMD-platform uitvoeren.

Een belangrijke noot met betrekking tot het geheugen. Vanwege de zes geheugenkanalen van het nieuwe Xeon platform is het niet mogelijk de testplatformen van exact evenveel geheugen te voorzien. De nieuwe Xeon-machine heeft met 24 GB iets meer geheugen dan de andere twee machines, maar we hebben er uitdrukkelijk voor gewaakt dat geen enkele van de geteste workloads ook maar in de buurt van de 16 GB geheugengebruik komt. Ook het aantal DIMM's (6 in plaats van 8) zorgt ervoor dat het nieuwe platform een (kleine) voorsprong heeft in de stroomverbruiktests. Ook dit is een compromis: als we twee modules per kanaal hadden geplaatst zouden we op 12 modules uitkomen, wat een groter verschil met 8 modules oplevert. Dit is in ieder geval iets om bij het bekijken van de grafieken rekening mee te houden.

In alle grafieken zijn de prestaties van het nieuwe Westmere-gebaseerde Xeon X5680 en X5670 duo rood gekleurd. Bestaande Intel CPU's zijn blauw, AMD processors zijn groen.

Benchmarks: HPC (High Performance Computing)

SunGard AA 4.0

SunGard Adaptiv Analytics is een benchmark gebaseerd op de in de financiële wereld veel gebruikte software van SunGard. De door ons gebruikte benchmark is een gestripte versie van het volledige pakket. De software berekent op basis van het veel gebruikte Monte Carlo algoritme de toekomstige waarde van een fictieve aandelen portfolio. De resultaten van deze benchmark zijn een maat voor de prestaties voor servers zoals die bij grote financiële instellingen worden ingezet voor zware berekeningen.

De twee extra cores weten voor een mooie prestatiewinst te zorgen. De combinatie van twee X5570's Nehalem processors had 132,6 seconden nodig om de workload door te rekenen, de twee X5670's doen het in circa driekwart van de tijd: 100,3 seconden. Met de X5680's komen we op 88,9 seconden.

FlamMap FSPRO

De tweede benchmark die we onder het kopje HPC kunnen scharen is FlamMap FSPRO. Deze software wordt gebruikt om de verspreiding van bosbranden door te rekenen, opnieuw een taak waar servers flink hun tanden in kunnen zetten. Bij deze speciale testversie wordt een kleine workload doorgerekend. Onderstaande grafiek toont de resultaten.

Opnieuw weten de 6-core processors veel hogere prestaties neer te zetten. Twee X5570's hadden 256 seconden nodig om de workload door te rekenen, de twee X5680's doen het in 165 seconden.

Benchmarks: HPC (2)

Half-Life 2 Build Map

Wees gerust, we gebruiken niet het spel Half-Life 2 om een server te benchmarken. Maar wél een afgeleide ervan: van Valve, de makers van Half-Life 2, ontvingen we een benchmark gebaseerd op de code om de levels voor het populaire spel te compileren op basis van alle daarvoor genodigde data, zoals plattegronden, textures, belichtingsinformatie, en zo verder. Dit zijn workloads waarvoor ook bij Valve een rek servers staat te snorren. De benchmark bestaat uit alle berekeningen nodig voor een zeer klein level.

De snelste Nehalem CPU's voltooiden de berekeningen in 54 seconden. De nieuwe Westmeres doen het op hun beurt nog 9 seconden sneller.

Euler 3D

De Caselab Euler3D benchmark is gebaseerd op de gelijknamige software die gebruik wordt voor berekeningen aan fluid dynamics. De maker van de benchmark omschrijft hem op deze manier:

"The benchmark testcase is the AGARD 445.6 aeroelastic test wing. The wing uses a NACA 65A004 airfoil section and has a panel aspect ratio of 1.65, taper ratio of 0.66, and a quarter-chord sweep angle of 45º. This AGARD wing was tested at the NASA Langley Research Center in the 16-foot Transonic Dynamics Tunnel and is a standard aeroelastic test case used for validation of unsteady, compressible CFD codes. The CFD grid contains 1.23 million tetrahedral elements and 223 thousand nodes. The benchmark executable advances the Mach 0.50 AGARD flow solution."

Fluid dynamics is één van de veel gebruikte toepassingen waarvoor servers binnen HPC omgevingen worden ingezet. In onderstaande grafiek vind je de resultaten van de benchmark:

Opnieuw vinden we de twee Westmere CPU's bovenaan in de grafiek; de extra cores weten opnieuw

Bechmarks: 3D-rendering

Cinebench 10

Hoewel zeker geen server benchmark, hebben we ook twee 3D-rendering tests op de machines losgelaten. De reden is tweeledig; allereerst weten benchmarks als Cinebench en PovRay als geen ander het onderste uit de kan te halen qua processorprestaties. Verder zijn ze goed multi-threaded. Op die manier blijven de tests een mooi beeld schetsen van CPU prestaties. Daar komt nog eens bij dat servers in de praktijk wel degelijk ook voor 3D berekeningen worden ingezet: denk aan de beroemde films van bijvoorbeeld Pixar en Dreamworks, waar rijen vol met servers weken, zo niet maanden lang op aan het zwoegen zijn.

In onderstaande grafiek de resultaten van de bekende Cinebench 10 benchmark. Hier lopen we met de nieuwste generatie server CPU's tegen een limiet aan: Cinebench 10 schaalt naar maximaal 16 threads en in een dual-CPU Westmere systeem zijn er 24 virtuele processors. Desalniettemin krijgen we een niewe topscore van 36986 punten.

PovRay 3.7

In PovRay hebben we de Chess2 afbeelding gerenderd in een resolutie van 1280x1024 pixels. Povray schaalt wél uitstekend naar 24 threads en dat is te zien in de resulaten. Deed de Harpertown generatie er nog ruim 5 minuten over om de afbeelding te genereren, beide Westmere CPU-combinatie doen hetzelfde binnen drie minuten.

Linux: Parsec 2.1 (1)

Onder CentOS 5.4 Linux hebben we de Parsec 2.1 benchmark suite gedraaid. De set tests bevat een dertiental op servers gerichte benchmarks gericht op diverse gebruiksmodellen. Voor de tests maakten we gebruik van de standaard door de makers van Parsec beschikbaar gestelde x86_64 binaries. Op een enkele test na, schalen alle onderdelen van Parsec 2.1 keurig naar meerdere cores. Alle onderdelen rekenen een bepaalde workload door; de uiteindelijke score is in alle gevallen de tijd om de bepaalde taak af te ronden.

In de Parsec benchmarks hebben we naast de X5680, X5670, X5570 en X5470 processors ook een tweetal vier jaar oude Xeon E5130 processors opgenomen, om het prestatieverschil over een langere periode te bekijken.

Blackscholes

Blackscholes workload valt binnen de categorie financiële analyses. De test berekent de waarde van een fictieve aandeleportefeuille door volgens het blackscholes alfgoritme. Dergelijke berekeningen worden op dagelijkse basis uitgevoerd in de datacentra van grote banken. De snelste Westmere voltooid de berekeningen in 20% minder tijd dan de snelste Nehalems. Twee X5680 processors doen de blackscholes berekeningen ruim 4x sneller dan twee Xeon 5130 processors; voor deze workload zou je dus een viertal servers van vier jaar oud kunnen consolideren naar één nieuwe exemplaar.

Bodytrack

De bodytrack workload is gebaseerd op algoritmes om op basis van beelden van diverse camera's de beweging van een menselijk lichaam te volgen. De workload is vergelijkbaar met wat animatiestudio's gebruiken om menselijke beweging over te brengen naar 3D-modellen. Opnieuw blijkt dat de Westmere CPU's zo'n 4x hogere prestaties bieden dan de Woodcrest chips van vier jaar geleden. Het verschil tussen Nehalem en Westmere is relatief beperkt.

Canneal

De Canneal workload is gebaseerd op de berekeningen die nodig zijn voor het routeren van verbindingen bij het ontwerp van computerchips. Deze berekeningen voert Westmere in 21% minder tijd uit dan een gelijk geklokt Nehalem systeem. De Canneal test blijkt vooral te profiteren van een hoge geheugendoorvoersnelheid, getuige het grote verschil tussen de scores van de X5570 (Nehalem) en X5470 (Harpertown) CPU's.

Dedup

De Dedup test is gebaseerd op moderne datacompressie algoritmes, waarbij datastromen worden gecontroleerd op dubbele gegevens. Steeds meer backup software maakt gebruik van deduplicatie; een mooi voorbeeld in Windows Home Server dat identieke bestanden van verschillende PC's intern slechts één keer opslaat. Ook in op bedrijven gerichte backupoplossingen is deduplicatie tegenwoordig het toverwoord. De Westmeres blijken deze taak opnieuw een stuk sneller te kunnen uitvoeren dan hun voorlopers.

Facesim

De Facesim workload is gebaseerd op de natuurkundige berekeningen die benodigd zijn om de gelaatsuitdrukkingen van een menselijk gezicht op een realistische wijze te simuleren. Vergelijkbare algortimes worden gebruikt door animatiestudio's. Opvallend is dat in deze benchmark de X5570 Nehalem een beter resultaat neerzet dan de Westmere CPU's. Het hoe en waarom rond deze constatering vergt nog wat meer onderzoek.

Ferret

De Ferret workload is gebaseerd op moderne search enigine algoritmes, die geschikt zijn voor meer dan alleen tekst. Binnen deze test worden het vinden van vergelijkbare afbeeldingen in een zeer grote verzameling foto's. Deze benchmark geeft een goed beeld van de prestaties van een server wanneer deze voor search doeleinden wordt ingezet. We zien dat de Westmere processors dankzij de extra cores, maar vermoedelijk ook vanwege de grotere cache zeer snel aan datamining kunnen doen. De X5680 voltooit de test in 63% van de tijd die de X5570 nodig heeft. De vier jaar oude Xeon 5130 processors hebben voor dezelfde workload ruim 7 keer langer de tijd nodig.

Linux: Parsec 2.1 (2)

Fluidanimate

De Fluidanimate test is gebaseerd op algoritmes om de eigenschappen van vloeistoffen te berekenen, zoals gebruikt voor animaties. Hoewel het prestatieverschil relatief beperkt is, weten de Westmere chips ook hier de berekeningen sneller uit te voeren dan hun voorlopers.

Freqmine

De Freqmine test is net als Ferret gebaseerd op de algoritmes van nieuwe generatie search engines. In deze benchmarks wordt een grote dataset doorzocht op frequent terugkerende items. Als enige test binnen Parsec 2.1 is deze test met standaard compilatie niet multi-threaded. De Westmeres vinden we desalniettemin bovenin de grafiek, ondermeer dankzij de turbo-modus, de hoge klokfrequenties en de grotere L3-cache.

Raytrace

De raytrace workload berekent een zeer complexe 3D-afbeelding volgens een ray tracing algoritme, vergelijkbaar met wat bijvoorbeeld Pov-ray doet. Ray tracing is bij uitstek een taak die zeer goed over meerdere cores te verdelen is. Geen wonder dat de 6-core chips opnieuw als snelste uit de bus komen, zij het dat het prestatieverschil ons een beetje tegen valt.

Streamcluster

Ook deze benchmark is gebaseerd op data-mining algoritmes. De benchmark schaalt primair met de snelheid van het geheugen. Zodoende zij de X5670 en X5570 vrijwel even snel, maar is het verschil met de Harpertown generatie zonder geïntegreerde geheugencontroller gigantisch.

Swaptions

Swaptions is de tweede benchmark binnen Parsec die is gebaseerd op financiële analyses. Binnen deze test wordt de toekomstige waarde van een fictieve aandelenportefeuille berekend op basis van het Monte Carlo algoritme. Ook hier lopen we tegen de vreemde situatie aan dat de X5570 Nehalem CPU's om onduidelijke redenen sneller zijn dan de Westmeres.

Vips

De Vips benchmark is gebaseerd op beeldverwerkings algoritmes, zoals die worden gebruikt bij print-on-demand diensten. Ook bij deze benchmark zeer mooie resultaten voor de nieuwe 6-core chips. De vier jaar oude set Xeon 5130's doet zo'n 6x langer over het uitvoeren van dezelfde bewerkingen.

x264

De laatste test binnen Parsec bestaat uit het coderen van HD-video middels de overbekende x264 codec; server side encoding is een breed ingezette toepassing, waar bijvoorbeeld YouTube veel gebruik van maakt. Het is inmiddels bekend dat x264 zeer goed schaalt naar meerdere cores en dat zien we dan ook terug in de grafiek. De X5670 is zo'n 25% sneller dan de gelijk geklokt X5570. Vergelijken we de snelste Westmere met de vier jaar oude E5130, dan zien we opnieuw een verschil van ongeveer een factor 6.

Linux: HWI MySQL Benchmark v3

Traditiegetrouw hebben we ook de prestaties van het nieuwe platform gemeten wanneer het wordt ingezet als databaseserver. Speciaal voor deze test hebben we een nieuwe versie van onze MySQL-benchmark ontwikkeld. Versie 3 is gebaseerd op de database van onze zustersite StreepjescodeScanner.nl en bestaat uit het uitvoeren van queries om de prijsoverzichten bij bepaalde tekstuele zoekopdracht te bepalen. Op de site zijn deze queries ondermeer dankzij full-text search en query caching geoptimaliseerd. Voor deze benchmark zijn dergelijke optimalisaties uitgeschakeld, zodat we de ruwe SQL-prestaties kunnen meten. Bij iedere query bepalen we voor een willekeurige zoekopdracht - afkomstig uit de zoek logs van StreepjescodeScanner.nl - alle winkels die producten met vergelijkbare naam voeren; daarnaast berekenen we direct de juiste totaalprijs inclusief verzendkosten, de gemiddelde prijs, de laagste prijs en wordt vanuit een handvol andere tabellen alle informatie over de betreffende shops opgehaald. De prijstabel waarin gezocht wordt, bevat ruim 5 miljoen rijen. De workload bestaat op die manier uit het zoeken van data, het joinen van tabellen en het uitvoeren van berekeningen.

De MySQL test is uitgevoerd onder CentOS 5.4 met MySQL 5.1.44. Als storage engine maken we gebruik van InnoDB, waarbij we de buffer pool dusdanig groot hebben ingesteld dat de hele database inclusief alle indexen in het geheugen van de server past. Op die manier zorgen we ervoor dat de prestaties van de benchmark niet afhankelijk zijn van de snelheid van de gebruikte storage, iets wat we met behulp van Iostat hebben bevestigd. Voor het uitvoeren van de benchmark hebben we gebruik gemaakt van de mysqlslap utility, die bij MySQL wordt meegeleverd. We hebben de benchmark met vier verschillende concurrencies gedraaid: altijd 8 queries tegelijk, altijd 16 queries tegelijk, altijd 24 queries tegelijk en altijd 32 queries tegelijk. Vanzelfsprekend hebben we de database ruim een kwartier laten 'warmdraaien' alvorens de benchmark te draaien. Het resultaat is het aantal transacties dat de server per minuut kan verwerken.

Onderstaande grafiek toont de resultaten voor de Intel Westmere, Nehalem, Harpertown en Woodcrest processors. Helaas zijn de AMD servers niet meer in ons lab aanwezig, zodat we de nieuwe MySQL benchmark nog niet op AMD platforms kunnen uitvoeren.

De resultaten laten een perfecte schaling voor de nieuwe Westmere processors zien. Met 6 cores per CPU, HyperThreading en twee sockets heeft een Westmere server 24 virtuele processors. We zien dan ook dat de prestaties met de X5670 en X5680 processors blijven stijgen tot en met concurrency 24, waar de twee X5670 CPU's 700,7 transacties per minuut afleveren, en de twee X5680 CPU's 747,2 transacties per minuut. De X5570 Nehalem processors stabiliseren zoals te verwachten vanaf concurrency 16; twee keer quad-core met HyperThreading is immers 16 virtuele processors. De maximale score van de X5570's is 518,7 transacties per minuut. Als we Westmere en Nehalem op dezelfde klokfrequentie vergelijken (X5670 vs. X5570) dan blijken de Westmere chips op een drukke database server ruim 35% meer queries per tijdseenheid te kunnen leveren dan de Nehalem chips. De snelste Westmeres verwerken zelfs 44% meer queries.

Interessant in de grafiek is het grote verschil met oudere architecturen. De X5470's Harpertowns hebben met twee quad-cores zonder HyperThreading 'slechts' 8 cores in totaal en zodoende stijgen de prestaties niet meer boven concurrency 8. De hoogste score is 186,5 transacties per minuut, circa een kwart van wat Westmere weet te presteren. Bij onze Nehalem review vorig jaar concludeerden we het al: vooral de geïntegreerde geheugencontroller blijkt een zegen voor database servers.

Met de vier jaar oude dual-core Woodcrest chips komen we niet verder dan 114,7 transacties per seconde. Ergo; één state-of-the-art op X5680 CPU's gebaseerde server kan in theorie de database workload van een cluster van 6 servers van vier jaar oud overnemen. Een mooi gegeven voor wie z'n serverpark wil gaan consolideren.

Stroomverbruik

Prestaties is één, stroomverbruik is natuurlijk minstens net zo belangrijk. Met behulp van gekalibreerde EMU stroommeters hebben we het verbruik van de testopstellingen gemeten in een aantal scenario's: idle en 100% CPU-load (Cinebench 10) onder Windows en daarnaast zowel idle als tijdens onze MySQL benchmark onder Linux.

Om te beginnen met het stroomverbruik onder Windows Server 2008 in idle stand: we vinden Intels low-power Xeon uit de vorige Nehalem architectuur bovenaan in deze grafiek, maar verder blijft zeker ook AMD op dit vlak goed presteren. Het idle stroomverbruik van de nieuwe Westmere Xeons is vrijwel identiek aan de Nehalem X5570's.

Wat je je bij deze grafiek moet realiseren, is dat menig server in productieomgeving het gros van de tijd weinig tot niets te doen heeft en op nieuwe input wacht. De gemiddelde bedrijfsserver heeft tussen 17:00 en 9:00 geen werk, maar wordt niet uitgezet. Een webserver heeft in de nachtelijke uren een load die naar idle neigt. Hoe lager het idle stroomverbruik, hoe lager de energierekening. En zeker wanneer we over veel servers in een datacenter praten, kan dat aardig in de papieren lopen.

Bij volledige CPU-belasting (met behulp van Cinebench 10) blijkt dat de gelijk geklokte X5670 een stuk zuiniger is dan de X5570; meer cores en hogere prestaties met een lager stroomverbruik dus. De hoger geklokte X5680's komen op hetzelfde niveau als de X5570's.

Het gemiddelde stroomverbruik tijdens de database test is eigenlijk nog het meest interessant, aangezien bijna alle onderdelen van de server dan in gebruik zijn (CPU, geheugen, I/O). Ook hier zijn de nieuwe 6-core Xeon X5670's zuiniger dan de quad-core X5570's.

Performance per Watt

Het stroomverbruik is dus niet bepaald gedaald, maar één ding is nog belangrijker: de prestaties van een server in relatie tot het stroomverbruik, ofwel performance per watt. Die hebben we op basis van een tweetal tests bepaald. Allereerst hebben we de Cinebench 10 score gedeeld door het gemiddelde stroomverbruik tijdens deze test. De gekunstelde uitkomst van "Cinebench punten per Watt" is een prima maat voor de performance per watt bij HPC-achtige applicaties, waarbij voornamelijk de processor volledig belast wordt.

In de grafiek zien we dat de nieuwe Westmere chips een onovertroffen performance-per-watt verhouding behalen: we komen op 122,9 Cinebench punten per Watt. Daarmee gaat Intel de scores van AMD voorbij. Het verschil tussen Nehalem en Westmere is ook opvallend hoog; 122,9 voor de X5670's, 91,1 voor de X5570's, een stijging van 33,7%.

Eenzelfde berekening hebben we gedaan voor de MySQL benchmark. We hebben het aantal afgewerkte transacties per uur bij de best presterende concurrency gedeeld op het stroomverbruik. Ook hier blijkt Intel een flinke sprong te maken. De X5670's doen 132,2 transacties/uur/Watt, de X5570's doen er 95,8. Ofwel; een stijging van 38% in de performance-per-Watt. Bekijk vooral ook het verschil tussen de nieuwe Westmere chips en de vier jaar oude Xeon 5130's: in vier jaar tijd is de performance-per-Watt met een factor vier verhoogd!

Conclusie

Onze benchmarks bewijzen dat Intel haar beloftes met de nieuwe Westmere chips helemaal waar maakt. In onze database benchmark verwerken de op zelfde klokfrequentie werkende X5670 processors zo'n 35% meer queries per minuut dan de X5570's uit de vorige generatie. Bij de diverse andere benchmarks zien we geregeld vergelijkbare prestatiewinsten. Juist bij workloads die goed schalen naar meerdere cores, blijkt Intel met de overstap van vier naar zes cores een flinke stap vooruit te zetten. Maar we moeten er ook direct bijzeggen: bij workloads die minder goed schalen naar meerdere cores zijn de verschillen tussen Nehalem en Westmere natuurlijk stukken kleiner.

Verbeterde prestaties is slechts één kant van het verhaal. We hebben gezien dat het stroomverbruik ten opzichte van de Nehalem generatie niet (noemenswaardig) is toegenomen. De extra prestaties hebben zodoende geen impact op de stroomrekening voor het datacenter. Dat betekent goed nieuws voor de prestaties afgezet tegen het stroomverbruik. Vergelijken we opnieuw de gelijk geklokte X5670 en X5570 dan weet onze testserver met Westmere CPU's 33,7% meer Cinebench 10 punten per Watt te produceren dan met Nehalem CPU's. In onze MySQL test zien we een stijging van 38%.

De meeste bedrijven hebben voor hun servers een vervangingstermijn van tussen de 3 en 5 jaar. Dat maakt de vergelijking met de vier jaar oude dual-core Xeon 5130 processors zeer interessant. In onze MySQL benchmark weten de Westmere chips ruim 6x meer queries per tijdseenheid te verwerken dan de combinatie van twee 5130's. Bij diverse onderdelen van de Parsec-benchmark, vooral de op HPC-applicaties gerichte tests, zien we afhankelijk van de benchmark prestatiewinsten variërend van 300% tot aan 600%. Dat betekent dat in het beste geval zes bestaande servers geconsolideerd kunnen worden tot één nieuwe. Alleen al als we gaan rekenen aan het jaarlijkse stroomverbruik van een server is dat een investering die zich binnen no-time terugverdiend. En laten we niet vergeten; dankzij virtualisatie is het eenvoudiger dan ooit om verschillende bestaande servers te consolideren naar één nieuwe. Kijken we naar de prestaties-per-watt, dan blijken die bij een Westmere server een factor vier hoger te liggen dan bij de Xeon 5130's.

Omdat Westmere qua platform identiek is aan Nehalem, zal het serverfabrikanten niet veel tijd kosten om hun bestaande serveraanbod te vernieuwen met de nieuwe CPU's. Voor wie wil behoort zelfs het upgraden van bestaande servers tot de mogelijkheid, mits er een nieuwe BIOS voorhanden is.

Dankzij Westmere vergroot Intel haar voorsprong op AMD opnieuw. Toch hoeven we AMD nog zeker niet weg te strepen; op korte termijn zouden AMD's 12-core Magny-Cours processors op de markt moeten komen, ook voor het dual-processor segment waar de Westmere processors op zijn gericht. Hoewel AMD's productiekosten voor deze 12-core chip naar verwachting stukken hoger zijn, is het goed mogelijk dat men de markt voor 2-weg servers flink gaat opschudden. Vooralsnog is het echter Intel dat de lakens uitdeelt; zowel qua prestaties als performance-per-watt is Westmere op dit moment onverslaanbaar.


Besproken producten

Vergelijk alle producten

Vergelijk  

Product

Prijs

Intel Xeon X5670

Intel Xeon X5670

  • Socket 1366
  • 2.93 GHz
  • 6 cores
  • 95 W
  • 32 nm
Niet verkrijgbaar
Intel Xeon X5680

Intel Xeon X5680

  • Socket 1366
  • 3.33 GHz
  • 6 cores
  • 130 W
  • 32 nm
Niet verkrijgbaar
0
*