Sandy Bridge voor servers: Intel Xeon E5-2600 review

16 reacties
Inhoudsopgave
  1. 1. Inleiding
  2. 2. Sandy Bridge-EP
  3. 3. Cores
  4. 4. Quad-channel memory
  5. 5. Geïntegreerd I/O
  6. 6. Power management
  7. 7. Modellen
  8. 8. C600 chipset
  9. 9. Testplatform
  10. 10. Benchmarks
  11. 11. Benchmarks Windows: HPC
  12. 12. Benchmarks Windows: HPC (2)
  13. 13. Benchmarks Windows: 3D-rendering
  14. 14. Benchmarks Windows: Geheugenbandbreedte
  15. 15. Benchmarks Windows: Stroomverbruik
  16. 16. Benchmarks CentOS 6.2: Percona TPC-C MySQL benchmark
  17. 17. Benchmarks Ubuntu: Phoronix (1)
  18. 18. Benchmarks Ubuntu: Phoronix (2)
  19. 19. Benchmarks Ubuntu: Phoronix (3)
  20. 20. Conclusie
  21. 21. Besproken producten
  22. 22. Reacties

Inleiding

In de eerste week van 2011 introduceerde Intel haar nieuwe Sandy Bridge processorarchitectuur, in eerste instantie in de vorm van de Core i3/i5/i7 processors met Socket 1155-voet voor desktop PC's en diens notebook tegenhangers. Nu, ruim een jaar later, doet de architectuur ook zijn intrede in de dual-socket serverwereld, met de introductie van de Intel Xeon E5-2600 reeks processors.

Voor desktops betekent de kost van de Sandy Bridge-architectuur vanwege de vele interne verbeteringen een flinke stap voorwaarts voor wat betreft prestaties, maar vooral ook qua energievebruik. Zo'n zelfde stap vooruit maakt Intel nu ook bij servers, zoals we verderop zullen zien.

Heel eerlijk: de Xeon E5-2600 zien we eigenlijk niet voor het eerst. De halverwege november vorig jaar geïntroduceerde Sandy Bridge-E high-end desktop processors zijn in feite de server-chips die Intel nu voor hun primaire doel op de markt brengt, maar dan verpakt als consumentenproducten. In onze review van deze processors schreven we al dat veel aspecten van de nieuwe  high-end desktop processors, zoals bijvoorbeeld de quad-channel geheugencontroller, in een server omgeving veel beter tot hun recht komen. Daar komt bij dat Intel bij de desktop-varianten nog niet haar hele trucendoos had opengetrokken. Zoals de zevende en achtste core: iedereen weet dat ze stiekem in de chip zitten, maar bij de servermodellen zijn ze daadwerkelijk beschikbaar. Ook zaken als twee QPI-verbindingen voor snellere dual-socket systemen of verschillende RAS-features voor extra betrouwbaarheid zijn bij de Xeon E5-variant van de Sandy Bridge-E chip ingeschakeld.

In deze review doen we de techniek van de Xeon E5-2600 processorreeks uit de doeken. Daarnaast hebben we twee modellen uit de reeks, topmodel Xeon E5-2690 en zuiniger variant Xeon E5-2660, uitvoerig getest onder drie server besturingssystemen: Windows Server 2008 R2, CentOS 6.2 en Ubuntu Server 11. Onze set benchmarks beslaat onder meer een uitvoerige MySQL database benchmark, als ook diverse HPC-gerelateerde tests.

Intel Xeon E5 2660

Sandy Bridge-EP

De chip die de basis vormt voor de nieuwe Xeon E5-2600 serie processors staat bekend onder codenaam Sandy Bridge-EP en is de server variant van Sandy Bridge-E. De met 32nm transistors geproduceerde chip is flink: 2,27 miljard transistors heeft Intel verwerkt op een oppervlak van 434,7 mm². Ter vergelijking: Intels huidige reeks Xeons voor dual-socket servers, de Xeon X5600 Westmere serie, heeft 1,17 miljard transistors en meet 248 mm². Ook de vorige generatie was gebaseerd op 32nm transistors.

Veel meer transistors dus, wat betekent dat de Xeon E5-2600 reeks ook heel wat meer te bieden heeft dan de X5600 reeks. Het aantal cores is gestegen van zes naar acht. Die cores an sich zijn ook flink onder handen genomen, waarover verderop meer. Waar de Xeon X5600 processors een triple-channel DDR3-geheugencontroller aan boord hebben, biedt de Xeon E5-2600 reeks quad-channel. De hoeveelheid L3-cache geheugen is toegenomen van 12 MB naar 20 MB. En voor het eerst is niet alleen de geheugencontroller geïntegreerd, maar ook de I/O-controller. Net als bij de desktoptegenhanger, hebben de Xeon E5-2600 processors een geïntegreerde PCI-Express 3.0 controller met 40 lanes; daarnaast zijn er voor servers enkele speciale toevoegingen.

In bovenstaande afbeelding zie je de schematische opbouw van een dual-socket Xeon E5-2600 systeem en de rood gemarkeerde onderdelen zijn nieuw ten opzichte van de vorige generatie. Zoals geschreven: de twee extra cores, een vierde geheugenkanaal, een tweede QPI-verbinding tussen de twee chips en de geïntegreerde PCI-Express controller.

Net als bij de bestaande processors uit de Sandy Bridge generatie zorgt een ringbus ervoor dat alle onderdelen van de chip met elkaar kunnen communiceren. In de nieuwe Xeon chips vinden we een bi-directionele ringbus, met stops bij alle cores, bij de QPI-controller, bij het I/O-gedeelte en bij de geheugencontroller. Elke klokslag wordt data in pakketjes van 32 bytes per keer linksom of rechtsom over de ringbus naar andere onderdelen binnen de chip geloodst. De processor is bijzonder modulair opgebouwd: om 6-core of 4-core varianten te ontwikkelen kan Intel uiteraard cores uitschakelen, maar het ontwerp voorziet ook in de mogelijkheid om ze er letterlijk tussenuit te knippen om zo een kleinere en goedkopere chip over te houden.

Cores

De Sandy Bridge CPU-cores binnen de Xeon E5-2600 serie processor zijn gebaseerd op de Nehalem CPU-cores uit de vorige generatie Xeons, maar met een flink lijst verbeteringen. De HyperThreading en Turbo Boost technologieën van de vorige generatie zijn opnieuw aanwezig, al is zeker die laatste functie ook flink vernieuwd.

Een belangrijke vernieuwing is de ondersteuning voor de AVX-instructieset. Hierdoor kunnen processors getallen bestaande uit 256-bit in één keer verwerken. Oudere Xeon CPU's verwerken maximaal 128-bits in één keer. AVX bevat verder een twaalftal nieuwe instructies, waarvan een aantal geschikt is om te rekenen met drie operands, ofwel drie variabelen. Software moet voor AVX-gecompileerd zijn, maar zeker voor onderzoekscentra die vaak hun eigen HPC-software compileren zal dat niet de grootste uitdaging zijn.


Dankzij nieuwe AVX-instructie kunnen de nieuwe Xeons 256-bit getallen native verwerken.

Verschillende optimalisaties aan de cores zorgen ervoor dat de Xeon E5-2600 processors op dezelfde klokfrequentie en met hetzelfde aantal cores toch sneller zullen werken dan hun voorlopers. Zo bevat de Sandy Bridge architectuur een zogenaamde micro-Op cache, die vertaalde instructies opslaat en zodoende versneld opnieuw kan uitvoeren. Verder is het aantal verwerkingseenheden binnen de CPU die data van en naar het geheugen kunnen transporteren vergroot en heeft Intel de floating point rekeneenheden flink geoptimaliseerd. Een uitvoeriger bespreking van de vernieuwingen in de Sandy Bridge architectuur vind je in onze review van vorig jaar.

Belangrijk is dat Intel haar Turbo Boost functionaliteit flink heeft verbeterd. De vorige generatie Xeons kon alleen op hogere klokfrequenties werken wanneer niet alle cores in gebruik waren. Bij de nieuwe generatie wordt de klokfrequentie en dus de prestaties ook verhoogd wanneer alle cores in gebruik zijn, mist het stroomverbruik binnen gestelde limieten blijft. Het topmodel Xeon E5-2690, dat we voor dit artikel getest hebben, kan met alle cores in gebruik tot 400 MHz sneller gaan werken dan de basis klokfrequentie dan de 2,9 GHz waar de processor standaard op geklokt is. Wanneer slechts één core in gebruik is, kan de processor zelfs 900 MHz sneller gaan werken. De nieuwe Turbo Boost 2.0 functionaliteit kan de processor ook gedurende korte tijd boven de TDP laten werken, bijvoorbeeld na een een tijdje idle te zijn geweest. Dat kan voor een significante prestatiewinst zorgen bij workloads waarbij er een grote fluctuatie in belasting is.


Turbo Boost 2.0 kan de processor tijdelijk boven TDP laten werken.

Bij de vorige generatie Xeons schakelden veel serverbeheerders de Turbo-functie nog uit, omdat de (beperkte) extra prestaties vaak niet opwogen tegen het extra stroomverbruik. Bij de nieuwe generatie heeft Intel dat probleem van twee kanten aangepakt. Allereerst schalen de nieuwe Xeon veel beter met hogere klokfrequenties, aangezien de cores en de L3-cache nu op dezelfde klokfrequentie werken. Gaan de cores sneller werken, dan versnelt de L3-cache ook. Bij de vorige generatie Xeons werkte de L3-cache op een vaste, lagere klokfrequentie. Hoe hoger de CPU-cores zichzelf opvoerden, hoe groter de discrepantie met de L3-cache en hoe groter dus de relatieve latency. Daarnaast hebben de nieuwe Xeons vernieuwde technieken om sneller en accurater het stroomverbruik van de chips te managen, om zo ongewenste pieken te voorkomen. Hierover lees je verderop in deze review meer.

Quad-channel memory

De Xeon E5-2600 serie processor hebben een quad-channel DDR3-geheugencontroller aan boord, één kanaal meer dus dan de vorige generatie. Daarnaast is de maximaal ondersteunde klokfrequentie voor het geheugen verhoogd naar DDR3-1333 naar DDR3-1600. Waar bij de vorige generatie alleen een handvol van de duurste Xeon modellen de hoogste geheugensnelheid ondersteunen, vinden we DDR3-1600 support nu bij zo'n driekwart van de aangekondigde Xeon E5-2600 modellen.

Triple-channel DDR3-1333 heeft een maximale theoretische doorvoersnelheid van 32 GB/s per processor en dus 64 GB/s in een dual-socket systeem. Bij quad-channel DDR3-1600 is die maximale theoretische doorvoersnelheid 51,2 GB/s, in een dual-socket configuratie komen we dan uit op 102,4 GB/s. Een flinke stap vooruit.

De processors ondersteunen drie DIMM's per geheugenkanaal, zij het dat de maximale snelheid van DDR3-1600 enkel bij maximaal twee DIMM's per kanaal werkt. Met in totaal acht kanalen en drie slots per kanaal kan een dual-socket Xeon E5-2600 serie 24 geheugenslots bevatten. Gecombineerd met 16 GB DIMM's kun je op die manier 384 gigabyte geheugen in een server plaatsen. Anno 2012 kampen bedrijven met steeds grotere datasets en met dergelijke geheugenhoeveelheden blijft het voor veel partijen mogelijk hun hele database uit geheugen te draaien.

Voor wie nog meer geheugen nodig heeft en/of wie het stroomverbruik van servers verder wil terugbrengen, heeft Intel in samenwerking met onder meer Samsung een nieuw type DIMMs ontikkeld: LRDIMMs, wat staat voor Load Reduced DIMMs. Bij dergelijke geheugenmodules spreekt de geheugencontroller in de processor niet de geheugenchips rechtstreeks aan, maar loopt alle adressering en datacommunicatie via een repeater-chip op de geheugenmodule. Voordeel is dat de geheugencontroller minder stroom hoeft te leveren en dat er eenvoudiger DIMMs met een hogere capaciteit kunnen worden toegepast. Samsung heeft bijvoorbeeld als LRDIMMs met een capaciteit van 32 GB aangekondigd. Met drie per kanaal zou je zo 768 GB geheugen in een Xeon E5-2600 server kunnen plaatsen, nog altijd werkend op DDR3-1333 snelheid. Verderop in dit artikel lees je onze bevindingen met Samsung LRDIMMs met een capaciteit van 16 GB per stuk.


Bij LRDIMMs loopt alle communicatie via een soort repeaterchip op de geheugenmodule. Voordeel: lager stroomverbruik en hogere capaciteiten.


Samsung is één van de initiatiefnemers van de LRDIMM standaard. Wij gebruiken deze 16GB DDR3-1333 modules voor onze tests.


De speciale bufferchip is goed te zien op de modules.

Geïntegreerd I/O

De nieuwe Xeon zijn zoals geschreven de eerste server-processors voor dual-socket servers met een geïntegreerde PCI-Express controller. De nieuwe chips hebben een PCI-Express 3.0 controller met 40 lanes aan boord. Deze controller is zo opgebouwd dat de lanes naar wens gecombineerd kunnen worden naar verschillende combinaties van vier, acht of zestien lanes.

De integratie van de I/O-controller zorgt ervoor dat de latency tussen de processor en uitbreidingschips of -kaarten wordt verminderd. Waar communicatie bij Intels voorgaande serverplatform altijd nog via een chipset moest lopen, kan een RAID-controller of netwerkchip nu rechtstreeks communiceren met de CPU. Zeker bij zaken die een hoge bandbreedte vereisen, zoals een 10 Gigabit netwerkkaaart of een professionele RAID-adapter, kan het wegnemen van de chipset tussenstap potentieel voor een interessante prestatiewinst zorgen.

Bij de overstap van het vorige naar het nieuwe Xeon platform is het niet enkel de integratie van de PCI-Express controller die voor betere prestaties zorgt, ook de overstap van PCI-Express 2.0 naar PCI-Express 3.0 zorgt voor een verbetering. Wij hebben in ons eigen testlab geen geschikte apparatuur om de snelheid van PCI-Express verbindingen te testen, vandaar dat we het even moeten doen met een eigen test van Intel. In een presentatie zien we dat puur de integratie van de PCI-Express controller al een prestatiewinst in doorvoersnelheid van zo'n 40% bewerkstelligt. De overstap naar PCI-Express 2.0 naar 3.0 doet daar nog eens zo'n 32% bovenop. Met de extra lanes biedt het nieuwe platform volgens Intel tot 4,6x meer I/O-bandbreede over PCI-Express dan het vorige Xeon-platform.

Een belangrijke toevoeging is wat Intel Data Direct IO ofwel DDIO noemt. Hiervoor geschikte op PCI-Express gebaseerde apparaten kunnen rechtstreeks data uitwisselen met de L3-cache van de processor, zonder een omweg via het RAM-geheugen van de server te hoeven maken. Dat zorgt voor een veel snellere communicatie tussen CPU en externe controller, maar verbetert de prestaties van het algehele systeem ook nog eens doordat de geheugenbus niet onnodige gebruikt wordt en dus voor andere taken kan worden ingezet.

Eén van de eerste producten die gebruik maakt van DDIO is Intel eigen X540 dual-port 10 Gigabit LAN-controller. Onderstaande afbeeldingen laten zien hoe communicatie van en naar de netwerkcontroller dankzij DDIO met minder stappen en zonder tussenkomst van de geheugencontroller kan verlopen.

Power management

In de nieuwe Xeon E5 modellen heeft Intel enkele verregaande aanpassingen in het power management toegepast. Een van die zaken is dat het zogenoemde uncore gedeelte van de processor (ondermeer de L3-cache) nu in hetzelfde frequentie- en voltagedomein zit als de cores zelf. Een voordeel daarvan hadden we al gezien: als de cores dankzij turbo opschalen, doet de L3-cache dat ook. Maar andersom werkt het ook: als de cores in idles modus terugschakelen, gaan ook andere chiponderdelen in zuinigere stand werken. Dat maakt dat de klokfrequentie-stroomverbruik schaling een stuk steiler is geworden, zoals ook te zien in onderstaande afbeelding.

De processors passen dus automatische de klokfrequentie aan op basis van de benodigde rekenkracht en de ingestelde maxima voor wat betreft temperatuur en stroomverbruik. Ook uiteenlopende optimalisaties binnen de chip schakelen afhankelijk van het gebruik tussen gebalanceerde en maximale prestaties.

Wie meerdere Xeon E5-gebaseerde servers in één rek gebruikt en gebruik maakt van de Intel Node Manager software, kan profiteren van de nieuwe RAPL (Running Average Power Limit) technologie. Hierbij kun je aangeven hoeveel stroom een bepaald rek maximaal mag gebruiken. Dankzij RAPL kunnen de processors van verschillende servers binnen een fractie van een seconde op elkaar anticiperen, zodat er veel kleinere veiligsheidsmarge ingebouwd hoeft te worden.

Onderstaande afbeelding illusteert dat met een voorbeeld. Stel dat er in een datacenter een maximum is van 5 kW stroomvoorziening per rek. Meer stroom kan er simpelweg niet geleverd worden. Ook als je servers gemiddeld 350 watt verbruiken, zorgen mogelijke pieken tot 600 watt ervoor dat je feitelijk slechts 8 servers in het rek kan plaatsen om 100% zeker te zijn dat er nooit problemen zullen onstaan. Met traditionele implementaties van power limieten voor een rek servers kun je wel meer servers plaatsen, maar moet er een grote veiligsheidsmarge worden bewaard. Dankzij RAPL kunnen processors intern en onderling sneller anticiperen en zouden in hetzelfde rek volgens Intels voorbeeld 14 servers geplaatst kunnen worden.

Modellen

In totaal brengt Intel de Xeon E5-2600 reeks met 17 modellen op de markt. Het topmodel, dat wij ook getest hebben, is de Xeon E5-2690, die werkt met 8 cores, een basis klokfrequentie van 2,9 GHz en een maximale turbo frequentie van 3,8 GHz. De TDP van deze chip is 135 watt. Het tweede model dat we onderhanden namen is de zuinigere Xeon E5-2660, die eveneens met 8 cores werkt, maar dankzij een 2,2 tot maximaal 3,0 GHz klokfrequentie binnen de 95 watt blijft.

De E5-2690, -2680, -2670, -2665 en-2650 zijn alle 8-core modellen met 20 MB L3-cache en variaties in klokfrequentie en TDP. De E5-2640, -2630 en 2620 zijn 6-core modellen met 15 MB L3-cache en een geheugencontroller die op maximaal 1333 MHz werkt. De E3-2609 en -2603 zijn quad-core instapmodellen zonder HyperThreading, zonder Turbo en met alleen DDR3-1066 support.

Naast de genoemde is er een aantal bijzondere modellen. Zo is de E5-2687W puur gericht op workstations. Deze CPU heeft dan ook een TDP van 150 watt. Een aantal processors is verder meer geoptimaliseerd op hogere klokfrequenties dan op veel cores: de E5-2667, de E5-2643 en zeker de E5-2637. Die laatste heeft slechts twee cores en is gericht op klanten die kampen met dure per-core licenties voor hun software. Verder zijn er twee modellen die speciaal op energiezuinigheid zijn getuned: de E6-2650L is een 8-core met een 70W TDP en de E5-2630L is een 6-core met 60W TDP.

De processors maken alle gebruik van de Socket 2011 processorvoet, ook wel bekend als Socket R.

Xeon Freq. Turbo Cores HTT DDR3 Cache TDP 1k Price
E5-2690 2,9 GHz 3,8 GHz 8 Ja 1600 20 MB 135 W $2057
E5-2687W 3,1 GHz 3,8 GHz 8 Ja 1600 20 MB 150 W $1885
E5-2680 2,8 GHz 3,5 GHz 8 Ja 1600 20 MB 130 W $1723
E5-2670 2,6 GHz 3,3 GHz 8 Ja 1600 20 MB 115 W $1552
E5-2667 2,9 GHz 3,5 GHz 6 Ja 1600 15 MB 130 W $1552
E5-2665 2,4 GHz 3,1 GHz 8 Ja 1600 20 MB 115 W $1449
E5-2660 2,2 GHz 3,0 GHz 8 Ja 1600 20 MB 95 W $1329
E5-2650 2,0 GHz 2,8 GHz 8 Ja 1600 20 MB 95 W $1107
E5-2650L 1,8 GHz 2,3 GHz 8 Ja 1600 20 MB 70 W $1107
E5-2643 3,3 GHz 3,5 GHz 4 Ja 1600 10 MB 130 W $885
E5-2640 2,5 GHz 3,0 GHz 6 Ja 1333 15 MB 95 W $885
E5-2637 3,0 GHz 3,2 GHz 2 Ja 1600 5 MB 80 W $885
E5-2630 2,3 GHz 2,8 GHz 6 Ja 1333 15 MB 95 W $612
E5-2630L 2,0 GHz 2,5 GHz 6 Ja 1333 15 MB 60 W $662
E5-2620 2,0 GHz 2,5 GHz 6 Ja 1333 15 MB 95 W $406
E5-2609 2,4 GHz - 4 - 1066 10 MB 80 W $294
E5-2603 1,8 GHz - 4 - 1066 10 MB 80 W $198

C600 chipset

De Xeon E5-2600 processors worden op daarvoor geschikte dual Socket 2011 moederborden gecombineerd met de Intel C600 chipset, ook bekend onder de codenaam Patsburg. Deze C600 is in feite identiek aan de Intel X79 chipset zoals we die kennen uit de desktop wereld, maar dan met enkele extra server features ingeschakeld.

De basisuitrusting van de C600 chip bestaat uit 14x USB 2.0, 4x Serial ATA 300, 2x Serial ATA 600, een PCI-controller, 8x PCI-Express 2.0 x1 en HDA. Bij de X79 niet ingeschakeld, maar bij de C600 optioneel wel is een 8-poots SAS-controller (Serial Attached SCSI) met ondersteuning voor RAID 0, 1, 10 en 5. Om SAS met RAID 5 te gebruiken moet wel een speciale unlock key gekocht worden.

Hoewel het zowel bij de SATA-poorten als de SAS-poorten om een softwarematige RAID-oplossing gaat, werkt die volgens Intel wel goed onder alle Windows en Linux versies. Op die manier is het een kosteneffectieve manier om een server van een RAID-oplossing te voorzien. Zeker wanneer de workload van de server geen extreem hoge storage-prestaties vereist, kan software RAID in sommige gevallen een prima optie zijn.

Processor en chipset staan met elkaar in verbinding via een DMI2 verbinding, wat in principe PCI-Express 2.0 x4 is. De combinatie van twee Xeon E5-2600 processors met een C600 chipset noemt Intel het Romley platform. Onderstaande afbeelding laat zien hoe het totaalplaatje er uit ziet.

Testplatform

De servermoederbordentak van Intel heeft diverse dual-Socket 2011 borden klaar voor het nieuwe platform, gericht op verschillende gebruiksdoelen. Zo is het S2600IP (Iron Pass) moederbord ontwikkeld om zoveel mogelijk I/O-poorten te bieden, terwijl de S2600CR (Crown Pass) juist gericht is op workstations. De server die wij gebruikten om de prestaties van het nieuwe platform te analyseren is gebaseerd op het S2600GZ (Grizzly Pass) bord, dat speciaal ontwikkeld is voor goed gebruik in 2U-server en het maximale aantal van 24 DIMM-slots biedt.

De S2600GZ biedt naast twee Socket 2011 connectors en 24 DIMM-sloten onder meer twee PCI-Express 3.0 x24 slots, die gebruikt kunnen worden om op een riser-kaart een x16 en een x8 slot te plaatsen. Het bord heeft een onboard Intel quad Gigabit-LAN controller (Powerville). Dat maakt het bord direct interessant voor servers die voor virtualisatie ingezet gaan worden. Op het bord kunnen twee voedingen worden aangesloten en er zijn aansluitingen voor de in de C600-geïntegreerde 8-poorts SAS-controller. Het bord biedt verder uitgebreide Intel remote management tools.

Gebruikmakend van een Intel Server System R2000 behuizing, testten wij de S2600GZ in twee configuraties. Allereerst in combinatie met twee Intel Xeon E5-2690 (130W) processors en 128 GB (16x 8 GB) Samsung DDR3-1600 geheugen. De tweede configuratie bestaat uit twee Intel Xeon E5-2660 (95W) processors gecombineerd met 256 GB (16x 16 GB) Samsung DDR3-1333 LRDIMM geheugen. In alle gevallen maakten we gebruik van een Intel SSD 710 200GB voor storage.


Deze Intel R2000 server barebone met S2600GZ moederborden gebruikten we voor onze test.

Benchmarks

We hebben de nieuwe Xeon E5-2690 en -2660 processors getest onder drie server besturingssystemen. Onder Windows Server 2008 R2 hebben we enkele standaard benchmarks gedraaid, waarvan een aantal gericht op HPC-doeleinden. Een uitvoerige database benchmark draaiden we onder CentOS 6.2, gebaseerd op Redhat Enterprise Linux 6.2. Tenslotte draaiden we nog een flink aantal andere Linux-gebaseerde server benchmarks uit de Phoronix Test Suite op Ubuntu Server 11.

Zoals op de vorige pagina vermeld testten we de nieuwe Xeon processor in een server gebaseerd op het Intel S2600GZ moederbord. De krachtige Xeon E5-2690 combineerden we met 128 GB Samsung Registered DDR3-1600 geheugen, de zuinigere Xeon E5-2660 met 256 GB Samsung DDR3-1333 LRDIMMs. In beide gevallen maakten we gebruik van 16 geheugenmodules.


Twee Xeon E5 2690 processors met 128 GB Samsung DDR3-1600 geheugen op het Intel S2600GZ bord.

We vergelijken de prestaties ondermeer met een dual-socket server gebaseerd op twee Intel Xeon X5680 processors uit de vorige generatie (Westmere). De X5680's zijn de één na snelste Xeons uit deze vorige generatie. Hiervoor gebruiken we de ASUS R700-E6 serverbarebone, zoals besproken in onze review van de Westmere Xeons. Hoewel die testserver 'slechts' 24 GB geheugen bevat, hebben we ons vervan verzekerd dat de hoeveelheid geheugen geen impact heeft op de door ons geselecteerde benchmarks.

Van een aantal benchmarks die we al wat langer gebruiken hebben we ook resultaten van voorgaande serverplaforms. De X5570 is het topmodel uit de voorlaatste generatie (Nehalem), de X5470 van de generatie daarvoor (Harpertown). Helaas hebben we op dit moment geen vergelijkende benchmarks van het nieuwste AMD serverplatform (Interlagos), maar daar hopen we spoedig verandering in te kunnen brengen. Wel hebben we van een aantal oudere AMD server processors benchmarks.

Benchmarks Windows: HPC

SunGard AA 4.0

SunGard Adaptiv Analytics is een benchmark gebaseerd op de in de financiële wereld veel gebruikte software van SunGard. De door ons gebruikte benchmark is een gestripte versie van het volledige pakket. De software berekent op basis van het veel gebruikte Monte Carlo algoritme de toekomstige waarde van een fictieve aandelen portfolio. De resultaten van deze benchmark zijn een maat voor de prestaties voor servers zoals die bij grote financiële instellingen worden ingezet voor zware berekeningen.

De Xeon E5-2690 processors klaren de taak zo'n 30% sneller dan dan de Xeon X5680's uit de vorige generatie.

FlamMap FSPRO

De tweede benchmark die we onder het kopje HPC kunnen scharen is FlamMap FSPRO. Deze software wordt gebruikt om de verspreiding van bosbranden door te rekenen, opnieuw een taak waar servers flink hun tanden in kunnen zetten. Bij deze speciale testversie wordt een kleine workload doorgerekend. Onderstaande grafiek toont de resultaten.

FlamMap FSPRO schaalt niet goed naar 32 threads, wat verklaart waarom de score van het nieuwe serverplatform slechts beperkt sneller is dan die het vorige platform.

Benchmarks Windows: HPC (2)

Half-Life 2 Build Map

Wees gerust, we gebruiken niet het spel Half-Life 2 om een server te benchmarken. Maar wél een afgeleide ervan: van Valve, de makers van Half-Life 2, ontvingen we een benchmark gebaseerd op de code om de levels voor het populaire spel te compileren op basis van alle daarvoor genodigde data, zoals plattegronden, textures, belichtingsinformatie, en zo verder. Dit zijn workloads waarvoor ook bij Valve een rek servers staat te snorren. De benchmark bestaat uit alle berekeningen nodig voor een zeer klein level.

Ook van deze benchmark zullen we binnenkort helaas afscheid moeten gaan nemen, aangezien deze niet goed schaalt naar de vele cores van moderne CPU's.

Euler 3D

De Caselab Euler3D benchmark is gebaseerd op de gelijknamige software die gebruik wordt voor berekeningen aan fluid dynamics. De maker van de benchmark omschrijft hem op deze manier:

"The benchmark testcase is the AGARD 445.6 aeroelastic test wing. The wing uses a NACA 65A004 airfoil section and has a panel aspect ratio of 1.65, taper ratio of 0.66, and a quarter-chord sweep angle of 45º. This AGARD wing was tested at the NASA Langley Research Center in the 16-foot Transonic Dynamics Tunnel and is a standard aeroelastic test case used for validation of unsteady, compressible CFD codes. The CFD grid contains 1.23 million tetrahedral elements and 223 thousand nodes. The benchmark executable advances the Mach 0.50 AGARD flow solution."

Fluid dynamics is één van de veel gebruikte toepassingen waarvoor servers binnen HPC omgevingen worden ingezet. In onderstaande grafiek vind je de resultaten van de benchmark.

Euler3D schaalt zeer goed naar 32 threads en zodoende doen de Xeon E5 2690 processors de berekeningen bijna 40% sneller dan hun voorlopers.

Benchmarks Windows: 3D-rendering

Cinebench 11.5

Hoewel zeker geen server benchmark, hebben we ook twee3D-rendering tests op de machines losgelaten. De reden is tweeledig; allereerst weten benchmarks als Cinebench en PovRay als geen ander het onderste uit de kan te halen qua processorprestaties. Verder zijn ze goed multi-threaded. Op die manier blijven de tests een mooi beeld schetsen van CPU-prestaties. Daar komt nog eens bij dat servers in de praktijk wel degelijk ook voor 3D-berekeningen worden ingezet: denk aan de beroemde films van bijvoorbeeld Pixar en Dreamworks, waar rijen vol met servers weken, zo niet maanden lang op aan het zwoegen zijn.

In onderstaande grafiek de resultaten van de bekende Cinebench 11.5 benchmark. Met 24.17 punten presteert het nieuwe Xeon platform 40% beter dan het vorige.

PovRay 3.7

In PovRay hebben we de Chess2 afbeelding gerenderd in een resolutie van 1280x1024 pixels. Povray schaalt minder goed dan Cinebench. Het prestatieverschil is hier beperkt.

Benchmarks Windows: Geheugenbandbreedte

Met behulp van SiSoft Sandra hebben we de geheugenbandbreedte gemeten. Het vorige Intel Xeon-platform behaalde met triple-channel DDR3-1333 geheugencontrollers in de praktijk prestaties tussen de 35 en 37 GB/s. Alleen de AMD Opteron Magny-Cours set-up, met twee processors met quad-channel DDR3-1333 geheugen, ging daar overheen. We zien dat de opstelling met Xeon E5-2660's en twee maal quad-channel DDR3-1333 LRDIMM een fractie hogere geheugenprestaties biedt dan de Opterons: 50,7 GB/s. Met de Xeon E5-2690's en DDR3-1600 modules komen we op 74 GB/s.

Kijken we naar de gemiddelde toegangstijd voor het geheugen, dan is die ook drastisch afgenomen, onder meer te verklaren doordat de L3-cache, de toegangspoort tot het geheugen, bij de nieuwe processorarchitectuur op dezelfde klokfrequentie als de CPU-cores draait en door de hogere klokfrequentie van het geheugen.

Benchmarks Windows: Stroomverbruik

Met behulp van gekalibreerde EMU stroommeters hebben we het verbruik van de testopstellingen gemeten in tweetal scenario's bij de Windows benchmarks: idle en 100% CPU-load (Cinebench 11.5).

Om te beginnen met het stroomverbruik  in idle stand: we komen uit op 120 watt en daarmee is het nieuwe testplatform een fractie zuiniger dan het vorige. Enkele in het verleden geteste AMD serverplatforms deden het op dit vlak beter.

Wat je je bij deze grafiek moet realiseren, is dat menig server in productieomgeving het gros van de tijd weinig tot niets te doen heeft en op nieuwe input wacht. De gemiddelde bedrijfsserver heeft tussen 17:00 en 9:00 geen werk, maar wordt niet uitgezet. Een webserver heeft in de nachtelijke uren een load die naar idle neigt. Hoe lager het idle stroomverbruik, hoe lager de energierekening. Zeker wanneer we over veel servers in een datacenter praten, kan dat aardig in de papieren lopen.

Bij volledige CPU-belasting (met behulp van Cinebench) blijkt dat de nieuwe processors ondermeer dankzij hun Turbo Modus toch aardig wat stroom verbruiken. Onze meter slaat bij de nieuwe testserver uit tot 373 watt met de E5-2690's en de 16 normale DIMM's en tot 301 Watt met de E5-2660's en de LRDIMM's. Dat verschil van ruim 70 watt is flink.  Let wel; de twee nieuwe servers hebben veel meer DIMM's dan voorgaande testservers.

Belangrijker dan het pure stroomverbruik zijn natuurlijk de prestaties van een server in relatie tot het stroomverbruik, ofwel performance per watt. Om die te bepalen hebben we de Cinebench 11.5 score gedeeld door het gemiddelde stroomverbruik tijdens deze test en dat getal met 1000 vermenigvuldigd. De gekunstelde uitkomst van "Cinebench punten per watt" is een prima maat voor de performance per watt bij HPC-achtige applicaties, waarbij voornamelijk de processor volledig belast wordt.

Hier zien we dat Intel opnieuw een flinke stap vooruit heeft gezet. Met de Xeon X5680 testserver kwamen we op 54,2, met de nieuwe Xeon E5-2690 machine op 64,8: een verbetering van een kleine 20%, ondanks dat het aantal DIMM's met 10 is toegenomen. De Xeon E5-2660 opstelling met LRDIMM's biedt een fractie betere performance-per-watt.

Benchmarks CentOS 6.2: Percona TPC-C MySQL benchmark

Een van de meest gebruikte toepassingen voor dual-socket servers met veel geheugen is natuurlijk het draaien van databases. Om de prestaties op dit vlak in kaart te brengen, maakten we gebruik van de TPC-C MySQL benchmark van Percona. Het bedrijf Percona heeft een eigen versie van de populaire MySQL benchmark, die beter is geoptimaliseerd voor multi-processor systemen. De databaseserver van Hardware.Info maakt ook gebruik van Percona software. De Percona TPC-C software lijkt qua opzet erg op de officiële TPC-C benchmark die door serverbouwers wordt gebruikt. De officiële benchmark werkt echter met een immens grote dataset, zodat het behalen van een topscore daarmee alleen mogelijk is met peperdure storage systemen. Wij draaiden de Percona variant met 100 Warehouses, wat resulteert in een database van tussen de 10 en 15 gigabyte. Die database past in het geheugen van een server en zodoende speelt de storage oplossing vrijwel geen rol. Sowieso zorgen MySQL database-admins er in de praktijk indien mogelijk ook voor dat hun data binnen het geheugen van de server blijft passen om zo de hoogste prestaties te behouden.

TPC-C is een zogenaamde OLTP, ofwel On-line Transaction Processing benchmark. TPC-C simuleert een complexe handelsomgeving, inclusief het inboeken en verwerken van orders, het verwerken van betalingen, het controleren van de status van orders en het bijhouden van voorraden in magazijnen.

We maakten gebruik van de Percona 5.5.20 databaseserver, gebaseerd op MySQL 5.5.20. Wij draaiden de benchmark met respectievelijk 4, 8, 12, 16, 24, 32, 48, 64 en 96 gelijktijdige connecties. Telkens draaiden we de benchmarks voor 10 minuten en iedere instelling hebben we drie maal gedraaid en daarna een gemiddelde genomen. De benchmark meet hoeveel transacties gemiddeld per seconde verwerkt kunnen worden.

Het vorige generatie Xeon-platform stopt met schalen bij 16 gelijktijdige transacties en behaalt nipt de beste score bij concurrency 48: 87.453 transacties per minuut. De server met twee Xeon E5 2690 processors blijft schalen tot concurrency 48 en komt daar uit op 119.187 transacties per minuut: 36% betere prestaties dus. Vanaf concurrency 64 zakken de prestaties wel weer een beetje in. De zuinigere opstelling met twee Xeon E5 2660 processors en de Samsung LRDIMMS valt er tussenin en piekt op 96.418 transacties per minuut.

Met een professionale EMU stroommeter hebben we bij concurrency 48, waar alle drie de platforms de beste prestaties halen, gedurende 10 minuten het gemiddelde stroomverbruik gemeten. De server met twee Xeon E5 2690 processors verbruikt gemiddeld net wat minder stroom dan onze testserver met twee vorige generatie Xeon X5680 CPU's. Zeker wanneer je bedenkt dat in de nieuwe server veel meer DIMM's zitten (16 in plaats van 6) is dat indrukwekkend. De Xeon E5 2660 opstelling met LRDIMM's is een kleine 20 watt zuiniger.

Berekenen we de performance-per-watt, dan komen we voor het oude platform op 353 TpcM/W en voor het nieuwe op 487 tpCM/W: een verbetering van 38%.

Ter volledigheid: we gebruikten onderstaande configratie voor Percona 5.5:

[client]
socket=/var/lib/mysql/mysql.sock
[mysqld]
socket=/var/lib/mysql/mysql.sock
skip-grant-tables
server_id=1
local_infile=1
datadir=/var/lib/mysql/
innodb_buffer_pool_size=24G
innodb_data_file_path=ibdata1:10M:autoextend
innodb_file_per_table=1
innodb_flush_log_at_trx_commit=2
innodb_log_buffer_size=8M
innodb_log_files_in_group=2
innodb_log_file_size=2000M
innodb_thread_concurrency=0
innodb_flush_method=O_DIRECT
innodb_write_io_threads=8
innodb_read_io_threads=8
innodb_io_capacity=500
max_connections=3000
query_cache_size=0
skip-name-resolve
table_cache=10000

Benchmarks Ubuntu: Phoronix (1)

Onder Ubuntu Server 11 hebben we een aantal van de benchmarks uit de Phoronix Test Suite gedraaid. Hierbij hebben we ons puur gericht op benchmarks die ofwel een duidelijk relatie hebben met een servergebruiksmodel, ofwel benchmarks die zeer goed schalen naar veel CPU-cores. De Phoronix Test Suite draait benchmarks net zo lang totdat er minimaal drie runs zijn waarbij de score afwijkingen binnen vooraf bepaalde marges vallen. De uiteindelijke score is een gemiddelde van deze runs. Omdat we deze benchmarks pas vanaf deze review gebruiken, hebben we enkel resultaten van het nieuwe platform, aangevuld met het vorige Xeon platform.

Apache - Static Web Page Serving

Deze benchmark meet hoeveel statische webpagina's een standaard, niet getunede installatie van de Apache webserver op Ubuntu server per seconde kan leveren. Met het nieuwe platform komen we op 22818 req./sec., met het vorige op 17064 req./sec. Een prestatieverbetering van een kleine 34%.

NGINX - Static Web Page Serving

Deze benchmark doet hetzelfde, maar dan met de NGINX webserver. Ook hier een prestatieverbetering van zo'n 20%.

C-Ray

C-ray is een raytracing engine voor Linux die goed schaalt naar meerdere cores. De benchmark meet hoe lang het duurt om een bepaalde 3D-afbeelding te renderen. De twee Xeon E5-2690's klaren deze taak zo'n 15% sneller dan hun voorlopers.

7-Zip Compression Speed Test

Deze benchmark meet de prestaties van de multi-threaded 7Zip datacompressie software onder Linux. 56.765 miljoen instructies per seconde is het nieuwe platform zo'n 32% sneller dan het vorige.

Benchmarks Ubuntu: Phoronix (2)

x264 Video Encoding

Deze benchmark meet de prestaties van de multi-threaded x264 video encoder. Toch zien we ook hier dat schalen naar 32 threads er voor dergelijke, meer workstation gerichte taken niet in zit. Zodoende is het prestatieverschil met de vorige generatie beperkt.

Linux Kernel Compilation

Deze benchmark meet hoelang het duurt om de Linux kernel volledig te compileren vanaf broncode met de GCC-compiler. Dit gebeurt multi-threaded, maar schaalt absoluut niet geweldig naar heel veel cores. Desalniettemin zien we toch een flinke prestatieboost: de kernel is zo'n 22% sneller voltooid dan bij de vorige generatie.

John the Ripper

John the Ripper is een tool die gebruikt kan worden om een database met wachtwoorden te kraken. De software berekent op volle snelheid verschillende soorten hashes. Dit is een uitstekend voorbeeld van software die goed schaalt met zowel hogere klokfrequentie als met meer cores. De John the Ripper benchmark kan verschillende hashes berekenen, waaronder DES, MD5 en en Blowfish. Het resultaat van de DES-test is niet zo interessant, maar zeker MD5-hashes worden (helaas) nog veel te vaak op websites gebruikt. Kon Intels vorige platform nog zo'n 196 duizend hashes per seconde berekenen, het nieuwe platform doet er ruim 250 duizend per seconde (+ 27,5%). Maar goed dat Hardware.Info een tijd geleden is overgestapt van MD5 naar bcrypt. Bij het complexere Blowfish zien we een prestatie toename van ruim 26%.

Benchmarks Ubuntu: Phoronix (3)

NASA NAS Parallel Benchmarks

Tenslotte hebben we de NAS Parallel Benchmarks suite, ontwikkeld door NASA, gedraaid. Dit zijn stuk voor stuk benchmarks gebaseerd op algoritmes gebruikt in computational fluid dynamics (CFD) rekenmodellen, die NASA zelf gebruikt op haar grote rekenclusters. Een uitgebreidere beschrijving van de verschillende onderdelen is te vinden op deze link. De algoritmes zijn alle geoptimaliseerd om op meerdere processors te draaien en zodoende geven de resultaten van de NAS Parallel Benchmarks een mooi beeld van de prestaties van een serverplatform in een HPC omgeving. Het resultaat is telkens het aantal berekeningen dat per seconde uitgevoerd kan worden (Mops = Million operations per second). We zien dat bij sommige workloads de prestaties meer dan verdubbelen ten opzichte van het vorige Xeon-platform.

Conclusie

Met maximaal 8-cores, 256-bit AVX-instructies, quad-channel geheugen en geïntegreerde PCI-Express 3.0 I/O-verbindingen, zet Intel een flinke stap vooruit met haar dual-socket server platform. Of workloads nu meer afhankelijk zijn van pure rekenkracht, van snelle geheugencommunicatie of juist van snellere I/O, in alle gevallen biedt de nieuwe Sandy Bridge architectuur duidelijke voordelen boven Intels voorgaande serverplatform.

Dat zien we ook terug in onze testresultaten. Bij HPC-applicaties zien we prestatietoenames van enkele tientallen procenten met uitschieters ver daar boven. Ook bijvoorbeeld onze database benchmark toont een prestatieverschil van 36% met de vorige generatie. De performance-per-watt is ook duidelijk toegenomen volgens onze testresultaten, zowel bij tests die puur lenen op CPU-rekenkracht als bij minstens net zo veel van geheugenbandbreedte profiterende database benchmarks. Wanneer we bedenken dat onze testservers van het nieuwe platform veel meer DIMM's hebben - die uiteraard ook allemaal stroom verbruiken - dan zijn de op de voorgaande pagina's getoonde verschillen op dit vlak zeker indrukwekkend te noemen. Juist die verbeterde performance-per-watt, maar ook de mogelijkheid om mede dankzij LRDIMM's veel meer geheugen in een dual-socket server te plaatsen, zal een impuls zijn om oudere servers te upgraden naar nieuwe exemplaren gebaseerd op Xeon E5's.


Besproken producten

Vergelijk alle producten

Vergelijk  

Product

Prijs

Intel Xeon E5 2660

Intel Xeon E5 2660

  • Socket 2011
  • 2.2 GHz
  • 8 cores
  • 95 W
  • 32 nm
Niet verkrijgbaar
Intel Xeon E5 2690

Intel Xeon E5 2690

  • Socket 2011
  • 2.9 GHz
  • 8 cores
  • 135 W
  • 32 nm
Niet verkrijgbaar
0
*