Andreas Stiller

Prozessorgeflüster

Von schnellen Rittern und langsamen Pferden

Schon vor der Internationalen Supercomputer-Konferenz ISC12 in Hamburg will Intel die Aufmerksamkeit auf den speziell für High Performance Computing designten Chip Knights Corner lenken. Doch auch Konkurrent Nvidia startet gut gerüstet in das Turnier.

Damit das auch ein schöner Höhepunkt auf der Konferenz wird, hat Intel schon mal vorab einen Open Source Software Stack für den in 22-nm-Technik mit Trigate-Transistoren gefertigten Chip Knights Corner herausgegeben. Der Stapel enthält für Suse 11.1 und RHEL 6.2 entsprechend angepasste Kernel, Compiler (gcc) und so weiter. Mit zum Paket gehört das Knights Corner Instruction Set Reference Manual, das neben den Befehlssätzen auch ein paar Feinheiten der CPU-Architektur enthüllt. Die neuen Vektorbefehle waren zwar schon lange vorher als Larrabee New Instruction Set (LNI) bekannt, aber zum Innenleben des restlichen CPU-Kerns wusste man wenig. Es hieß nur, dass man von einem auf 64 Bit aufgebohrten altertümlichen Pentium-Kern auf einen etwas moderneren, mehr Atom-ähnlichen Kern wechselt, ausgestattet mit vierfachem Hyper-Threading.

Im CPUID findet man in Blatt 4 unter „Maximum number of processor cores in this physical package (minus one) = 61“, dass, wie hier schon vor längerer Zeit verpetzt, maximal 62 Prozessoren bei Knights Corner aktiv sind. Klar: Das Die hat insgesamt 64 Kerne, zwei verbleiben als Reserve. Die Kerne kennen weder MMX noch SSE und unterstützen nicht einmal die nützlichen P6-Befehle wie CMOV oder FCMOV. Selbst die I/O-Befehle IN/OUT hat man gestrichen, die werden wohl durch Memory mapped I/O ersetzt.

Dem Register für deterministische CacheParameter kann man zudem entnehmen, dass alle Caches achtfach assoziativ sind und sowohl der Instruktions- als auch der inklusive Datencache 32 KByte aufweisen (Atom hat derzeit nur einen sechsfach assoziativen, 24 KByte großen L1-Datencache). Der gemeinsame L2-Cache müsste gemäß diesem Registereintrag 512 KByte groß sein – dem widerspricht allerdings das Extended CPUID-Register auf 0x80000006, das lediglich 256 KByte vermeldet. Aber das ist nicht die einzige Unstimmigkeit im CPUID; so meldet es, dass der Prozessor keinen POPCNT-Befehl unterstützt, der ist nun aber explizit im Manual aufgelistet …

Teppichhandel


Lisa Su, AMDs wohl stärkste Kraft hinter Rory Read, stellt auf der Computex den Hoffnungsträger Trinity vor. Vergrößern
Zu einem anderen Thema verhalten sich Intel-Ansprechpartner immer leicht verschämt, ähnlich wie Vertreter des Außenministeriums bei Fragen zu bestimmten afghanischen Teppichen. Denn während gerade im High Performance Computing PCIe 3.0 angesagt ist, etwa um die schnellen InfiniBand-FDR-Karten von Mellanox anzutreiben, wird sich Intel diesbezüglich wohl recht lächerlich machen, wenn Knights Corner nur mit dem veralteten PCIe 2.0 herauskommt. So eine Chance zur vollen Breitseite wird sich Nvidia natürlich nicht entgehen lassen. Ihre Tesla K10 mit zwei GPUs (GK104) ist zwar nur für einfache Genauigkeit ausgelegt, das aber mit 4,6 TFlops Spitzenperformance recht heftig, und – na klar – mit PCIe 3.0 und 16 GByte/s Durchsatz. Man darf dabei nicht übersehen, dass es auch für Single Precision durchaus zahlreiche Anwendungen im HPC-Bereich gibt. Zudem wird Nvidia auf der ISC12 sicherlich kräftig mit der bereits angekündigten Tesla K20 mit GK110-GPU wedeln, die mit ordentlicher DP-Performance gegen Jahresende erscheinen soll.

Die derzeit wohl meistverkaufte PCIe-3.0-Peripherie dürften Grafikkarten mit AMDs Radeon HD79xx sein – dumm nur, dass für eigene Prozessoren und Chipsätze diesbezüglich nichts in naher Sicht ist oder schlimmer noch, dass vorhandene Pläne weiter nach hinten verschoben werden. Hyper-Transport ist für PCIe 3.0 eben einfach nicht schnell genug. Auf der Computex wurde nun der Trinity-Prozessor feierlich vorgestellt und auch dessen Desktop-Bruder A10-5800K für FM2-Sockel angekündigt – beide ohne PCIe-3.0-fähige Chipsätze. Und nach den „halbgenauen“ Informationen von Charly Demerijan von semiaccurate.com wird auch die nächste Prozessorgeneration Kaveri und Vishera ohne PCIe 3.0 auskommen müssen. Also, vor Ende 2013 kein PCIe 3 bei AMD, weder bei den Desktops-PCs noch bei den Servern.


Das Rechenzentrum der Uni Mainz hat sich für AMD Bulldozer im „Mogon“ entschieden: 2140 Interlagos-Prozessoren erreichen 287 TFlops Spitzenleistung. Vergrößern
Bild: Johannes-Gutenberg-Universität Mainz
So eine holprige Roadmap mit Umleitungen macht sich natürlich bei der kommenden Supercomputer-Konferenz nicht so gut, schließlich spielt hier der Interconnect eine zentrale Rolle. Immerhin konnte AMD in der Zwischenzeit mit dem Interlagos einige beeindruckende Verkaufserfolge erzielen – kein Wunder, wenn für etwa gleich schnelle Intel-Xeon-E5-Systeme mit ansonsten gleicher Ausstattung rund 40 Prozent mehr zu bezahlen ist. Das hat offenbar auch das Zentrum für Datenverarbeitung der Johannes-Gutenberg-Universität Mainz mit spitzem Bleistift ausgerechnet und sich ebenso wie das Höchstleistungsrechenzentrum Stuttgart (HLRS) für ein Interlagos-System entschieden. Mit 287 TFlops gehört nun der frisch eingeweihte Mainzer Rechner Mogon (benannt nach dem lateinischen Namen Mogontiacum für Mainz) zu den schnellsten in Deutschland. Die Spitze hierzulande nimmt zum Zeitpunkt kurz vor Redaktionsschluss noch der Cray-Supercomputer Hermit des HLRS ein – aber nur noch kurz, denn es gilt als sicher, dass das Leibniz-Rechenzentrum (LRZ) in Garching bei München seinen SuperMUC mit Intel-Xeon-E5-Prozessoren für die nächste, die 39. Top500-Liste der Supercomputer gemeldet hat. Mit seiner theoretischen Spitzenleistung von 3 PFlops dürfte er beim Linpack-Benchmark über 2,4 PFlops liegen. LRZ-Leiter Prof. Arndt Bode wird zudem eine Keynote auf der Konferenz halten und über die für Rechner dieser Größenordnung einzigartige Heißwasserkühlung des Systems und dessen Energieeffizienz berichten.

Weltweit dürfte dann wohl wieder ein amerikanisches System die Spitzenposition vor dem japanischen K Computer erobert haben. Sequoia ist jedenfalls nach Angaben des Betreibers, des Lawrence Livermore National Laboratory in Kalifornien fertig installiert. Und wenn schon alle Racks laufen, schaffen seine 1 572 864 BlueGene/Q-Kerne eine Spitzenleistung von 20 PFlops. Aber vielleicht gibt es ja noch eine Überraschung aus China. (as)

Copyright © 2013 Heise Zeitschriften Verlag