Rechercher dans ce blog

Tuesday, September 27, 2022

Centaur CHA im Test: Der letzte x86-Prozessor seiner Art - Golem.de - Golem.de

Weil Centaur von Intel übernommen wurde, ist der CHA-Chip nie erschienen. Ein achtkerniger Prototyp gewährt dennoch spannende Einblicke.

Ein Test von
Der Centaur CHA und ein Zentaur
Der Centaur CHA und ein Zentaur (Bild: Martin Wolf/Golem.de)

Manchmal steht nach einigen Dekaden am Ende nur eine Pflichtmitteilung an der Börse: "Intel zahlt 125 Millionen US-Dollar an Centaur", hieß es beim Taiwan Stock Exchange im November 2021. Damit war Centaur Technology ebenso Geschichte wie das Wesen der griechischen Mythologie. Und wie dieses eine Mischung aus Mensch und Pferd darstellt, war auch der letzte Prozessor von Centaur eine Kombination aus zwei Ansätzen.

Wer an die x86-Befehlssatzarchitektur denkt, hat heutzutage primär Intel und AMD im Kopf. Tatsächlich aber gab es einst viele Anbieter und Lizenznehmer, etwa Cyrix oder Transmeta - die es alle längst nicht mehr gibt. Einzig Via Technologies aus Taiwan mit dem 1999 übernommenem Centaur Technology als CPU-Team blieb als dritter Markteilnehmer erhalten, bis Intel vor einigen Monaten zugriff.

Für den von Centaur entworfenen und 2019 angekündigten CHA-Prozessor bedeutete dies, dass er nach mehreren Jahren Entwicklungszeit kurz vor der Finalisierung eingestampft wurde. Statt aber rein aus CPU-Kernen zu bestehen, hatte Centaur mit dem Ncore einen für künstliche Intelligenz gedachten Beschleuniger in den Chip integriert.

Kleiner und sparsamer als die Mitbewerber

Bisherige Designs des 1995 unter anderem von dem IBM-Fellow Glenn Henry gegründeten Teams unterscheiden sich deutlich von denen anderer x86-Anbieter: "Die Prozessoren sind zwar ISA-kompatibel, ihre Architektur ermöglicht aber signifikant kleinere und signifikant sparsamere Chips als die von AMD oder Intel", sagte Henry bei der Beschreibung der 2008 vorgestellten Isiah-Architektur (PDF). Frühere Modelle, etwa der Nano oder der Eden C4650 mit Isiah-2-Architektur, benötigen zumeist weniger als 30 Watt.

  • Der Centaur CHA mit Quadchannel-Interface (Bild: Marc Sauter/Golem.de)
Der Centaur CHA mit Quadchannel-Interface (Bild: Marc Sauter/Golem.de)

Die Arbeiten an Isaiah (CNQ) und Isaiah 2 (CNR) samt Fertigungsprozessen von 65 nm bis zu 28 nm führten Centaur zu einer neuen Microarchitektur, der CNS. Sie bildete die Basis für acht Kerne ohne SMT: Neben 32 KByte an L1-Caches gibt es 256 KByte L2 pro Core und 16 MByte L3 für alle; ein μOp-Cache fehlt. Im Frontend werden vier statt drei Befehle pro Takt decodiert und das Backend wird über zehn statt sieben Ports angesteuert. Centaur spricht daher völlig zu Recht grob von Haswell-Niveau (Core i7-4770K).

CNS unterstützt AVX-512 und AVX-32.768

Die Anzahl und Fähigkeiten der Ausführungseinheiten gehen jedoch teils weit darüber hinaus: Die CNS-Architektur beherrscht die AVX-512-Befehlsatzerweiterung, die Intel derzeit einzig bei den Xeon-CPUs für Server unterstützt und die von AMD erst kürzlich mit den Ryzen 7000 eingeführt wurde. Centaur nutzt zwei Taktzyklen, wie AMDs Raphael auch - Intels Prozessoren hingegen schaffen AVX-512 in einem Rutsch. Ein Xeon Platinum 8380 mit 280 Watt muss dafür aber auch von 2,3 auf 1,8 GHz heruntertakten.

  • Die-Shot, Latenzen und Bandbreite des Prozessors (Bild: Marc Sauter/Golem.de)
Die-Shot, Latenzen und Bandbreite des Prozessors (Bild: Marc Sauter/Golem.de)

Hinter Centaurs Ncore alias CT-AIC steckt ein Beschleuniger, der mit 20 TByte/s auf 16 MByte an SRAM-Puffer zugreifen und 4.096 Berechnungen in einem Zyklus erledigen kann, was in einer sehr kurzen Latenz für Inferencing resultiert - wichtig etwa für Sprache. Weil das Design für INT8 ausgelegt ist, spricht Centaur-Gründer Henry scherzhaft von AVX-32.768 für 6,83 Teraflops (BF16) oder 20,48 Teraops (INT8). Der Ncore ist mit den CPU-Kernen via 512-Bit-Ringbus verbunden, er soll auf 320 GByte/s kommen.

Schauen wir uns an, was sich sonst noch im Chip befindet und wie er gefertigt wird. Beides ist wichtig, um zu verstehen, warum Centaur bei den meisten Entwicklerplatinen auf ein Sockel-Design und einen Kühler von Intel setzt.

Neben den acht CPU-Kernen und dem Ncore hat Centaur noch 44 PCIe-Gen3-Lanes sowie einen DDR4-Speichercontroller für vier Kanäle untergebracht. Der daraus resultierende Chip wird als CHA bezeichnet, er misst 194 mm² und wurde von TSMC im 16FFC-Verfahren (FinFet Compact) produziert. Der Octacore-Cluster kommt dabei auf rund 63 mm², der Ncore-Block auf etwa 34 mm² und die DDR4-Phys auf knapp 31 mm².

Centaurs CHA ist somit angesichts von 16FFC ein sehr kompakter Prozessor verglichen mit dem, was AMD und Intel bauen: Ein ebenfalls achtkerniger Ryzen 7 1800X (Summit Ridge) mit Samsungs 14LPP kommt auf 213 mm² und ein achtkerniger Core i9-9900K (Coffee Lake R) mit Intels 14++ auf rund 180 mm² - beide wohlgemerkt mit einem halb so breiten Speicherinterface und ohne einen Beschleunigerblock wie den Ncore.

Da wundert es doch ein wenig, dass Centaur ein riesiges Package verwendet - auf dem der kleine Chip ziemlich verlassen aussieht. Der verwendete Sockel entspricht mechanisch dem LGA 2011-3 für Intels Broadwell-EP (Core i7-6950X), selbst die Nasen und die Menge an Pins sind identisch. Elektrisch sowie von der Firmware-Unterstützung her sind beide Prozessorgenerationen allerdings wenig überraschend nicht kompatibel.

Prototyp erreicht noch nicht den beworbenen Takt

Aufgrund der vier Speicherkanäle ist der LGA 2011-3 eine logische Wahl, entsprechende Sockel wurden ohnehin produziert. Hinzu kommt, dass sich passende Kühler leicht montieren lassen - Centaur selbst verwendete gerne den TS13A, also Intels Boxed für diese Plattform. Alle Prototypen sind für mindestens 2 GHz bei 1,1 Volt validiert - unser Muster schafft stabile 2,2 GHz bei 1,2 Volt. Die von Centaur beworbenen DDR4-3200 erreichen wir aber keinesfalls, mehr als DDR4-1600 bootet nicht.

  • Neben zwei PEG- gibt es auch zwei M.2-Steckplätze. (Bild: Marc Sauter/Golem.de)
Neben zwei PEG- gibt es auch zwei M.2-Steckplätze. (Bild: Marc Sauter/Golem.de)

Für den Test kam Centaurs Referenzplattform in der C-Revision zum Einsatz: Neben der CPU lassen sich mindestens 64 GByte RAM (mehr haben wir nicht ausprobiert) in die acht Quadchannel-Slots einsetzen, zudem zwei per PCIe Gen3 x4 angebundene NVMe-SSDs in den dafür vorgesehenen M.2-Einschüben. Für Grafik- und Steckkarten gibt es zwei PCIe x16 sowie drei PCIe x1, womit die Platine die 44 Lanes des Prozessors voll nutzt.

Chinesischer Partner für das Mainboard

Spannend ist die Southbridge für I/O wie die vier Sata-Ports und USB 3.2 Gen2: Es handelt sich dabei um einen ZX-200-Chip von Zhaoxin. Dieser chinesische Hersteller, hinter dem die Lokalregierung Shanghais steht, betreibt mit Centaurs ehemaligem Mutterkonzern Via Technologies ein Joint Venture, aus dem der x86-basierte KX-U6780A (Test) hervorging. Für ihn hatte Zhaoxin die Isiah-2-Technik deutlich weiterentwickelt, zudem wurde das Design zugunsten höherer Frequenzen von 28 nm auf 16 nm portiert.

  • ... werden durch Zhaoxins ZX-200 gestellt. (Bild: Marc Sauter/Golem.de)
... werden durch Zhaoxins ZX-200 gestellt. (Bild: Marc Sauter/Golem.de)

Apropos Takt: Bei 2,2 GHz und 1,2 Volt erhitzt sich unser Centaur CHA mit dem Intel TS13A auf bis zu 84 Grad unter Last, was angesichts von Wärmeleitpaste statt Lot zwischen Chip und Heatspreader sowie besagtem Kühler ein zu erwartendes Resultat war. Das komplette System braucht inklusive Geforce GT 1030 rund 54 Watt im Leerlauf und 65 Watt bei Last auf einem Kern - rechnen alle, steigt die Leistungsaufnahme auf 137 Watt.

Mit grob zehn Watt pro Kern ist die Zentauren-CPU sehr sparsam, ein Ryzen 7 5800X benötigt rund 35 Watt und ein Core i7-12700K etwa 40 Watt. Der Centaur CHA bewegt sich viel eher etwas oberhalb eines Atom-Chips von Intel, auch was die Performance anbelangt - und damit weiter zu den Benchmarks.

Bevor wir zu den Vergleichen mit AMD, Intel, Via sowie Zhaoxin kommen, noch ein paar generelle Messungen: Centaur hat verglichen mit anderen x86-CPUs relativ langsame Caches, deren Datentransferrate ebenfalls nicht sonderlich hoch ausfällt. Dafür ist hervorzuheben, dass es sich beim CHA-Prozessor um ein Octacore-Design handelt, bei dem die Latenz zwischen allen Kernen mit etwa 40 ns identisch ausfällt.

AMDs Zen1 und Zen2 sowie Zhaoxins KX-6000 hingegen nutzen bei ihren Octacore-Designs zwei Quadcore-Cluster, was die Zugriffszeiten zwischen diesen Kernpaketen verschlechtert. Bezüglich der RAM-Geschwindigkeit können wir vermerken, dass mit vier DDR4-1600-Kanälen praktisch bis zu 43 GByte/s erreicht werden - angesichts von theoretisch bis zu 51,2 GByte/s bei einer solchen Konfiguration ist das in Ordnung. Aktuelle x86-Modelle anderer Hersteller schaffen mit DDR4 oder gar DDR5 trotz Dualchannel deutlich mehr.

Was die CPU-Performance angeht, schlägt sich der Centaur CHA mit 2,2 GHz in 16 nm angesichts der niedrigen Leistungsaufnahme ziemlich gut: Er landet pro Kern taktnormiert tatsächlich in etwa auf dem Niveau eines Haswell-Chips, absolut betrachtet tut er sich aber selbst gegen einen uralten Core i7-2600K (Sandy Bridge) schwer. Die Singlecore-Werte des Cinebench R20 und des Geekbench 5 legen nahe, dass sich die CNS-Kerne des Zentauren mit den Tremont-Cores von Intels aktuellen Atoms vergleichen lassen.

  • Geforce GT 1030, 32 GByte DDR3/DDR4, Windows 10 21H2 (Bild: Golem.de)
Geforce GT 1030, 32 GByte DDR3/DDR4, Windows 10 21H2 (Bild: Golem.de)

Generell auffällig ist, dass der y-Cruncher auf dem CHA-Chip enorm flott läuft. Das kommt allerdings nicht überraschend, da hier die Berechnung der Zahl Pi im Speicher abläuft (In-Memory-Computing) und insbesondere massiv von AVX-512 profitiert. Abseits von AMD und Intel hat uns noch interessiert, wie sich der Centaur CHA relativ zu anderen Prozessor-Designs des Anbieters schlägt: Der ältere Via C4650 mit vier Kernen erreicht nur ein Fünftel oder Viertel bis die Hälfte der Performance, der achtkernige Zhaoxin KX-U6780A ist trotz 2,7 GHz ebenfalls klar langsamer.

  • Geforce GT 1030, 16 GByte DDR3/DDR4, Windows 10 21H2 (Bild: Golem.de)
Geforce GT 1030, 16 GByte DDR3/DDR4, Windows 10 21H2 (Bild: Golem.de)

Leider gibt es keine Möglichkeit, den Ncore-Beschleuniger des Centaur CHA zu testen. Weder für Linux noch für Windows gibt es einen verfügbaren Treiber, wenngleich seitens des Herstellers durchaus Messwerte existieren: Bei MLPerf (Inference v0.5 Preview) finden sich einige Resultate vom November 2019. Während der Durchsatz nicht allzu gut aussah, war die Latenz bei Image Classification und Object Detection äußert gering - niedriger als Nvidias AGX Xavier oder zwei Xeon Platinum 9282 (CLX-AP).

Kommen wir zum Fazit - inklusive einer Einschätzung, warum Centaur wahrscheinlich von Intel übernommen wurde.

Wir haben den Centaur CHA inklusive Hauptplatine über einen Mittelsmann erworben, der seinerseits diverse solcher Kombinationen gekauft hatte. Möglich wurde dies durch die Versteigerung von Centaurs Equipment bei einer Auktion im texanischen Austin, bei der allerhand Test-Lab-Hardware unter den Hammer kam.

Fazit

Centaur hatte zwar seit jeher eine Nischenposition im CPU-Markt besetzt, diese aber über viele Jahre hinweg mit immer neuen Designs ausgefüllt. Der Ansatz, einen sparsamen wie flotten x86-Prozessor mit einem integrierten AI-Beschleuniger zu bestücken, um damit besonders schnelles und effizientes Inferencing zu betreiben, war durchaus clever.

Edge-Processing wird immer populärer, weil Daten direkt vor Ort verarbeitet, statt erst zum Cloud-Rechenzentrum geschickt zu werden. Bisher finden sich solche Designs primär im absoluten Low-Power-Segment, etwa Googles Edge TPU. Centaurs CHA ist jedoch eher mit Intels Atom-basiertem Snow Ridge vergleichbar, der ohne AI-Beschleuniger auskommt und 50 Watt (in 10 nm!) für acht Kerne bei 2,2 GHz benötigt.

In Austin befand sich nicht nur Centaurs Hauptquartier, auch AMD und Intel entwickeln hier Prozessoren. Aus Austin stammen die Atom- respektive E-Cores-Architekturen der vergangenen Jahre, bei denen der Fokus auf (Flächen)effizienz liegt. Für Intel war die Übernahme daher eine recht günstige Methode, das mit solchen Designs exzellent vertraute Centaur-Team in den eigenen Standort zu integrieren.

Gerade für ein Server-Design wie das aus E-Cores bestehende Sierra Forest könnte die Erfahrung hilfreich sein, um künftig besser gegen Prozessoren mit ARMs Neoverse-Plattform gewappnet zu sein. Auch hatte AMD im Sommer 2022 angekündigt, künftig die Epyc-CPUs mit integrierten AI-Beschleunigern von Xilinx auszurüsten. Centaur war mit dem CHA-Design samt Ncore seiner Zeit wohl einfach voraus.

Ein paar Worte zum Abschied: Nicht nur der CHA-Prozessor ist der letzte seiner Art, sondern auch dieser Marc-Test. Nach fast einer Dekade verlasse ich Golem und wechsle in die Industrie, gar nicht so weit vom ehemaligen Centaur-Team entfernt. An dieser Stelle daher ein großes Danke an das Golem-Team für alles, was ihr mir ermöglicht habt, und ein Danke an die Community für das oft einzigartige Feedback zu meinen Artikeln!

Adblock test (Why?)


Centaur CHA im Test: Der letzte x86-Prozessor seiner Art - Golem.de - Golem.de
Read More

No comments:

Post a Comment

Google: Pixel 8 Pro funktioniert nach Update als Fieberthermometer - Golem.de - Golem.de

Nach erfolgter Zulassung darf der Temperatursensor des Pixel 8 Pro ab sofort auch zum Fiebermessen bei Menschen verwendet werden. Rec...