Sie sind hier: HomeThemenSmart ComponentsHalbleiter

Achronix: 7-nm-FPGAs mit Network on Chip

Fortsetzung des Artikels von Teil 1.

Network on Chip

Achronix Bildquelle: © Achronix

Speedster7t: FPGAs mit ASIC-ähnlicher Leistung

Um diese Einschränkungen zu umgehen, hat Achronix die sogenannten MLPs – Machine-Learning-Processors – entwickelt, die sich laut Mensor durch eine deutlich höhere Performance auszeichnen. Mensor: »Jeder MLP-Block umfasst ein Array mit bis zu 32 Multiplikatoren/Akkumulatoren sowie Embedded-Speicher. Jeder MLP ist konfigurierbar, um sich ändernde Algorithmen zu unterstützen, und beherrscht eine Vielzahl von Integer- und Gleitkomma-Formaten.«

Konkret unterstützen die MLPs die Ganzzahlformate von 4 bis 24 bit und verschiedene Gleitkomma-Modi, einschließlich der nativen Unterstützung des Bfloat16-Formats von Tensorflow, sowie eine Mixtur aus Integer und Floating-Point. Jeder MLP-Block im Speedster7t-Gewebe beinhaltet auch zwei Speicher, die fest mit den MAC-Blöcken verbunden sind. Dabei handelt es sich einerseits um ein 72 kbit großes SRAM und andererseits um 2 kbit große Register. Die Anzahl der verfügbaren MLP-Blöcke variiert je nach Baustein, kann aber bis in die Tausende gehen. Mensor weiter: »Dank der Kaskadierbarkeit von Speicher und MACs ist es auch bei großen Algorithmen nicht notwendig, FPGA-Ressourcen zu verbrauchen.«

Doch alle Rechenressourcen nutzen nichts, wenn nicht genügend Daten zur Verfügung gestellt werden können. Mensor: »Entscheidend ist also auch eine hohe Off-Chip-Speicher-Bandbreite. Speedster7t-Bausteine sind die einzigen FPGAs mit Unterstützung für GDDR6-Speicher. Jeder der bis zu acht GDDR6-Speicher-Controller unterstützt eine Bandbreite von 512 Gbit/s, sodass wir in der Summe auf 4 Tbit/s kommen, also eine vergleichbare Speicherbandbreite wie bei HBM-basierten FPGAs, allerdings nur bei 50 Prozent der Kosten.« Dazu kommen noch DDR4/DDR5-Kanäle.

Neben dieser hohen Speicherbandbreite verfügen die Speedster7t-FPGAs auch über diverse High-Speed-Schnittstellen: Bis zu 72 SerDes (Silicon Proven) mit 1 bis 112 Gbit/s sowie bis zu vier festverdrahtete Ethernet-Schnittstellen: 400G-Ethernet-MACs mit Vorwärtsfehlerkorrektur (FEC), die 4x100G- und 8x50G-Konfigurationen unterstützen (auch niedrigere Ethernet-Übertragungsraten sind möglich). Dazu kommen noch bis zu zwei festverdrahtete PCI-Express-Gen5-Controller mit bis zu 512 Gbit/s pro Port, die eine x8- oder x16-Konfiguration unterstützen.

Network on Chip

»Das integrierte NoC ist wie eine Autobahn, die über einem normalen Straßennetz liegt und den schnellen Verkehr übernimmt«, erklärt Mensor. Denn aus seiner Sicht reicht es nicht aus, eine hohe Rechenleistung und hohe Bandbreiten nach außen zu ermöglichen, sondern die Bausteine müssen auch Datenströme innerhalb des Bausteins effizient und schnell zwischen den verschiedenen Funktionsblöcken übertragen können. Und das heißt bei den Speedster7t-Bausteinen durchaus einiges, denn im größten Baustein, dem 7t1500-FPGA (dem ersten Baustein der Familie, der ausgeliefert wird) stehen die Ethernet-Ports, PCI-Express-Gen5-Schnittstellen sowie GDDR6- und DDR4/5-Speicher-Controller zusammengenommen für eine Datenübertragungsrate von insgesamt 6,5 Tbit/s. Mensor: »Diese Datenmenge kann in einem traditionellen FPGA, das sich ausschließlich auf einem bitweisen Routing stützt, um Daten zu übertragen, nicht verarbeitet werden. Speedster7t kann das dank des neuen NoC.«

Mensor beschreibt das Problem: Die neuesten FPGA-Generationen nutzen nach wie vor dasselbe Signal-Routing, das bereits vor Jahrzehnten konzipiert und implementiert wurde. Dieses Routing ermöglicht innerhalb der FPGA-Fabric zwar eine hohe Flexibilität bei der Implementierung der verschiedenen Logikfunktion, es hat aber den Nachteil, dass Funktionen zum Teil deutlich verlangsamt ablaufen, weil die Signale große Wege überbrücken müssen. »Das traditionelle Signal-Routing von FPGAs kann man sich wie das Straßennetz in einer Stadt vorstellen. Sie können von jedem Punkt zu jedem Ziel gelangen, aber es kann eine beträchtliche Zeit in Anspruch nehmen, um auch nur geringe Entfernungen zurückzulegen, und die Reisezeit verschlechtert sich mit dem Verkehr/Stau«, so Mensor weiter.

Also nutzt Achronix on Top zusätzlich ein NoC als zusätzliche Kommunikationsmöglichkeit. Jede Zeile oder Spalte im NoC ist in Form von zwei 256 bit breiten, unidirektionalen AXI-Kanälen implementiert, die mit einer Übertragungsrate von 512 Gbit/s arbeiten. »Damit erreichen wir eine maximale Bandbreite innerhalb des Bausteins von 20 Tbit/s, und das, ohne dass eine einzige Zeile Verilog oder VHDL geschrieben werden muss. Damit sind weniger FPGA-Ressourcen notwendig, die Systemleistung wird erhöht, die Leistungsaufnahme und das Design-Risiko verringert und die Time to Market beschleunigt«, so Mensor.