Intel heeft op de Hot Chips 2023 chipconferentie een chip gedemonstreerd die vrij eenvoudig middels fotonische verbindingen aan meerdere eenheden kan worden gekoppeld tot een netwerk van wel twee miljoen rekenkernen. Opzichzelfstaand is de chip ook al vrij interessant, want er zijn acht RISC-cores die samen wel aan 528 hardwarematige threads kunnen werken. Met zijn 66 threads per core is de chip geavanceerder dan soortgelijke projecten waar Nvidia en Ayar Labs mee bezig zijn.
Intels chip kan tot wel 1 terabyte aan data per seconde doorvoeren door het hoge aantal threads per kern. Dat terwijl de gehele chip met zijn acht kernen slechts zo’n 70 watt nodig heeft, waarvan ongeveer 60 procent door de optische verbindingen gebruikt wordt. Intel liet –op papier- zien dat dit systeem, als het inderdaad met de volle twee miljoen kernen uit is gerust, latentietijden van onder de 400 nanoseconde houdt.
Intel noemt het project 'Puma', wat staat voor Programmable Unified Memory Architecture en de chip is een onderdeel van het Darpa Hive-programma dat gefocust is op het leveren van prestatieverbeteringen in petabyteschaal analyse van grafen. De verbeteringen zijn ambitieus: om te beginnen moeten er tot wel 1000 keer betere prestatie-per-watt-verhoudingen komen voor wat genoemd wordt hyper-schaarse taken. Intel heeft daarbij na analyse van het soort werk waar de chip voor gemaakt zou gaan worden, voor RISC in aangepaste vorm gekozen. De direct al tot acht keer betere singlethreaded prestaties in graafanalyse speelde daarbij een rol. Er is een erg grote stress op het geheugensubsysteem, de diepere pijplijnen, de branchpredictor en het logische gedeelte. Voorlopig maakt TSMC de chips, op hun welbekende 7nm-node.
De mate van parallelliteit is flink opgevoerd met de 66 hardwarethreads per rekenkern en naast extra grote L1-data- en -instructiecaches is er per core 4 megabyte aan sram voor snelle tussentijdse berekeningen aanwezig. Er zijn in total 32 optische i/o-poorten die per stuk 32 GB/s per directie aankunnen, wat een totale bandbreedte van 1 TB/s betekent. De chips zijn gemaakt om op een acht-socket ocp-serverbord te passen, waarmee 16 TB/s aan totale optische doorvoer geboden kan worden. Elke chip heeft 32 gigabyte ddr5-4000 dram tot zijn beschikking. Dat geheugen is overigens ook aangepast, maar daar wordt verder niet over uitgeweid. Dan hebben de chips nog vier hogesnelheid achtkanaals optische i/o-chiplets die de elektrische signalen koppelen aan de optische verbindingen. De connectie gaat via Intels eigen emib-packaging die gebruik maakt van het aib-protocol (.pdf). Om met het host-systeem te communiceren heeft de chip een pcie 4.0 x8-connectie.
De chip moet dus ruim onder de 100 watt gebruiken, met zo’n 60 procent van het vermogensbudget gereserveerd voor de fotonische verbindingen gemaakt van silicium en rond de 21 procent voor de rekenkernen. Het gebruik is naar Intels eigen zeggen ook perfect lineair voor de eerste 1.000 kernen, dus gemakkelijk in te schatten. Dit is dan ook meteen een groot voordeel van de optische verbindingen als ingezet tijdens datatransport in de toekomst: Superieure bandbreedte en latentie en dat met een veel lager vermogen. Dit als afgezet tegen meer traditionele chip-naar-chip-communicatietechnieken. Zowel deze techniek gedemonstreerd door Intel, maar ook technieken getoond door Nvidia en Ayar Labs moeten over niet al te lange tijd al gemeengoed zijn.
Bron: Tom's Hardware