AMD heeft de Instinct MI100 geïntroduceerd, de eerste accelerator voor datacentra op basis van de CDNA-architectuur. Hij is voorzien van een flinke 120 compute units, goed voor een totaal van 7680 stream processors.
Dat betekent dat hij meer rekenkernen heeft dan Nvidia's A100-gpu, een chip met een enorm formaat van 826 vierkante millimeter. Het formaat van de op hetzelfde 7nm-productieproces gebakken MI100 is echter nog niet bekend. Hoewel hij niet is voorzien van tensor-cores zal de gpu geen kleintje zijn. De MI100 moet tot zeven keer sneller zijn dan de MI50, dat geldt voor fp16-matrixworkloads. De piekprestaties in fp32-workloads (single precision) zouden rond 23,1 teraflops liggen, en het is met 11,5 teraflops het eerste product dat de 10tflops-grens overschrijdt in double precision-workloads.
De C in CDNA staat voor compute en is een doorontwikkeling van Vega en GCN. Met RDNA en CDNA heeft AMD ervoor gekozen om zijn gpu-producten op te splitsen in twee categorieën, omdat voor beide specifieke hardware-eigenschappen optimaal zijn voor de prestaties. De chipontwerper heeft naast de floating point-prestaties ook gesleuteld aan de matrix-engines.
De capaciteit van het hbm2-geheugen is met 32 GB onveranderd gebleven, maar wel is de snelheid met 20% toegenomen tot 1,23 TB/s. Uiteraard is het voorzien van ecc-ondersteuning voor foutcorrectie. Verder is de Infinity Fabric-interconnect voor de MI100 van de tweede generatie, wat betekent dat nu tot twee clusters met vier MI100's aan elkaar gekoppeld kunnen worden. Daarvoor levert AMD ook een fysieke interconnect mee die bovenop de accelerators kan worden aangebracht. Verder zijn bijna alle functies in de ROCm-softwaresuite uit de bètafase gehaald.
Er zouden al producten met de kaarten beschikbaar zijn van Dell, Gigabyte, HP Enterprise en Supermicro. Afgelopen zomer leek het erop dat de kaarten vooral geschikt zouden zijn voor workloads als deeltjessimulaties en minder voor kunstmatige intelligentie, maar begin deze maand kregen we het idee dat ook op het vlak van AI-workloads de mogelijkheden flink gegroeid zijn ten opzichte van de concurrentie. Of de kaarten op dit vlak even concurrerend zullen zijn hangt vermoedelijk af van de prijs van de systemen.
{IMG-125-9044}
AMD Instinct MI100-accelerator | |
---|---|
Compute Units | 120 |
Stream Processors | 7680 |
FP64 | 11,5 TFLOPS |
FP32 | tot 23.1 TFLOPS |
FP32 Matrix | tot 46.1 TFLOPS |
FP16/FP16 Matrix | tot 184.6 TFLOPS |
INT4 | INT8 | tot 184.6 TOPS |
bFloat16 | tot 92.3 TFLOPS |
Geheugen | 32 GB HBM2, ECC |
Geheugenkloksnelheid | 1,2 GHz |
Geheugenbandbreedte | tot 1,23 TB/s |
Aansluiting | PCIe 4.0 |
Total Board Power | 300 watt |
Koeling | passief |
Bron: AMD