Nvidia-ceo Jensen Huang heeft tijdens de GTC-keynote de eerste Hopper-gebaseerde accelerator onthuld. Zoals verwacht is deze architectuur niet op gaming gericht, maar op datacenters en supercomputers. De H100 is voorzien van de GH100-gpu, die op een speciaal 4N-procedé van TSMC is gebakken en over niet minder dan 80 miljard transistors beschikt. De volledig ingeschakelde chip biedt 144 streaming multiprocessors, wat een totaal van 18.432 cuda-cores mogelijk maakt.
De SXM5-variant en pcie-uitvoering van de H100 naast elkaar.
Dankzij het gebruik van vijf stacks hbm3-geheugen van 16 GB per stuk, heeft de H100 SXM een bandbreedte van 3 TB/s. De pcie-variant moet het doen met 80 GB aan hbm2e, waardoor de bandbreedte afneemt tot 2 TB/s. Daarnaast heeft de SXM-kaart een fors hoger maximaal tdp: 700 watt ten opzichte van 350 watt. Dit alles levert een single-precision rekenkracht (fp32) op van 60 teraflops, gevolgd door 30 teraflops wat fp64 betreft. Dit is in beide gevallen bijna drie keer zo snel als zijn voorganger, de Ampere-gebaseerde A100.
Zoals bij de A100 zal Nvidia systemen met verscheidene H100-acceleratoren aanbieden. De DGX H100-server bevat acht H100-kaarten, terwijl de DGX SuperPod 32 servers met behulp van NVLink aan elkaar verbindt. Een enkele SuperPod bevat dus 256 H100-gpu’s, met een totaal van 20 TB hbm3-geheugen en tot 1 exaflop aan ai-rekenkracht. Nvidia is zelf van plan om de EOS-supercomputer te bouwen, die uit 18 SuperPods zal bestaan.
Naar verwachting zullen de eerste Hopper-producten in het derde kwartaal van dit jaar beschikbaar zijn, adviesprijzen zijn niet aan bod gekomen.
Formfactor | H100 SXM5 | H100 PCIe |
---|---|---|
SM's | 132 | 114 |
Cuda-cores | 16.896 | 14.592 |
L2-cache | 50 MB | |
Geheugen | 80 GB HBM3 | 80 GB HBM2e |
Bandbreedte | 3 TB/s | 2 TB/s |
TDP | 700 W | 350 W |
Interconnect | NVLink: 900 GB/s - PCIe Gen5: 128 GB/s | |
FP64 | 30 teraFLOPS | 24 teraFLOPS |
FP64 Tensor Core | 60 teraFLOPS | 48 teraFLOPS |
FP32 | 60 teraFLOPS | 48 teraFLOPS |
TF32 Tensor Core | 500-1.000 teraFLOPS | 400-800 teraFLOPS |
BFLOAT16 Tensor Core | 1.000-2.000 teraFLOPS | 800-1.600 teraFLOPS |
FP16 Tensor Core | 1.000-2.000 teraFLOPS | 800-1.600 teraFLOPS |
FP8 Tensor Core | 2.000-4.000 teraFLOPS | 1.600-3.200 teraFLOPS |
INT8 Tensor Core | 2.000-4.000 TOPS | 1.600-3.200 TOPS |
Decoders | 7 NVDEC | |
7 JPEG |
Bron: Nvidia