Nvidia Hopper GH100 onthuld: 4nm datacenter-GPU met 80 miljard transistors en HBM3

Nvidia-ceo Jensen Huang heeft tijdens de GTC-keynote de eerste Hopper-gebaseerde accelerator onthuld. Zoals verwacht is deze architectuur niet op gaming gericht, maar op datacenters en supercomputers. De H100 is voorzien van de GH100-gpu, die op een speciaal 4N-procedé van TSMC is gebakken en over niet minder dan 80 miljard transistors beschikt. De volledig ingeschakelde chip biedt 144 streaming multiprocessors, wat een totaal van 18.432 cuda-cores mogelijk maakt.


 
De SXM5-variant en pcie-uitvoering van de H100 naast elkaar.

Dankzij het gebruik van vijf stacks hbm3-geheugen van 16 GB per stuk, heeft de H100 SXM een bandbreedte van 3 TB/s. De pcie-variant moet het doen met 80 GB aan hbm2e, waardoor de bandbreedte afneemt tot 2 TB/s. Daarnaast heeft de SXM-kaart een fors hoger maximaal tdp: 700 watt ten opzichte van 350 watt. Dit alles levert een single-precision rekenkracht (fp32) op van 60 teraflops, gevolgd door 30 teraflops wat fp64 betreft. Dit is in beide gevallen bijna drie keer zo snel als zijn voorganger, de Ampere-gebaseerde A100. 

Zoals bij de A100 zal Nvidia systemen met verscheidene H100-acceleratoren aanbieden. De DGX H100-server bevat acht H100-kaarten, terwijl de DGX SuperPod 32 servers met behulp van NVLink aan elkaar verbindt. Een enkele SuperPod bevat dus 256 H100-gpu’s, met een totaal van 20 TB hbm3-geheugen en tot 1 exaflop aan ai-rekenkracht. Nvidia is zelf van plan om de EOS-supercomputer te bouwen, die uit 18 SuperPods zal bestaan.


Naar verwachting zullen de eerste Hopper-producten in het derde kwartaal van dit jaar beschikbaar zijn, adviesprijzen zijn niet aan bod gekomen.

Formfactor H100 SXM5 H100 PCIe
SM's 132 114
Cuda-cores 16.896 14.592
L2-cache 50 MB
Geheugen 80 GB HBM3 80 GB HBM2e
Bandbreedte 3 TB/s 2 TB/s
TDP 700 W 350 W
Interconnect NVLink: 900 GB/s - PCIe Gen5: 128 GB/s
FP64 30 teraFLOPS 24 teraFLOPS
FP64 Tensor Core 60 teraFLOPS 48 teraFLOPS
FP32 60 teraFLOPS 48 teraFLOPS
TF32 Tensor Core 500-1.000 teraFLOPS 400-800 teraFLOPS
BFLOAT16 Tensor Core 1.000-2.000 teraFLOPS 800-1.600 teraFLOPS
FP16 Tensor Core 1.000-2.000 teraFLOPS 800-1.600 teraFLOPS
FP8 Tensor Core 2.000-4.000 teraFLOPS 1.600-3.200 teraFLOPS
INT8 Tensor Core 2.000-4.000 TOPS 1.600-3.200 TOPS
Decoders 7 NVDEC
  7 JPEG

Bron: Nvidia

« Vorig bericht Volgend bericht »
0