Nvidia kondigt 16nm Pascal-GPU met HBM2 aan

Tomas Hochstenbach 5 april 2016 19:45

Nvidia heeft zijn eerste 16nm FinFET GPU aangekondigd. Tijdens zijn keynote op de GPU Technology Conference introduceerde CEO Jen-Hsun Huang de Tesla P100, die bij het Taiwanese TSMC wordt geproduceerd en gebruikmaakt van HBM2-geheugen van Samsung. In totaal beschikt de chip over 150 miljard transistors, waarbij de 16 GB aan videogeheugen wordt meegeteld. De GPU zelf bestaat uit 15,3 miljard transistors en 3.840 CUDA-cores oftewel shader-units. Daarvan zijn er waarschijnlijk maar 3.584 ingeschakeld, om de yields op te krikken. De FP32-rekenkracht van de chip is 10,6 Tflops; de Titan X deed 7 Tflops, ter vergelijking.

De chip gaat vanaf nu in massaproductie, maar voorlopig worden alle werkende chips direct gebruikt voor nieuwe supercomputers. Het is immers enorm lastig om op een gloednieuw productieprocedé meteen een dergelijk grote chip te produceren - de GPU meet 610 vierkante millimeter. Daarbij valt extra op dat de kloksnelheden behoorlijk hoog zijn: 1.328 MHz is de standaardsnelheid, GPU Boost kan dat opvoeren naar 1.480 MHz. Het TDP daarbij is 300 watt. Pas in het eerste kwartaal van 2017 komen er ook 'normale' servers van fabrikanten als HP, IBM en Dell met de Tesla P100.

In de systemen waarin deze GPU gebruikt zal worden, zal vrijwel altijd sprake zijn van meerdere kaarten. Voor de onderlinge communicatie wordt NVLink gebruikt, een interface die vijf keer zo snel is als PCI-Express 3.0 en snelheden tot 160 GB/s haalt. Voorlopig verwachten we deze bus niet voor de communicatie tussen de videokaarten en de CPU zelf, aangezien processorfabrikanten er nog geen ondersteuning voor bieden.

Voor de integratie van de tweede generatie High Bandwidth Memory wordt TSMC's CoWoS gebruikt, oftewel Chip-on-Wafer-on-Substrate. Deze TSV-technologie maakt het mogelijk om meerdere chips onder te brengen op één substraat, met supersnelle interconnects. Nvidia heeft het over '4.000 draadjes', wat op een 4096-bit geheugenbus duidt. De bandbreedte zal maximaal 720 GB/s zijn, een flinke stap meer dan de 512 GB/s die HBM1 in AMD's Fiji-kaarten biedt. HBM2 biedt bovendien native ondersteuning voor ECC-foutcorrectie, waarvoor bij GDDR5 nog een gedeelte van het bruikbare geheugen moest worden gereserveerd.

Als showcase introduceert Nvidia de DGX-1, een 'deep learning system' met acht Tesla P100-GPU's, twee Intel Xeon-processors en 7 TB aan SSD-opslag. Connectiviteit is er in de vorm van tweemaal 10Gb-ethernet en quad-Infiniband. Het systeem gaat 129.000 dollar kosten en is te pre-orderen via nvidia.com/dgx1, voor wie dat wil.

De Nvidia Pascal-architectuur

De opbouw van Nvidia's Pascal-architectuur is anders dan die van Kepler en Maxwell. De streaming-multiprocessor oftewel SM is dubbel zo klein geworden en bevat niet langer 128 shaders, maar slechts 64 stuks. Alle zaken die een vast aantal keren per SM aanwezig zijn, zoals de instructiebuffers, registers en warp-schedulers, komen dus vaker terug in Pascal. Absoluut gezien zijn de er bijvoorbeeld veel grotere registers dan bij voorgaande generaties, terwijl er aan de registergrootte per SM niets is veranderd. Ook het gedeelde geheugen, 64 kilobyte per SM, is hierdoor flink groter geworden. De bandbreedte daarvan is meer dan verdubbeld.

Doordat elke shader over meer ruimte in het register, gedeelde cache en warp-schedulers beschikt dan bij voorgaande architecturen, moeten de CUDA-cores hun instructies efficiënter kunnen verwerken. Daar helpen ook de betere scheduler en warp-schedulers bij. De warp-scheduler kan nu twee warp-instructies per kloktik uitvoeren.

Elke streaming-multiprocessor bevat nu nog maar 64 shaders.

Maxwell was een architectuur die echt was gericht op single-precision oftewel FP32-prestaties, die vooral relevant zijn voor bijvoorbeeld gaming. Voor taken die met een hogere precisie moeten gebeuren, zoals veel wetenschappelijk rekenwerk in datacenters en supercomputers, was de architectuur minder geschikt. Bij Pascal is die focus op double-precision weer terug, waardoor het ook voor de hand ligt dat Nvidia de architectuur als eerste voor een product als dit gebruikt.

Elke SM heeft bij Pascal 32 FP64-rekeneenheden, de helft van het aantal FP32-units. Dat brengt de ratio op 2:1, waar 3:1 gebruikelijk was bij Kepler. Maxwell was met zijn ratio van 32:1 zoals gezegd helemaal ongeschikt voor FP64-rekenwerk, waardoor de Quadro K6000 daarvoor tot nu toe de betere keuze bleef ten opzichte van de nieuwe Quadro M6000. Pascal zal door gebruikers van FP64-instructies zeer gewaardeerd worden. Het gevaar is echter dat de architectuur inefficiënt blijkt te zijn voor gaming: de laatste keer dat Nvidia een 2:1 FP64-ratio toepaste was immers bij Fermi.

Aan de andere kant is deep-learning in opkomst: machines leren om bijvoorbeeld objecten te herkennen door vooral héél veel te oefenen met voorbeelden. Dit hoeft minder precies te gebeuren en daarvoor heeft Nvidia bij Pascal FP16 toegevoegd, een soort 'half-precision' dus. De prestaties nemen zo flink toe, wat bij deep-learning meer dan welkom is. Rekenfouten hebben bij die techniek juist vrijwel geen invloed. Pascal kan twee FP16-instructies tegelijkertijd uitvoeren op één shader en bovendien passen er twee FP16-waardes in de 32-bit registers.

Klik voor een grotere versie van dit blokdiagram van de Nvidia GP100-GPU.

NVLink

Zoals gezegd gebruiken de nieuwe GPU's geen SLI-bruggen of PCI-Express voor hun onderlinge communicatie, maar NVLink. Deze nieuwe interface is door Nvidia zelf ontwikkeld als sneller alternatief voor de PCI-Express-bus en is gericht op hechtere integratie. Zo kan een GPU net zo makkelijk een berekening doen aan de hand van data die in het geheugen van een andere GPU staat, als met lokaal opgeslagen data.

Technisch wordt er gebruikgemaakt van een protocol dat Nvidia NVHS noemt. Acht differentiële signalen, die elk tot 20 gigabit per seconde kunnen doorvoeren, vormen samen een zogenaamde sublink. Twee sublinks, één in elke richting, worden vervolgens samengevoegd tot één link. Die verbinding loopt bijvoorbeeld tussen twee GPU's of tussen een GPU en een CPU. Eén link is goed voor een bidirectionele bandbreedte van 40 gigabyte per seconde, waarvan er dan weer maximaal vier gecombineerd kunnen worden - tot wat men noemt een 'gang' - om tot een totale bandbreedte van 160 GB/s te komen. PCI-Express 3.0 x16 steekt daar met 16 GB/s in beide richtingen maar schraal tegen af.

Acht Tesla P100-GPU's verbonden via NVLink, weergegeven in een diagram.

Voor directe communicatie tussen GPU en CPU zien we NVLink voorlopig nog geen rol spelen, aangezien zowel Intel als AMD geen ondersteuning bieden. IBM's Power-processors bieden er wel ondersteuning voor.

Nvidia's Pascal-architectuur bevat nog veel meer nieuwe features, zoals pre-emption als alternatief voor asynchronous computing. De Graphics Technology Conference duurt nog drie dagen, vol sessies over dergelijke onderwerpen. Als daar nieuws uit komt, lees je dat uiteraard op Hardware.Info.

Bronnen: Nvidia (1), (2)

1 besproken product

Vergelijk

Product

Prijs

Nvidia Tesla P100

GP100
3584 cores
1328 MHz
16384 MB
4096 bit
DirectX 12 fl 12_1
PCI-Express 3.0 x16

Niet verkrijgbaar

« Vorig bericht Volgend bericht »

Hardware Info is gestopt

Nvidia kondigt 16nm Pascal-GPU met HBM2 aan

De Nvidia Pascal-architectuur

NVLink

1 besproken product

Nvidia Tesla P100