CES: Nvidia's gigantische Xavier-chip van 350mm2 biedt 30 TOPS voor zelfrijdende auto's

Nvidia heeft vandaag op zijn CES keynote meer details gegeven over de Xavier SoC die het bedrijf voor zelfrijdende auto's wil gebruiken. Het bedrijf gaf onder meer details over de eigen ARMv8 CPU-kernen, de Volta-GPU en de deep-learning performance van de chip.

De Xavier-chip wordt geproduceerd op TSMC's 12 nanometer FFN-proces, is 350mm2 groot en bestaat uit 9 miljard transistoren. Volgens Nvidia is het daarmee de grootste SoC die ze ooit gemaakt hebben en er zou in totaal 8000 jaar aan engineering inzitten. 

De CPU-kernen zijn door Nvidia zelf ontwikkeld en gebruiken de 64-bits ARMv8 instructieset, AArch64. De kernen zijn extreem breed, het is een 10-wide superscalar. Dat betekend dat er per kern 10 instructies tegelijkertijd in de pipeline gedecodeerd kunnen worden, veel meer dan Cortex-A73 (2-wide), Cortex-A75 (3-wide) of Apple's Cyclone t/m Monsoon (6-wide) in de A7 t/m A11. Er zijn acht van deze kernen aanwezig die een score van 2700 in SpecInt2000 halen. 

Op de SoC is een Volta-GPU met 512 CUDA-kernen aanwezig. Deze ondersteunt meerdere precisie-niveau's, waaronder 32-bit floating point (FP32), 16-bit floating-point (FP16) en 8-bit integer (INT8). Hiermee kan 1,3 TFLOP aan FP32 CUDA-performance bereikt worden. Tevens zijn er Tensor-kernen aanwezig net als in de V100, waarmee nog eens 20 TOPS aan FP16 Tensor-performance gehaald kan worden.

Naast de GPU is er ook een Deep Learning Accelerator geïmplementeerd. Deze open-source DLA van Nvidia biedt 5 TFLOPS aan FP16-performance, wat gebruikt wordt voor het trainen van neurale netwerken en 10 TOPS aan INT8-performance voor het toepassen van deze getrainde netwerken (inference / gevolgtrekking).

Vervolgens is er een Programmable Vision Accelerator, kortweg PVA. Deze versnelt de verwerking van beelden door onder andere loop collapsing, een techniek waarmee meerdere loops versimpeld worden naar een enkele loop. De PVA versnelt optical flow- en stereoscopisch-analyse om de verplaatsing van objecten te kunnen traceren. De PVA kan 1,6 TOPS verwerken.

Qua IO-interface zijn er 16 CSI-lanes beschikbaar. Deze Camera Serial Interface-kanalen bieden samen 109 Gb/s aan bandbreedte voor camera's. Ook is er gigabit en 10 gigabit ethernet aanwezig.

Verder is er een videoprocessor om beelden te coderen en decoderen. Er kan 1,2 gigapixel per seconde gecodeerd worden en 1,8 Gp/s gedecodeerd worden. Daarmee zouden bijvoorbeeld 200 beelden van 8 megapixel per seconde gedecodeerd kunnen worden.

Om deze rauwe camerabeelden te verwerken is er de ISP. In de Xavier SoC ondersteunt de Image Signal Processor tile-based processing, een techniek om beelden parallel te verwerken, en full-range HDR. De ISP kan anderhalve gigapixel per seconde verwerken. 

Tot slot is er een behoorlijke sloot bandbreedte aanwezig. Een Qualcomm Snapdragon 845 beschikt over 29,9 GB/s aan bandbreedte, een Intel Xeon W-2195 18-core workstation processor heeft 85,3 GB/s aan DDR4-bandbreedte en bij de Intel Xeon Platinum 8180 Processor, een 28-core serverprocessor is 128 GB/s bandbreedte aanwezig. De Xavier heeft met zijn 256-bit LPDDR4-bus 137 GB/s, wat duidt op 2133 MHz geheugen.

De Xavier Drive moet de Drive PX 2 gaan vervangen. De PX 2 had twee Parker SoC's en twee discrete Pascal-GPU's waarmee 24 TOPS aan deep learning performance gehaald kon worden. De Xavier SoC is dus een chip die dit systeem moet gaan vervangen. De SoC wordt dit kwartaal aan partners uitgeleverd.

Later dit jaar gaat Nvidia ook de Pegasus naar de eerste partners sturen. Dit systeem bestaat uit twee Xavier SoC's en twee discrete next-gen GPU's (generatie na Volta). Met een verbruik van 400 watt moeten 320 TOPS gehaald worden, tien maal de performance van een losse Xavier SoC. Dit systeem moet Level 5 self-driving mogelijk maken, waarbij de bestuurder helemaal niks meer hoeft te doen.

Bron: Nvidia

« Vorig bericht Volgend bericht »
0