Computex ARM preview: Wat zit er in de smartphones van 2020? Een eerste blik op de Cortex-A77 CPU en Mali-G77 GPU!

Inhoudsopgave
  1. 1. Inleiding
  2. 2. Cortex-A77: 20% sneller is de belofte
  3. 3. Cortex-A77 in detail
  4. 4. Mali-G77 GPU: Eerste met Valhall architectuur
  5. 5. Dieper in de G77
  6. 6. Video en display
  7. 7. Conclusie

Dieper in de G77

Duiken we iets dieper in de architectuur, dan zien we dat de front-end, het gedeelte van de gpu waar instructies binnen komen en voor verwerking worden voorbereid, in totaal 1024 threads in het vizier kan houden en maximaal 64 warps kan klaarzetten voor de processing units. Die zijn op hun beurt zoals geschreven dubbel uitgevoerd en werken beide met 16 datapaden en kunnen dus elk op ieder moment dezelfde instructie op 16 verschillende stuks data uitvoeren.

De processing unit bevat in de basis drie onderdelen, een floating point rekeneenheid (FMA), een convert unit en een special fuction unit. Die eerste is waar het écht om gaat. Dankzij de 16 datapaden kan deze per klokslag 16 single-precision (32-bit) berekeningen uitvoeren. Het is verder ook mogelijk om per klokslag 32 half-precision (16-bit floating point) of zelfs 64 8-bit integer berekeningen uit te voeren. Dat laatste is van belang voor machine learning en AI workloads, die veelal van integers gebruikt maken.

Met de twee processing units per core komen we zo op in totaal 32 FP32, 64 FP16 of 128 Int8 berekeningen per core per klokslag. Dat is in alle gevallen aanzienlijk meer dan bij de Mali-G76. Belangrijk om hierbij in het achterhoofd te houden is dat de een G77 core qua afmetingen vrijwel niet verschilt van zijn voorloper. De “prestaties per mm²” nemen dus aanzienlijk toe.

Wat we bovenaan deze pagina al schreven is dat ARM per core het aantal texture units heeft verdubbeld van twee naar vier, want de snelheid waarop texture data op 3D-objecten kan worden geplakt is ook verdubbeld. De aanpassing is nodig omdat mobiele games steeds meer en grotere textures gebruiken, maar vooral ook om te zorgen dat dit onderdeel van de gpu niet de bottleneck wordt nu de snelheid van de shadercores is verhoogd. Met de nieuwe texture units kunnen er elke klokslag vier bilineair gefilterde texels of twee trilineair gefilterde textures verwerkt worden.

Ten slotte nog kort over machine learning. De meest AI-workloads zijn onderliggende matrix multiply berekeningen. Doordat een Mali-G77 kern 33% meer floating point units heeft dan een Mali-G76, is er in theorie sowieso al een presentatiewinst van 33% voor dergelijke taken. Daar komt bij dat de Int8-instructies versneld zijn én een snellere cache is, wat maakt dat onder de streep de prestaties bij machine learning workloads zelfs ruim 50% is aldus de ontwikkelaars.

Advertentie
0