Arm heeft afgelopen september de Neoverse N2 en V1-cpu-cores aangekondigd, de servervarianten van zijn mobiele Cortex-kernen. Vandaag gaat Arm dieper in op de ontwerpen en kondigt het klanten voor de ontwerpen aan.
De V1 is een op single-threaded prestaties gericht ontwerp en heeft daardoor een erg brede chiparchitectuur. Zoals we al weten brengt hij prestatieverbeteringen van 50% ten opzichte van de N1. De N2 is de directe opvolger van de N1, maar dit ontwerp richt zich meer op schaalbaarheid. Hij is ook iets gebalanceerder van aard, er moeten meer cores op hetzelfde oppervlak passen en ze hebben een minder grote impact op het stroomverbruik. N2 presteert in single-threaded testen 40% beter dan de N1. In schaalbare nginx-workloads is hij echter 130% sneller dan zijn voorganger, en in dpdk packet processing is de prestatietoename 120%.
De core-ontwerper heeft eind vorige maand de v9-architectuur aangekondigd, maar nu is bekend dat de twee cores gebaseerd zijn op een v8.4-ontwerp en een aantal kenmerken lenen van v8.5- en v8.6-ontwerpen. De V1- en N2-ontwerpen zijn echter al vorig jaar onthuld, wat betekent dat klanten er al toegang tot hebben voor hun eigen chipontwerpen.
In machine learning biedt de V1 de grootste verbeteringen. Ten opzichte van de N1 is hij minimaal twee keer zo snel, maar in bfloat16- en int8-workloads is hij vier keer zo snel. De N2-core is minder geschikt voor machine learning, die is in bfloat16- en int8-workloads twee keer zo snel.
Wel biedt de N2 meer eigenschappen van de arm v9-architectuur. Belangrijk zijn de sve2-instructies (scalable vector extension), die de AI-prestaties juist ten goede moeten komen. Doordat sve niet beïnvloed wordt door de breedte van de vector execution unit is deze schaalbaar van 128-bit tot 2048-bit, in stappen van 128-bit. Dat betekent dat er niet meer geoptimaliseerd hoeft te worden voor verschillende soorten vector execution units. De N2-cores gebruiken stappen van 128-bit, de bredere V1-cores gebruiken stappen van 256-bit.
Na een lange tijd is er ook een update voor Arms interconnect, core mesh network of kortweg cmn. Met CMN-700 neemt het maximale aantal cores per die toe van 64 naar 256 stuks, en met twee die's per systeem kom je uit op maximaal 512 cores per systeem. Ook is er nu ondersteuning voor de CCIX 2.0-interconnect, dat een groot aantal hardwaretypen van verschillende producenten met elkaar moet verbinden. Het lost het grote latencyprobleem op waar veel arm-chips tot nu toe mee kampten, doordat het juist mogelijk is om softwarelagen weg te laten.
Bron: Arm