Amazon heeft aangekondigd dat het de end-to-end latency van Alexa en van de Amazon Rekognition-dienst heeft verlaagd met 25%, en de kosten met 30%. Dit heeft het bewerkstelligd door van Nvidia-gpu's over te stappen op zijn eigen Inferentia-cpu's.
Tot nu toe gebruikte Amazon voor de machine learning-taken die voor Alexa vereist zijn Nvidia-videokaarten. Vermoedelijk ging het om de Tesla T4 (die inmiddels gewoonweg 'Nvidia T4' wordt genoemd op basis van Turing. Amazon heeft echter niet expliciet bekendgemaakt welke kaarten er voorheen werden gebruikt, maar de T4 lijkt de meest logische optie te zijn geweest.
Nu het naast zijn eigen Graviton2-cpu's ook de Inferentia-acceleratoren ontwikkeld voor zijn eigen Amazon Web Services-servers. Deze voor artificial intelligence-taken bedoelde chips kunnen tot 128 tops verwerken en er passen 16 van deze chips in een enkele Inf1-serverinstance. De text-to-speech-workloads die tot onlangs werden uitgevoerd op de Nvidia-videokaarten zullen nu worden verwerkt door de Inferentia-chips, hetzelfde geldt voor het slim herkennen van video's en afbeeldingen middels de Rekognition-dienst. De latency van het herkennen van objecten moet acht keer lager liggen en de doorvoersnelheid moet zijn verdubbeld dankzij Inferentia.
Amazon zegt dat de flink lagere latency betere gebruikerservaringen mogelijk moeten worden gemaakt en dat de Alexa-ontwikkelaars complexere algoritmen in kunnen zetten. Ten opzichte van de G4-instances met videochips moeten de Inf1-instrances een 45% hogere doorvoersnelheid hebben terwijl de kosten 45% lager moeten liggen. Het grootste deel van de workloads moet al zijn verplaatst naar de Inf1-instances.
Bron: Amazon