Nvidia heeft op de jaarlijkse InterSpeech-conferentie vandaag een AI-algoritme onthuld dat beter in staat is om met intonatie om te gaan dan bestaande algoritmen. Computergestuurde spraak moet hiermee menselijker overkomen.
Het project heeft erg veel weg van Nvidia's uiterst succesvolle manier om met general adversarial networks menselijke gezichten (en willekeurige andere objecten) te genereren uit datapunten van bestaande gezichten. Tijdens Nvidia's GTC in 2017 onthulde de chipontwerper ook al een AI-stem voor het vertellen van verhalen, maar er waren nog de nodige verbeterpunten. In 2020 bracht Nvidia een verbeterde versie genaamd Flowtron, maar dit model kon niet actief worden bijgestuurd bij het maken van fouten.
Bij het nieuwe model kan dit wel. De onderzoekers geven aan dat de AI-stem 'gestuurd' kan worden op de manier waarop een menselijke stemacteur zou worden begeleid. De gesproken informatie wordt geüpload naar het AI-model, dat is ingesteld met de gewenste variabelen. De kunstmatige stem praat de 'bron' in feite na, zoals mensen ook taal leren. Daardoor kan het algoritme bepaalde woorden benadrukken, met meer of minder nadruk uitspreken en met een hardere of zachtere stem praten.
Het gebruikte algoritme heeft Nvidia tijdens Siggraph afgelopen augustus aangekondigd en draagt de naam rad-tts. Je kunt niet alleen teksten na laten apen, je kunt zelfs zingen, mensen met spraakhandicaps helpen met communiceren, het op een natuurlijkere manier uitspreken van tekst in games, en zelfs voor het ontwikkelen van applicaties waarmee gamers kunnen praten met AI-personages. De rest van deze week heeft Nvidia gevuld met dit soort demo's en workshops die dieper ingaan op de technieken die voor de nieuwe AI-stem zijn ontwikkeld.
Bron: Nvidia