Je stem valt na te bootsen na 15 seconden

Kevin - 01-04-2024

Met ChatGPT zijn we allemaal aan het stoeien, maar AI kan ondertussen al veel meer. De ontwikkelaars van deze tool, OpenAI, pakten recent uit met een text-to-speech tool. Binnen de 15 seconden analyseert hun technologie je stem en wordt deze nagenoeg perfect nagebootst.

15 seconden, ongeveer even lang als de bedprestatie van de gemiddelde man, langer duurt het niet om je stem te analyseren en perfect na te bootsen. OpenAI speelt het klaar en heeft recentelijk wat samples van hun Voice Engine uitgebracht. Het model is momenteel nog niet algemeen beschikbaar, maar dit is ongetwijfeld een kwestie van tijd.

Voice Engine van OpenAI

Het nieuwe model heet Voice Engine en kan stemmen perfect nabootsen, inclusief intonatie en emotie. Vrij beangstigend als je weet wat er vervolgens allemaal mee kan gebeuren. Binnen de 15 seconden kan de computer jouw stem namaken en in verkeerde handen valt er heel wat mee te doen. Voorlopig houdt het bedrijf de data nog achter en technische beschrijvingen vallen er nog niet te vinden. Het is dan ook nog niet bekend op basis van welke data de Voice Engine is getraind.

Momenteel is de tool nog niet commercieel verkrijgbaar, maar in de nabije toekomst zou het wel geld moeten gaan opleveren. De toekomstige prijs wordt geschat op 15 dollar per miljoen tekens of zo’n 160.000 woorden die kunnen worden uitgesproken.

Misbruik valt niet uit te sluiten

Dat OpenAI de techniek nog even afremt hoeft niet te verbazen als je rekening houdt met de implicaties die er kunnen zijn. Zeker met de aankomende verkiezingen in heel wat landen zou deze tool misbruikt kunnen worden. Wel zou de tool werken met een watermerk, waardoor het duidelijk is welke audio met OpenAI is gegenereerd. Ook zou er proactief gemonitord worden hoe het systeem gebruikt wordt en zou er een lijst komen van stemmen die niet gekloond mogen worden. Of dit allemaal voldoende gaat zijn om misbruik te voorkomen, is koffiedik kijken.