Deze AI is zo eng dat Microsoft hem niet durft uit te brengen
AI zorgt er zelfs voor dat Mona Lisa tot leven komt en zingt. Het is zo krankzinnig dat Microsoft het niet uit durft te brengen.
De Mona Lisa van Leonardo da Vinci is het bekendste schilderij ter wereld. Dagelijks staan continu honderden mensen in een volgepakte zaal van het Louvre om oogcontact met deze mysterieus lachende dame te maken. Microsoft maakt het nog specialer.
Achter die mysterieuze lach gaat een bijzonder talent schuil. Ze blijkt te kunnen zingen dankzij Microsoft dat daardoor weer doodsbang is. Het heeft alles met AI te maken, maar hoe zit dat precies?
De zingende Mona Lisa van Microsoft
Dacht je dat AI al krankzinnig was? Wacht maar even, want het kan nog veel gekker door Microsoft. Het heeft nu een tool waarmee je video’s kan maken maken van personen op basis van één enkele foto. De Mona Lisa komt zelfs zo tot leven dat Leonardo da Vinci zich omdraait in zijn graf.
Met die ene video kan de AI van Microsoft die persoon alles laten doen wat het maar wil. Of het nu zingen, rappen of tekst uitspreken is. Het zo krankzinnig dat Microsoft te bang is om deze techniek ook echt beschikbaar te maken.
Microsoft just dropped VASA-1.
This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba
10 wild examples:
1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024
Microsoft noemt de AI-techniek VASA-1 (Visual Affective Skills Animator). Het is hiermee in de toekomst ook mogelijk om virtuele avatars te maken die alles kunnen zeggen wat de maker wil. Ze kunnen zich net als mensen gedragen, zoals de Mona Lisa bijvoorbeeld.
Microsoft heeft dit model getraind met de VoxCeleb2-dataset van de Oxford University. Dit is een database met meer dan een miljoen uitingen van 6.112 beroemdheden uit YouTube-videos.
Een verbluffend staaltje techniek
Maar Microsoft gaat nog een stapje verder. De video’s hebben een resolutie en framesnelheid die niet onderdoet voor wat je normaal ziet tijdens een video-chat zoals FaceTime of Teams. Het team heeft verschillende video’s gemaakt waaronder eentje met een rappende Mona Lisa.
Toch is er een ding wat de tool gelukkig niet kan. Het is onmogelijk voor de AI om stemmen te klonen. Het zou dan nog gevaarlijker zijn. Hoe dan ook, Microsoft gebruikt dit alleen als een showcase en wil dat dit programma nooit echt uitkomt.
7. Power of disentanglement
Example of same motion sequence with different photos pic.twitter.com/MSLFobwJTx
— Min Choi (@minchoi) April 18, 2024
En hoewel je een verbluffend staaltje techniek misschien al te graag wil delen, is het goed dat Microsoft het niet doet. Als de Mona Lisa er al zo krankzinnig goed uitziet, terwijl ze rapt, hoe moet het dan zijn voor mensen die we echt kennen ook invloed hebben.
Nog meer angst voor deepfakes
Dit zijn zogenaamde deepfakes en die zijn zeker niet nieuw. We hebben er de afgelopen jaren best wel wat voorbij zien komen. In deepfakes zat echter behoorlijk wat werk. Met nieuwere AI-technieken wordt dit steeds simpeler, iets wat Microsoft nu laat zien.
De nieuwe techniek voor Microsoft zorgt daarom ook voor nieuwe zorgen. Straks kan met een foto die je post op je social media, zoals Instagram, er al voor zorgen dat er een nepvideo van gemaakt kan worden. Het kan in de toekomst dus nog belangrijker zijn om er goed over na te denken wat voor foto’s jezelf post. Daarmee vergeleken is een zingende Mona Lisa vrij onschuldig.
Hoewel Microsoft deze techniek niet uitbrengt ziet het toch meer voordelen dan nadelen. Zo zou het onderwijsgelijkheid kunnen vergroten, mensen met communicatieproblemen meer toegang geven en is het volgens het bedrijf te gebruiken als therapeutische ondersteuning aan mensen in nood. Microsoft benadrukt dan de techniek ook het menselijk welzijn kan bevorderen.