Anne Hathaway hangján rappel Mona Lisa - nem álom, ez már a valóság

A Microsoft új mesterséges intelligencia technológiájának köszönhetően a Mona Lisa most már nem csak mosolyogni tud.

A múlt héten a Microsoft kutatói részletesen bemutattak egy általuk kifejlesztett új mesterséges intelligenciamodellt, amely képes egy arcról készült állóképet és egy beszélő személyről készült hangfelvételt összeszerkeszteni, és automatikusan létrehozni egy valósághűnek tűnő videót az adott személy beszédéről. A videók - amelyek fotórealisztikus arcokról, valamint rajzfilmfigurákról vagy művészeti alkotásokról is készülhetnek - meggyőző ajakszinkronizálással és természetes arc- és fejmozgásokkal egészülnek ki.

Az egyik demóvideóban a kutatók bemutatták, hogyan animálták a Mona Lisát, hogy Anne Hathaway hangján rapet szavaljon.

A VASA-1 nevű mesterséges intelligenciamodell kimenetei egyszerre szórakoztatóak és egy kicsit megrázóan valóságosak. A Microsoft szerint a technológia felhasználható lenne az oktatásban vagy "a kommunikációs kihívásokkal küzdő egyének hozzáférhetőségének javításában", illetve potenciálisan virtuális társak létrehozására az emberek számára. De az is könnyen elképzelhető, hogy az eszközzel vissza lehet élni, és valódi emberek megszemélyesítésére lehet használni - írja a CNN.

Ez az aggodalom túlmutat a Microsofton: ahogy egyre több eszköz jelenik meg a meggyőző mesterséges intelligencia által generált képek, videók és hangok létrehozására, a szakértők attól tartanak, hogy az ezekkel való visszaélés a félretájékoztatás új formáihoz vezethet. Egyesek attól is tartanak, hogy a technológia tovább zavarhatja a kreatív iparágakat a filmektől a reklámig.

A Microsoft egyelőre közölte, hogy nem tervezi a VASA-1 modell azonnali nyilvánosságra hozatalát. A lépés hasonló ahhoz, ahogyan a Microsoft partnere, az OpenAI kezeli a Sora nevű, mesterséges intelligencia által generált videóeszközével kapcsolatos aggályokat: az OpenAI februárban mutatta be a Sora-t, de eddig csak néhány professzionális felhasználó és kiberbiztonsági professzor számára tette elérhetővé tesztelési céllal.

Hogyan működik?

A Microsoft új mesterséges intelligenciamodelljét számos videón képezték ki, amelyeken emberek arca látható beszéd közben, és úgy tervezték, hogy felismerje a természetes arc- és fejmozgásokat, beleértve többek között az "ajakmozgást, az arckifejezést, a tekintetet és a pislogást" - közölték a kutatók.

A mesterséges intelligencia eszközt arra is lehet utasítani, hogy olyan videót készítsen, amelyben az alany egy bizonyos irányba néz, vagy egy bizonyos érzelmet fejez ki.

Azonban ha jobban megnézzük, még mindig vannak arra utaló jelek, hogy a videók gépi generálásúak, például a ritkán pislogás és a szemöldök eltúlzott mozgása. A Microsoft azonban úgy véli, hogy modellje "jelentősen felülmúlja" más, hasonló eszközök teljesítményét, és "megnyitja az utat az emberi társalgási viselkedést utánzó, élethű avatárokkal való valós idejű kapcsolatfelvétel előtt".

Elindult a Naphire.hu YouTube-csatornája, iratkozzon fel a legfrissebb videóinkért!

Cimkék: