A Stability AI új technológiája egyetlen képből készít látványos 3D videókat

A Stability AI új technológiája egyetlen képből készít látványos 3D videókat

A mesterséges intelligencia fejlesztésben aktív Stability AI bejelentette legújabb modelljét, a Stable Virtual Camera-t, amely 2D képeket alakít át magával ragadó videókká, valós mélységérzettel és perspektívával. Ez a technológia különösen izgalmas lehet a digitális filmkészítés és a 3D animáció világában dolgozó szakemberek számára.

A virtuális kamerákat a filmiparban és a 3D animációkban már régóta használják jelenetek valós idejű felvételére és navigálására. A Stability AI azonban most egy lépéssel tovább ment: generatív mesterséges intelligenciát adott hozzá, ami sokkal nagyobb irányítást és testreszabhatóságot tesz lehetővé.


Hirdetés:



Hogyan működik a Stable Virtual Camera?

Az új modell akár 32 képből is képes „új nézőpontokat” generálni egy jelenetről, a felhasználó által meghatározott kameraszögekből. A technológia olyan videókat hozhat létre, amelyek „dinamikus” kameraútvonalak mentén haladnak, vagy előre beállított mozgásokat követnek, mint például a „Spirál”, a „Dolly Zoom”, a „Mozgás” és a „Pásztázás”.

A Stable Virtual Camera jelenlegi, kutatási előzetes verziója négyzet (1:1), portré (9:16) és tájkép (16:9) képarányú videókat tud generálni, akár 1000 képkocka hosszúságban. Ez komoly előrelépés a korábbi, statikus képgeneráló modellekhez képest.

Korlátok és technikai kihívások

A Stability AI figyelmeztet, hogy a modell bizonyos helyzetekben alacsonyabb minőségű eredményeket produkálhat. Különösen embereket, állatokat vagy „dinamikus textúrákat” – mint például vizet – ábrázoló képeknél lehet problémás a végeredmény.

„A nagyon kétértelmű jelenetek, a tárgyakat vagy felületeket metsző komplex kameraútvonalak és a szabálytalan alakú objektumok villódzó műtermékeket okozhatnak” – jegyzi meg a vállalat, „különösen akkor, ha a célzott nézőpontok jelentősen eltérnek a bemeneti képektől”.

Véleményem szerint ez a technológia hatalmas potenciált rejt magában, de még gyerekcipőben jár. A jelenlegi korlátok ellenére izgalmas látni, hogyan fejlődik a 2D-3D konverzió területe, ami korábban rendkívül munkaigényes folyamat volt.

Elérhetőség és a Stability AI újjászületése

A Stable Virtual Camera kutatási célokra érhető el nem kereskedelmi licenc alatt. A modell az AI fejlesztői platformról, a Hugging Face-ről tölthető le.

A Stable Diffusion képgeneráló modell mögött álló cég az elmúlt évben jelentős átalakuláson ment keresztül. Új befektetőket vonzott, köztük Eric Schmidt-et és Sean Parkert, a Napster alapítóját, akik segítettek a vállalkozás újraindításában. A korábbi pénzügyi gondok után – amelyek Emad Mostaque társalapító és korábbi vezérigazgató állítólagos rossz vezetésének következményei voltak – a Stability új vezetőséget kapott.

Az elmúlt hónapokban a cég új vezérigazgatót nevezett ki, James Cameron filmrendezőt, a „Titanic” alkotóját az igazgatótanácsba hívta, és több új képgeneráló modellt is kiadott. Márciusban a vállalat az Arm chipgyártóval fogott össze, hogy hangeffekteket generáló AI-modellt fejlesszenek Arm chipekkel működő mobileszközökre.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A single 2D photograph transforming into a dynamic 3D video sequence, showing camera movement around a scene, with depth and perspective clearly visible, demonstrated by a creative professional.