A Runway új videógeneráló modellje egészen elképesztő dolgokra képes

A Runway új videógeneráló modellje egészen elképesztő dolgokra képes

A videótechnológiára szakosodott Runway AI cég hétfőn jelentette be legújabb fejlesztését, a Gen-4 nevű kép-videó átalakító mesterséges intelligencia modelljét. Az előző Gen-3 Alpha modell utódjaként érkező technológia számos területen hoz jelentős előrelépést.

A vállalat közösségi média oldalán közzétett bejelentés szerint az új modell már elérhető a fizetős előfizetőknek és vállalati ügyfeleknek. Egyelőre nem tudni, mikor válhat hozzáférhetővé az ingyenes felhasználók számára is.


Hirdetés:



Konzisztencia és fizikai realizmus

A Gen-4 egyik legjelentősebb újítása, hogy képes konzisztens karaktereket, helyszíneket és tárgyakat megjeleníteni a különböző jelenetekben. Mindössze egyetlen referenciaképből kiindulva az AI képes ugyanazt a személyt különböző megvilágítási körülmények között, eltérő helyszíneken és kameraszögekből ábrázolni. Ugyanez vonatkozik a tárgyakra is – egy referenciakép alapján bárhová, bármilyen környezetbe helyezhetők, miközben megőrzik alapvető jellemzőiket.

Ha a felhasználó szöveges leírást is mellékel a referenciaképhez, a modell képes a jelenetet különböző látószögekből megmutatni – legyen szó közelképről vagy széles látószögű oldalnézetről –, olyan részleteket is megjelenítve, amelyek az eredeti képen nem láthatók.

Különösen lenyűgöző a Gen-4 valósághű fizikai modellezése. Amikor a videóban szereplő alanyok kölcsönhatásba lépnek a környezetükkel, az AI realisztikus fizikai viselkedést és mozgást szimulál. A cég demonstrációs videóiban látható, ahogy a víz természetesen fröccsen, vagy a mozgó bokrok életszerűen hajladoznak.

Több kontroll a kreatív alkotóknak

A Runway blogbejegyzése szerint az új modell jelentősen javított prompt-követési képességekkel rendelkezik, ami azt jelenti, hogy pontosabban követi a felhasználói utasításokat. Emellett képes megtartani a jelenetek stílusát, hangulatát és filmes elemeit egyszerű parancsokkal.

Véleményem szerint ezek a fejlesztések komoly előrelépést jelentenek a videótechnológia területén, és jelentősen kibővítik a kreatív szakemberek eszköztárát. Különösen a narratív tartalmak és termékvideók készítői számára lehet értékes, hogy ugyanazt a referenciaképet felhasználva konzisztens videótartalmat hozhatnak létre.

Megválaszolatlan kérdések

A technológiai ugrás ellenére a Runway nem fedte fel, milyen adathalmazon tanították be a Gen-4 modellt a dinamikus és magas minőségű kimenet érdekében. Ez azért is érdekes, mert a cég jelenleg jogi vitában áll művészekkel és konkurens AI-cégekkel, akik azt állítják, hogy a Runway engedély nélkül használ szerzői joggal védett anyagokat a modelljei betanításához.

Az mindenesetre egyértelmű, hogy a videóalapú mesterséges intelligencia fejlesztése hatalmas tempóban halad előre, és a Runway az egyik legkomolyabb szereplője ennek a területnek.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A futuristic film studio with a person using AI to generate a consistent character across multiple scenes, showcasing advanced video generation technology.