Alibaba új videógeneráló AI-modellje már otthoni gépen is futtatható

Alibaba új videógeneráló AI-modellje már otthoni gépen is futtatható

Az Alibaba a napokban jelentette be új, mesterséges intelligencia alapú videógeneráló modelljeit, melyeket Wan 2.1 néven bocsátott a felhasználók rendelkezésére. A kínai techóriás open-source megoldásai mostantól mind akadémiai, mind kereskedelmi célokra felhasználhatók – bizonyos korlátozásokkal.

Négy különböző modell, többféle felhasználási lehetőség

A Hugging Face AI platformon már elérhető modellek négy különböző változatban kerültek kiadásra: T2V-1.3B, T2V-14B, I2V-14B-720P és I2V-14B-480P. Az elnevezések utalnak funkciójukra is, a T2V (text-to-video) szövegből generál videót, míg az I2V (image-to-video) állóképekből állít elő mozgóképet.


Hirdetés:



A legkisebb változat, a Wan 2.1 T2V-1.3B, talán a legérdekesebb a hétköznapi felhasználók számára. Ez a modell egy átlagos, játékra szánt videokártyán is futtatható, mindössze 8,19 GB VRAM szükséges hozzá. Egy Nvidia RTX 4090 kártyával például körülbelül négy perc alatt képes 480p felbontású, öt másodperces videót generálni.

Technikai újítások a háttérben

A modellek fejlesztői egy újszerű architektúrát alkalmaztak: diffúziós transzformer alapokra építve, de számos innovációval kiegészítve. A legjelentősebb újítás az úgynevezett Wan-VAE, egy 3D kauzális variációs autoencoder, amely jelentősen javítja a téridőbeli tömörítést és csökkenti a memóriahasználatot.

Ez az autoencoder korlátlan hosszúságú, akár 1080p felbontású videókat is képes kódolni és dekódolni anélkül, hogy elveszítené a korábbi időbeli információkat. Ennek köszönhetően a generált videók rendkívül koherensek, a szereplők és tárgyak konzisztensen jelennek meg a teljes felvételen.

Kínai kihívás az OpenAI-nak

Az Alibaba fejlesztői csapata belső tesztelései alapján azt állítja, hogy a Wan 2.1 modellek több szempontból is felülmúlják az OpenAI sokat emlegetett Sora videógeneráló modelljét. A konzisztencia, a jelenetgenerálás minősége, az egyes objektumok pontossága és a térbeli pozicionálás terén is jobbnak bizonyultak a kínai megoldások. Ugyanakkor fontos megjegyezni, hogy ezeket az eredményeket független kutatók még nem ellenőrizték.

Szabadon használható, de korlátokkal

A Wan 2.1 modellek az Apache 2.0 licenc alatt érhetők el, ami akadémiai és kutatási célokra korlátlan használatot tesz lehetővé. A kereskedelmi felhasználásra azonban már számos megszorítás vonatkozik, így a vállalkozásoknak érdemes alaposan átböngészniük a licencfeltételeket, mielőtt üzleti projektekbe építenék a technológiát.

Az új modellek angol és kínai nyelvű szöveges bemeneteket egyaránt elfogadnak, emellett képes bemenetekkel is dolgozhatnak. Bár a jelenlegi változatok elsődlegesen videógenerálásra készültek, a fejlesztők szerint a jövőbeli kiadások képgenerálásra, videóból hang előállítására, valamint videószerkesztésre is alkalmasak lesznek.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A young programmer experimenting with Alibaba’s Wan 2.1 AI video generation model on a home computer setup with a modern GPU, showing a generated video on screen.