
A Tencent új AI modellje állóképeket kelt életre megdöbbentő élethűséggel
A kínai technológiai óriás, a Tencent kedden mutatta be legújabb mesterséges intelligencia modelljét, amely képes állóképeket élethű animációvá alakítani. A HunyuanPortrait névre keresztelt modell diffúziós architektúrán alapul, és egy referenciaképből, valamint egy vezérlő videóból képes realisztikus animált videókat létrehozni.
Nyílt forráskódú technológia a kreatív iparágak szolgálatában
A Tencent Hunyuan hivatalos közösségi média oldalán jelentette be, hogy a HunyuanPortrait modell mostantól szabadon hozzáférhető a fejlesztői közösség számára. Az érdeklődők a vállalat GitHub és Hugging Face oldalairól tölthetik le a modellt, valamint az arXiv platformon részletes technikai dokumentációt is találhatnak róla. Fontos megjegyezni, hogy a technológia kizárólag akadémiai és kutatási célokra használható, kereskedelmi felhasználása nem engedélyezett.
Hirdetés:
A modell működésének lényege, hogy képes egy állókép és egy vezérlő videó alapján élethű animációt generálni. A folyamat során a rendszer kinyeri az arcvonásokat és a fej pozícióját a videóból, majd ezeket az információkat átviszi az állóképre. A fejlesztők szerint a mozgásszinkronizálás rendkívül pontos, még a legapróbb mimikai változásokat is képes reprodukálni.
A technológia háttere
A HunyuanPortrait alapját a népszerű Stable Diffusion modellek architektúrája adja, kiegészítve egy speciális vezérlő kódolóval. Ezek az előre betanított kódolók képesek szétválasztani a mozgási információkat és az egyedi jellemzőket a videókban. Az adatokat vezérlőjelekként rögzíti a rendszer, amelyeket aztán egy zajtalanító hálózat (denoising unet) segítségével visz át az állóképre. Ez a megoldás biztosítja mind a térbeli pontosságot, mind az időbeli konzisztenciát a végeredményben.
A Tencent állítása szerint az AI modell felülmúlja a jelenleg elérhető nyílt forráskódú alternatívákat az időbeli konzisztencia és az irányíthatóság terén, bár ezeket a mérőszámokat független források még nem ellenőrizték.
Potenciális alkalmazási területek
Az ilyen típusú modellek különösen hasznosak lehetnek a filmkészítés és az animációs ipar számára. Hagyományosan az animátorok kézzel rajzolják meg a kulcskockákat a mimika ábrázolásához, vagy drága motion capture rendszereket használnak a karakterek élethű animálásához. A HunyuanPortraithez hasonló modellek lehetővé teszik, hogy egyszerűen betáplálják a karakterterveket és a kívánt mozgásokat, arckifejezéseket, és a rendszer automatikusan generálja a végeredményt.
Ez a technológia potenciálisan demokratizálhatja a minőségi animációkészítést, hiszen elérhetővé teheti azt kisebb stúdiók és független alkotók számára is. Ugyanakkor felvet olyan kérdéseket is, hogy miként befolyásolja majd a szakmában dolgozó animátorok helyzetét, illetve milyen etikai megfontolások merülhetnek fel a technológia használata során.
Véleményem szerint a HunyuanPortrait jelentős előrelépés a mesterséges intelligencia által támogatott kreatív eszközök fejlődésében. Bár a technológia még biztosan finomításra szorul, már most látható, hogy alapjaiban változtathatja meg az animációs munkafolyamatokat. A modell nyílt forráskódú közzététele különösen fontos lépés, hiszen lehetővé teszi a szélesebb körű kísérletezést és a technológia további fejlesztését.
A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A photorealistic portrait of a digital artist working with AI animation software, bringing a still portrait to life with subtle facial movements, professional studio environment, soft lighting, focused expression.