A Tencent új AI modellje állóképeket kelt életre megdöbbentő élethűséggel

2025.05.29. Wéber Anikó Képalkotás

A kínai technológiai óriás, a Tencent kedden mutatta be legújabb mesterséges intelligencia modelljét, amely képes állóképeket élethű animációvá alakítani. A HunyuanPortrait névre keresztelt modell diffúziós architektúrán alapul, és egy referenciaképből, valamint egy vezérlő videóból képes realisztikus animált videókat létrehozni.

Nyílt forráskódú technológia a kreatív iparágak szolgálatában

A Tencent Hunyuan hivatalos közösségi média oldalán jelentette be, hogy a HunyuanPortrait modell mostantól szabadon hozzáférhető a fejlesztői közösség számára. Az érdeklődők a vállalat GitHub és Hugging Face oldalairól tölthetik le a modellt, valamint az arXiv platformon részletes technikai dokumentációt is találhatnak róla. Fontos megjegyezni, hogy a technológia kizárólag akadémiai és kutatási célokra használható, kereskedelmi felhasználása nem engedélyezett.

Hirdetés:

Ha tetszett ez a cikk, kövess minket a Facebookon is!

A modell működésének lényege, hogy képes egy állókép és egy vezérlő videó alapján élethű animációt generálni. A folyamat során a rendszer kinyeri az arcvonásokat és a fej pozícióját a videóból, majd ezeket az információkat átviszi az állóképre. A fejlesztők szerint a mozgásszinkronizálás rendkívül pontos, még a legapróbb mimikai változásokat is képes reprodukálni.

A technológia háttere

A HunyuanPortrait alapját a népszerű Stable Diffusion modellek architektúrája adja, kiegészítve egy speciális vezérlő kódolóval. Ezek az előre betanított kódolók képesek szétválasztani a mozgási információkat és az egyedi jellemzőket a videókban. Az adatokat vezérlőjelekként rögzíti a rendszer, amelyeket aztán egy zajtalanító hálózat (denoising unet) segítségével visz át az állóképre. Ez a megoldás biztosítja mind a térbeli pontosságot, mind az időbeli konzisztenciát a végeredményben.

A Tencent állítása szerint az AI modell felülmúlja a jelenleg elérhető nyílt forráskódú alternatívákat az időbeli konzisztencia és az irányíthatóság terén, bár ezeket a mérőszámokat független források még nem ellenőrizték.

Potenciális alkalmazási területek

Az ilyen típusú modellek különösen hasznosak lehetnek a filmkészítés és az animációs ipar számára. Hagyományosan az animátorok kézzel rajzolják meg a kulcskockákat a mimika ábrázolásához, vagy drága motion capture rendszereket használnak a karakterek élethű animálásához. A HunyuanPortraithez hasonló modellek lehetővé teszik, hogy egyszerűen betáplálják a karakterterveket és a kívánt mozgásokat, arckifejezéseket, és a rendszer automatikusan generálja a végeredményt.

Ez a technológia potenciálisan demokratizálhatja a minőségi animációkészítést, hiszen elérhetővé teheti azt kisebb stúdiók és független alkotók számára is. Ugyanakkor felvet olyan kérdéseket is, hogy miként befolyásolja majd a szakmában dolgozó animátorok helyzetét, illetve milyen etikai megfontolások merülhetnek fel a technológia használata során.

Véleményem szerint a HunyuanPortrait jelentős előrelépés a mesterséges intelligencia által támogatott kreatív eszközök fejlődésében. Bár a technológia még biztosan finomításra szorul, már most látható, hogy alapjaiban változtathatja meg az animációs munkafolyamatokat. A modell nyílt forráskódú közzététele különösen fontos lépés, hiszen lehetővé teszi a szélesebb körű kísérletezést és a technológia további fejlesztését.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A photorealistic portrait of a digital artist working with AI animation software, bringing a still portrait to life with subtle facial movements, professional studio environment, soft lighting, focused expression.