
A robotok betanítását segíti az Nvidia új AI modellje
Az Nvidia múlt héten bemutatta legújabb mesterséges intelligencia modelljét, amely kifejezetten robotok szimulációs képzésére készült. A Cosmos-Transfer 1 névre keresztelt nagy nyelvi modell (LLM) elsősorban a mesterséges intelligenciával működő robotikai hardverek, más néven fizikai AI-ok fejlesztését célozza meg.
A kaliforniai óriáscég nyílt forráskódú, megengedő licenccel tette elérhetővé az új modellt, amelyet az érdeklődők népszerű online tárhelyekről tölthetnek le. Az Nvidia szerint az új AI modell legnagyobb előnye, hogy a felhasználók részletes irányítást gyakorolhatnak a generált szimulációk felett.
Hirdetés:
Miért fontos a szimulációs robotképzés?
A szimulációs alapú robotképzés jelentősége az utóbbi időben megnőtt a generatív AI technológiák fejlődésének köszönhetően. A robotika ezen ága olyan hardverekkel foglalkozik, amelyek agyként használják a mesterséges intelligenciát. A képzési módszer lényege, hogy a gép „agyát” különböző valós helyzetekben tanítják, így az szélesebb feladatkörrel tud megbirkózni. Ez jelentős előrelépés a jelenlegi gyári robotokhoz képest, amelyeket általában egyetlen feladat elvégzésére terveznek.
Az Nvidia Cosmos-Transfer1 modellje a vállalat Cosmos Transfer világ-alapmodellek (WFM) családjába tartozik. Ezek strukturált videó bemeneteket – szegmentációs térképeket, mélységi térképeket, lidar-szkenneléseket – dolgoznak fel, és fotorealisztikus videó kimeneteket generálnak. Ezek a kimenetek aztán szimulációs környezetként szolgálhatnak a fizikai AI-ok képzéséhez.
Technikai részletek és előnyök
Az arXiv folyóiratban megjelent tanulmányban a vállalat kiemelte, hogy ez a modell nagyobb testreszabhatóságot kínál elődeinél. Lehetővé teszi a különböző feltételes bemenetek súlyozását a térbeli elhelyezkedés alapján. Ez a fejlesztők számára magasfokú irányíthatóságot biztosít a világgenerálás során. További előny a valós idejű világ-generálás, amely gyorsabb és változatosabb képzési folyamatokat tesz lehetővé.
A Cosmos-Transfer1 egy diffúzió-alapú modell hétmilliárd paraméterrel. Videó-zajcsökkentésre tervezték a látens térben, és egy kontroll ággal modulálható. A modell szöveges és videó bemeneteket fogad, és ezek alapján fotorealisztikus kimeneti videókat generál. Négy típusú kontroll bemeneti videót támogat: canny éldetektálást, elmosott RGB-t, szegmentációs maszkot és mélységi térképet.
Az AI modellt az Nvidia Blackwell és Hopper sorozatú chipkészletein tesztelték, és az inferencia Linux operációs rendszeren futott. A techóriás az Nvidia Nyílt Modell Licenc Megállapodással tette elérhetővé az AI modellt, amely mind akadémiai, mind kereskedelmi felhasználást engedélyez.
A Cosmos-Transfer1 AI modell letölthető a vállalat GitHub oldaláról és a Hugging Face listájáról is. A hírek szerint hamarosan egy 14 milliárd paraméteres modell megjelenése is várható.
A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A robot in a simulation environment learning new tasks with Nvidia AI technology, showing both the physical robot and its digital twin in a split-screen layout.