
A Google DeepMind új mesterséges intelligencia rendszere képes robotokat irányítani
A Google DeepMind csütörtökön jelentette be legújabb fejlesztését: két új mesterséges intelligencia modellt, amelyek képesek valós környezetben irányítani robotokat különböző feladatok elvégzésére. A Gemini Robotics és a Gemini Robotics-ER névre keresztelt rendszerek fejlett látás-nyelv modellek, amelyek térbeli intelligenciát és fizikai cselekvéseket tudnak végrehajtani.
A robotikai AI modellek képességei
Carolina Parada, a Google DeepMind robotika részlegének vezetője elmondta, hogy ahhoz, hogy az AI valóban hasznos segítőtárs legyen a fizikai világban, „megtestesült” gondolkodási képességgel kell rendelkeznie – vagyis képesnek kell lennie a fizikai világgal való interakcióra, annak megértésére és a feladatok elvégzéséhez szükséges cselekvések végrehajtására.
Hirdetés:
A Gemini Robotics egy fejlett látás-nyelv-cselekvés (VLA) modell, amely a Gemini 2.0 rendszerre épül. Az új modell legfontosabb újítása, hogy a „fizikai cselekvések” kimeneti módot is támogatja, ami lehetővé teszi a robotok közvetlen irányítását.
A DeepMind szerint a robotikai AI modelleknek három kulcsfontosságú képességgel kell rendelkezniük: általános alkalmazhatóság, interaktivitás és ügyesség. Az általános alkalmazhatóság azt jelenti, hogy a modell képes alkalmazkodni különböző helyzetekhez. A belső tesztek alapján a kutatók megállapították, hogy az új AI modell több mint kétszeresére növeli a teljesítményt egy átfogó alkalmazhatósági tesztben.
Interaktivitás és precíz mozgás
A Gemini Robotics interaktivitása a Gemini 2.0 alapjaira épül, és megérti valamint reagál a hétköznapi, társalgási nyelven és különböző nyelveken megfogalmazott utasításokra. A Google szerint a modell folyamatosan figyeli környezetét, észleli a környezet vagy az utasítások változásait, és ennek megfelelően módosítja tevékenységét.
A DeepMind állítása szerint a Gemini Robotics rendkívül összetett, többlépéses feladatokat is képes végrehajtani, amelyek a fizikai környezet precíz manipulálását igénylik. A kutatók elmondták, hogy az AI modell képes robotokat irányítani egy papírlap összehajtásához vagy egy snack zacskóba csomagolásához.
Fejlett térbeli gondolkodás
A második AI modell, a Gemini Robotics-ER szintén egy látás-nyelv modell, de elsősorban a térbeli gondolkodásra összpontosít. A Gemini 2.0 kódolási és 3D-észlelési képességeire építve az AI modell képes megérteni, hogy milyen mozdulatokra van szükség egy valós tárgy manipulálásához. Parada egy példát is megemlített: amikor a modellnek egy kávésbögrét mutattak, képes volt generálni egy utasítást kétujjas fogásra, hogy a fülénél fogva emelje fel a bögrét egy biztonságos pályán.
Az AI modell számos lépést hajt végre, amelyek a robot fizikai világban történő irányításához szükségesek, beleértve az észlelést, állapotbecslést, térbeli megértést, tervezést és kódgenerálást.
A Google DeepMind azt is bejelentette, hogy az Apptronik céggel együttműködve Gemini 2.0 technológiával működő humanoid robotokat épít. A két mesterséges intelligencia modell egyike sem érhető el jelenleg a nyilvánosság számára. A DeepMind valószínűleg először humanoid robotokba integrálja az AI modelleket, és értékeli képességeiket, mielőtt piacra dobná a technológiát.
Véleményem szerint ez a fejlesztés jelentős előrelépést jelent a robotika és a mesterséges intelligencia integrációjában. A fizikai világban alkalmazható AI lehetőségei hatalmasak, ugyanakkor rengeteg kihívást is rejt magában a biztonságos implementáció. Különösen izgalmas, hogy a modell képes hétköznapi nyelven kommunikálni és értelmezni az utasításokat, ami közelebb hozza azt a jövőt, amikor a robotok valóban hasznos segítőtársként működhetnek otthonokban és munkahelyeken egyaránt.
A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A sleek robot arm controlled by AI, precisely folding a piece of paper in a modern lab setting with a human researcher observing the process, demonstrating human-robot collaboration.