A Google DeepMind új mesterséges intelligencia rendszere képes robotokat irányítani

A Google DeepMind új mesterséges intelligencia rendszere képes robotokat irányítani

A Google DeepMind csütörtökön jelentette be legújabb fejlesztését: két új mesterséges intelligencia modellt, amelyek képesek valós környezetben irányítani robotokat különböző feladatok elvégzésére. A Gemini Robotics és a Gemini Robotics-ER névre keresztelt rendszerek fejlett látás-nyelv modellek, amelyek térbeli intelligenciát és fizikai cselekvéseket tudnak végrehajtani.

A robotikai AI modellek képességei

Carolina Parada, a Google DeepMind robotika részlegének vezetője elmondta, hogy ahhoz, hogy az AI valóban hasznos segítőtárs legyen a fizikai világban, „megtestesült” gondolkodási képességgel kell rendelkeznie – vagyis képesnek kell lennie a fizikai világgal való interakcióra, annak megértésére és a feladatok elvégzéséhez szükséges cselekvések végrehajtására.


Hirdetés:



A Gemini Robotics egy fejlett látás-nyelv-cselekvés (VLA) modell, amely a Gemini 2.0 rendszerre épül. Az új modell legfontosabb újítása, hogy a „fizikai cselekvések” kimeneti módot is támogatja, ami lehetővé teszi a robotok közvetlen irányítását.

A DeepMind szerint a robotikai AI modelleknek három kulcsfontosságú képességgel kell rendelkezniük: általános alkalmazhatóság, interaktivitás és ügyesség. Az általános alkalmazhatóság azt jelenti, hogy a modell képes alkalmazkodni különböző helyzetekhez. A belső tesztek alapján a kutatók megállapították, hogy az új AI modell több mint kétszeresére növeli a teljesítményt egy átfogó alkalmazhatósági tesztben.

Interaktivitás és precíz mozgás

A Gemini Robotics interaktivitása a Gemini 2.0 alapjaira épül, és megérti valamint reagál a hétköznapi, társalgási nyelven és különböző nyelveken megfogalmazott utasításokra. A Google szerint a modell folyamatosan figyeli környezetét, észleli a környezet vagy az utasítások változásait, és ennek megfelelően módosítja tevékenységét.

A DeepMind állítása szerint a Gemini Robotics rendkívül összetett, többlépéses feladatokat is képes végrehajtani, amelyek a fizikai környezet precíz manipulálását igénylik. A kutatók elmondták, hogy az AI modell képes robotokat irányítani egy papírlap összehajtásához vagy egy snack zacskóba csomagolásához.

Fejlett térbeli gondolkodás

A második AI modell, a Gemini Robotics-ER szintén egy látás-nyelv modell, de elsősorban a térbeli gondolkodásra összpontosít. A Gemini 2.0 kódolási és 3D-észlelési képességeire építve az AI modell képes megérteni, hogy milyen mozdulatokra van szükség egy valós tárgy manipulálásához. Parada egy példát is megemlített: amikor a modellnek egy kávésbögrét mutattak, képes volt generálni egy utasítást kétujjas fogásra, hogy a fülénél fogva emelje fel a bögrét egy biztonságos pályán.

Az AI modell számos lépést hajt végre, amelyek a robot fizikai világban történő irányításához szükségesek, beleértve az észlelést, állapotbecslést, térbeli megértést, tervezést és kódgenerálást.

A Google DeepMind azt is bejelentette, hogy az Apptronik céggel együttműködve Gemini 2.0 technológiával működő humanoid robotokat épít. A két mesterséges intelligencia modell egyike sem érhető el jelenleg a nyilvánosság számára. A DeepMind valószínűleg először humanoid robotokba integrálja az AI modelleket, és értékeli képességeiket, mielőtt piacra dobná a technológiát.

Véleményem szerint ez a fejlesztés jelentős előrelépést jelent a robotika és a mesterséges intelligencia integrációjában. A fizikai világban alkalmazható AI lehetőségei hatalmasak, ugyanakkor rengeteg kihívást is rejt magában a biztonságos implementáció. Különösen izgalmas, hogy a modell képes hétköznapi nyelven kommunikálni és értelmezni az utasításokat, ami közelebb hozza azt a jövőt, amikor a robotok valóban hasznos segítőtársként működhetnek otthonokban és munkahelyeken egyaránt.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A sleek robot arm controlled by AI, precisely folding a piece of paper in a modern lab setting with a human researcher observing the process, demonstrating human-robot collaboration.