A Google DeepMind új robotvezérlő AI-ja egyszerű hangparancsokra hajtogat papírt

2025.03.13. Kornél Hartung Üzleti

Jelentős előrelépést tett a Google DeepMind a robotika területén. A tech óriás AI-kutatólaborja szerdán mutatta be a Gemini Robotics névre keresztelt mesterséges intelligencia modelljeit, amelyek célja, hogy a valós környezetben működő gépeket a mainál jóval rugalmasabbá tegyék.

Az új technológia több különleges képességgel rendelkezik: a robotok könnyedén kezelnek tárgyakat, navigálnak különböző környezetekben, és mindezt emberi hangutasításokra teszik. A DeepMind több demonstrációs videót is közzétett, amelyeken látható, ahogy a Gemini Robotics rendszerrel felszerelt robotok hétköznapi feladatokat végeznek el, például papírt hajtogatnak, szemüveget helyeznek tokba – mindezt egyszerű hanggal kiadott parancsokra.

Hirdetés:

Ha tetszett ez a cikk, kövess minket a Facebookon is!

Hardverfüggetlen tanulás

A laboratórium közlése szerint a technológia egyik legfontosabb előnye, hogy a Gemini Robotics képes általánosítani a viselkedést különböző robotikai hardverek között. Ez gyakorlatilag azt jelenti, hogy ugyanaz a mesterséges intelligencia modell többféle robot irányítására is alkalmas lehet minimális módosításokkal.

A rendszer intelligenciája abban is megmutatkozik, hogy képes összekapcsolni a robot által „látott” tárgyakat azokkal a lehetséges cselekvésekkel, amiket ezekkel a tárgyakkal végre lehet hajtani. Ez az emberi gondolkodáshoz hasonló képesség teszi lehetővé, hogy a robotok a megfelelő kontextusban értsék meg a feladatokat.

Véleményem szerint ez az a terület, ahol az AI végre kilép a virtuális világból, és kézzelfogható hatást gyakorol a fizikai valóságra – ez pedig a robotika egyik szent grálja évtizedek óta.

Túllép a betanításon

A DeepMind állítása szerint a Gemini Robotics igazi értéke a rugalmasságában rejlik. A vállalat által végzett tesztekben a robotok olyan környezetekben is jól teljesítettek, amelyek nem szerepeltek a betanítási adatokban. Ez azt jelenti, hogy nem csak előre programozott rutinokat hajtanak végre, hanem képesek alkalmazkodni az új helyzetekhez is.

A tudósok és mérnökök számára különösen jó hír, hogy a DeepMind elérhetővé tett egy egyszerűsített modellt is Gemini Robotics-ER néven. Ezt más kutatók is felhasználhatják saját robotvezérlő modelljeik betanításához, ami felgyorsíthatja a területen zajló innovációt.

Biztonság is számít

A robotikai AI-rendszerek terjedésével a biztonsági kérdések is előtérbe kerülnek. Éppen ezért a DeepMind egy Asimov nevű benchmarkot (teljesítménymérő eszközt) is kibocsátott, amely az AI-vezérelt robotok kockázatainak felmérésére szolgál. A név egyértelmű tisztelgés Isaac Asimov sci-fi író előtt, aki a robotika három törvényét megfogalmazta.

Szakmai szemmel nézve a Gemini Robotics megjelenése komoly lépés az univerzális robotikai vezérlés irányába. Míg a mai ipari robotok többsége még mindig szűk feladatkörre specializált, az ehhez hasonló AI-rendszerek lehetővé tehetik az általános célú robotok elterjedését a következő évtizedben.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A robot equipped with Google DeepMind’s Gemini Robotics AI system folding paper after receiving a voice command, in a modern laboratory, with a researcher watching nearby.