
A Super Mario Bros. komolyabban próbára teszi az AI-t, mint gondoltuk volna
A mesterséges intelligencia képességeinek tesztelésében új fejezet nyílt: míg korábban a Pokémont tartották az egyik legösszetettebb kihívásnak az AI-rendszerek számára, most a klasszikus Super Mario Bros. lépett elő mint még nehezebb akadálypálya a legmodernebb modellek számára.
A Kaliforniai Egyetem San Diego kampuszán működő Hao AI Lab kutatói pénteken különböző csúcskategóriás AI-modelleket vetettek be élő Super Mario Bros. játékokban. Az eredmények meglepőek: az Anthropic Claude 3.7 teljesített a legjobban, mögötte pedig a Claude 3.5 végzett. Ezzel szemben a Google Gemini 1.5 Pro és az OpenAI GPT-4o modelljei feltűnően gyengébben szerepeltek.
Hirdetés:
Hogyan játszik az AI?
A kísérletben használt Mario játék nem pontosan az 1985-ös eredeti verzió volt, hanem egy emulátorban futó változat, amelyet a kutatók által fejlesztett GamingAgent keretrendszerrel integráltak. Ez a rendszer lehetővé tette az AI-modellek számára, hogy átvegyék az irányítást Mario felett.
A GamingAgent alapvető utasításokat adott az AI-nak, például: „Ha akadály vagy ellenség van a közelben, mozogj/ugorj balra az elkerüléshez”, valamint folyamatosan küldte a játék képernyőképeit. Az AI ezek alapján Python kódot generált Mario irányításához.
A kutatás során kiderült, hogy a játék rákényszerítette a modelleket, hogy megtanuljanak összetett manővereket tervezni és játékstratégiákat fejleszteni. Érdekes módon az OpenAI o1-hez hasonló „reasoning” (következtető) modellek, amelyek lépésről lépésre gondolkodnak a problémák megoldásán, rosszabbul teljesítettek a „non-reasoning” modellekhez képest, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérő feladatban.
Miért okoz gondot a valós idejű játék?
A kutatók szerint a következtető modellek egyik fő hátránya a valós idejű játékokban, hogy viszonylag sok időt – általában másodperceket – igényelnek a döntéshozatalhoz. A Super Mario Bros. esetében azonban az időzítés kulcsfontosságú: egyetlen másodperc is eldöntheti, hogy egy ugrás sikeres lesz-e, vagy Mario a halálba zuhan.
Bár a játékokat már évtizedek óta használják az AI teljesítményének mérésére, számos szakértő megkérdőjelezi, hogy mennyire lehet párhuzamot vonni a játékokban nyújtott teljesítmény és a technológiai fejlettség között. A játékok általában absztraktabbak és egyszerűbbek a valós világnál, ráadásul elméletileg végtelen mennyiségű adatot szolgáltatnak az AI betanításához.
Andrej Karpathy, az OpenAI kutatója és alapító tagja szerint jelenleg egyfajta „értékelési válságban” vagyunk. „Őszintén szólva nem igazán tudom, milyen mérőszámokat kellene figyelnem az AI-modelleknél” – írta egy bejegyzésben. „Röviden: nem igazán tudom, mennyire jók ezek a modellek jelenleg.”
A látványos játék-teljesítmények ellenére tehát továbbra is nyitott kérdés, hogyan mérjük pontosan az AI-rendszerek képességeit. De legalább addig is nézhetjük, ahogy az AI Mariót irányítja.
A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A detailed image showing an AI system playing Super Mario Bros., with a split screen showing Mario on one side and colorful neural networks visualized on the other side, representing the AI’s decision-making process.