Pokémon játékban is manipulálják az AI teszteredményeket

Pokémon játékban is manipulálják az AI teszteredményeket

Az elmúlt napokban érdekes vita bontakozott ki a tech közösségben, miután egy X-en közzétett poszt szerint a Google legújabb Gemini modellje „legyőzte” az Anthropic Claude modelljét az eredeti Pokémon videojáték trilógiában. A bejegyzés szerint a Gemini már elérte Lavender Town-t egy fejlesztő Twitch közvetítésében, míg a Claude még mindig a Mount Moon-nál járt február végén.

Hamar kiderült azonban, hogy a teljes igazság ennél árnyaltabb. Reddit felhasználók rámutattak, hogy a Gemini-t futtató fejlesztő egy egyedi minitérképet készített, amely segíti a modellt a játékban található elemek (például vágható fák) azonosításában. Ez a „segédeszköz” jelentősen csökkenti a Gemini számára szükséges képelemzési feladatokat, mielőtt játékdöntéseket hozna.


Hirdetés:



Nem csak a Pokémonnál fordul elő

Bár a Pokémon teljesítmény mérése félkomoly AI benchmark, és kevesen állítanák, hogy valóban informatív mutatója egy modell képességeinek, mégis jól szemlélteti, hogyan befolyásolhatják a különböző implementációk a teszteredményeket.

Az ilyen jellegű „finomhangolások” más, komolyabb teszteknél is előfordulnak. Az Anthropic például két különböző pontszámot is közölt a Claude 3.7 Sonnet modelljére vonatkozóan a SWE-bench Verified teszten, amely a modellek kódolási képességeit hivatott értékelni. A Claude 3.7 Sonnet alaphelyzetben 62,3%-os pontosságot ért el, de egy „egyedi segédkeretrendszerrel” már 70,3%-ot.

Hasonló esetre bukkanhattunk a Meta háza táján is, amely nemrég a Llama 4 Maverick modelljének egy speciálisan finomhangolt verzióját készítette el, kifejezetten azért, hogy jól teljesítsen egy bizonyos benchmark teszten, az LM Arenán. Az alap modell jelentősen rosszabb eredményt ért el ugyanezen az értékelésen.

Az igazság az, hogy az AI benchmarkok – beleértve a Pokémon játékot is – eleve tökéletlen mérőeszközök, és az egyedi, nem szabványos implementációk csak tovább zavarosítják a helyzetet. Mindez arra utal, hogy a modellek összehasonlítása a jövőben sem lesz egyszerűbb feladat.

Véleményem szerint ez a jelenség aggasztó, mivel a mesterséges intelligencia modellek valódi képességeinek megértését jelentősen megnehezíti. A benchmark eredmények gyakran marketing célokat szolgálnak és sok esetben nem adnak reális képet arról, mire képes egy-egy modell a mindennapi, valós használat során. Az AI fejlesztőknek átláthatóbb és szabványosabb tesztelési módszereket kellene alkalmazniuk, különben a publikált eredmények értéke erősen megkérdőjelezhető marad.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A person comparing AI performance results on multiple screens, showing Pokemon game statistics, in a high-tech office environment, with confused expression, photorealistic, professional lighting.