Kudarcot vallottak a legfejlettebb AI modellek az új intelligenciateszten

Kudarcot vallottak a legfejlettebb AI modellek az új intelligenciateszten

Az Arc Prize Foundation bejelentette az ARC-AGI-2 elnevezésű új tesztjét, amellyel a mesterséges intelligencia modellek általános intelligenciáját kívánja mérni. Az eredmények meglepőek: a legfejlettebb AI rendszerek mindössze 1-1,3% körüli eredményt értek el, míg az emberek átlagosan 60%-os pontosságot mutattak ugyanezen a feladatsoron.

A François Chollet, neves AI kutató által társalapított nonprofit szervezet hétfői blogbejegyzésében ismertette az új kihívást. A teszt lényege, hogy az AI-nak különböző színű négyzetekből álló vizuális mintázatokat kell felismernie, majd ezek alapján kell létrehoznia a helyes „válasz” rácsot. A feladatokat úgy tervezték, hogy az AI-nak olyan új problémákhoz kelljen alkalmazkodnia, amelyekkel korábban nem találkozott.


Hirdetés:



Lesújtó eredmények a csúcstechnológiás modellektől

Az Arc Prize rangsora szerint a kifejezetten következtetésre tervezett modellek, mint az OpenAI o1-pro vagy a DeepSeek R1, mindössze 1-1,3%-os eredményt értek el az ARC-AGI-2 teszten. A nagy teljesítményű, nem kifejezetten következtetésre specializált modellek – köztük a GPT-4.5, a Claude 3.7 Sonnet és a Gemini 2.0 Flash – körülbelül 1%-os pontszámot szereztek.

Chollet az X platformon közzétett bejegyzésében kifejtette, hogy az ARC-AGI-2 jobban méri egy AI modell valódi intelligenciáját, mint az első verzió. Míg az ARC-AGI-1 tesztet az OpenAI o3 modellje tavaly decemberben végül „megoldotta”, az új teszt olyan kihívások elé állítja a rendszereket, amelyeket nem lehet pusztán nyers számítási erővel leküzdeni.

A hatékonyság mint kulcsfontosságú mérőszám

Az Arc Prize Foundation társalapítója, Greg Kamradt hangsúlyozta: „Az intelligenciát nem kizárólag a problémamegoldó képesség vagy a magas pontszámok határozzák meg. Legalább ennyire fontos összetevő az a hatékonyság, amellyel ezeket a képességeket elsajátítják és alkalmazzák. A központi kérdés nem csupán az, hogy ‘képes-e az AI elsajátítani a feladat megoldásához szükséges készséget’, hanem az is, hogy ‘milyen hatékonysággal vagy költséggel?'”

Ez a megközelítés jól látszik a konkrét eredményeken is. Az OpenAI o3 modellje, amely korábban 75,7%-os eredményt ért el az ARC-AGI-1 teszten, az új kihíváson mindössze 4%-ot teljesített, miközben feladatonként 200 dollár értékű számítási kapacitást használt fel.

Véleményem szerint ez az új mérce két szempontból is rendkívül fontos. Egyrészt leleplezi, hogy mennyire távol állunk még a valódi általános mesterséges intelligenciától, másrészt rávilágít arra, hogy az AI fejlesztésben nem csupán a nyers erő, hanem az elegáns, hatékony megoldások jelentik a valódi előrelépést.

Új versenykiírás hatékonyabb megoldásokra

Az új teszt bejelentésével egyidejűleg az Arc Prize Foundation meghirdette az Arc Prize 2025 versenyt is, amely arra ösztönzi a fejlesztőket, hogy 85%-os pontosságot érjenek el az ARC-AGI-2 teszten, miközben feladatonként mindössze 0,42 dollárt költenek számítási kapacitásra.

Az ARC-AGI-2 megjelenése egybeesik azzal az iparági igénnyel, hogy új, még megoldatlan referenciaértékeket hozzanak létre az AI fejlődésének mérésére. A Hugging Face társalapítója, Thomas Wolf nemrég kijelentette, hogy az AI iparág nem rendelkezik elegendő teszttel az úgynevezett általános mesterséges intelligencia kulcsfontosságú tulajdonságainak – például a kreativitásnak – a mérésére.

Az új teszt bebizonyította: hiába a lenyűgöző teljesítmény egyes specifikus területeken, az igazi rugalmasságot és alkalmazkodóképességet igénylő általános intelligencia terén még óriási a szakadék az emberi és a gépi képességek között.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A serious-looking AI researcher analyzing colorful grid patterns on multiple screens, comparing human vs AI performance on intelligence tests, modern tech environment, documentary style.