
Kudarcot vallottak a legfejlettebb AI modellek az új intelligenciateszten
Az Arc Prize Foundation bejelentette az ARC-AGI-2 elnevezésű új tesztjét, amellyel a mesterséges intelligencia modellek általános intelligenciáját kívánja mérni. Az eredmények meglepőek: a legfejlettebb AI rendszerek mindössze 1-1,3% körüli eredményt értek el, míg az emberek átlagosan 60%-os pontosságot mutattak ugyanezen a feladatsoron.
A François Chollet, neves AI kutató által társalapított nonprofit szervezet hétfői blogbejegyzésében ismertette az új kihívást. A teszt lényege, hogy az AI-nak különböző színű négyzetekből álló vizuális mintázatokat kell felismernie, majd ezek alapján kell létrehoznia a helyes „válasz” rácsot. A feladatokat úgy tervezték, hogy az AI-nak olyan új problémákhoz kelljen alkalmazkodnia, amelyekkel korábban nem találkozott.
Hirdetés:
Lesújtó eredmények a csúcstechnológiás modellektől
Az Arc Prize rangsora szerint a kifejezetten következtetésre tervezett modellek, mint az OpenAI o1-pro vagy a DeepSeek R1, mindössze 1-1,3%-os eredményt értek el az ARC-AGI-2 teszten. A nagy teljesítményű, nem kifejezetten következtetésre specializált modellek – köztük a GPT-4.5, a Claude 3.7 Sonnet és a Gemini 2.0 Flash – körülbelül 1%-os pontszámot szereztek.
Chollet az X platformon közzétett bejegyzésében kifejtette, hogy az ARC-AGI-2 jobban méri egy AI modell valódi intelligenciáját, mint az első verzió. Míg az ARC-AGI-1 tesztet az OpenAI o3 modellje tavaly decemberben végül „megoldotta”, az új teszt olyan kihívások elé állítja a rendszereket, amelyeket nem lehet pusztán nyers számítási erővel leküzdeni.
A hatékonyság mint kulcsfontosságú mérőszám
Az Arc Prize Foundation társalapítója, Greg Kamradt hangsúlyozta: „Az intelligenciát nem kizárólag a problémamegoldó képesség vagy a magas pontszámok határozzák meg. Legalább ennyire fontos összetevő az a hatékonyság, amellyel ezeket a képességeket elsajátítják és alkalmazzák. A központi kérdés nem csupán az, hogy ‘képes-e az AI elsajátítani a feladat megoldásához szükséges készséget’, hanem az is, hogy ‘milyen hatékonysággal vagy költséggel?'”
Ez a megközelítés jól látszik a konkrét eredményeken is. Az OpenAI o3 modellje, amely korábban 75,7%-os eredményt ért el az ARC-AGI-1 teszten, az új kihíváson mindössze 4%-ot teljesített, miközben feladatonként 200 dollár értékű számítási kapacitást használt fel.
Véleményem szerint ez az új mérce két szempontból is rendkívül fontos. Egyrészt leleplezi, hogy mennyire távol állunk még a valódi általános mesterséges intelligenciától, másrészt rávilágít arra, hogy az AI fejlesztésben nem csupán a nyers erő, hanem az elegáns, hatékony megoldások jelentik a valódi előrelépést.
Új versenykiírás hatékonyabb megoldásokra
Az új teszt bejelentésével egyidejűleg az Arc Prize Foundation meghirdette az Arc Prize 2025 versenyt is, amely arra ösztönzi a fejlesztőket, hogy 85%-os pontosságot érjenek el az ARC-AGI-2 teszten, miközben feladatonként mindössze 0,42 dollárt költenek számítási kapacitásra.
Az ARC-AGI-2 megjelenése egybeesik azzal az iparági igénnyel, hogy új, még megoldatlan referenciaértékeket hozzanak létre az AI fejlődésének mérésére. A Hugging Face társalapítója, Thomas Wolf nemrég kijelentette, hogy az AI iparág nem rendelkezik elegendő teszttel az úgynevezett általános mesterséges intelligencia kulcsfontosságú tulajdonságainak – például a kreativitásnak – a mérésére.
Az új teszt bebizonyította: hiába a lenyűgöző teljesítmény egyes specifikus területeken, az igazi rugalmasságot és alkalmazkodóképességet igénylő általános intelligencia terén még óriási a szakadék az emberi és a gépi képességek között.
A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A serious-looking AI researcher analyzing colorful grid patterns on multiple screens, comparing human vs AI performance on intelligence tests, modern tech environment, documentary style.