Új skálázási módszer forradalmasíthatja a mesterséges intelligencia teljesítményét

Új skálázási módszer forradalmasíthatja a mesterséges intelligencia teljesítményét

A mesterséges intelligencia fejlesztésében eddig három fő „skálázási törvény” határozta meg, hogyan javítható a modellek teljesítménye: az előképzési, az utóképzési és a futtatási skálázás. Most azonban egy negyedik lehetőség tűnt fel a láthatáron, amelyet a Google és a UC Berkeley kutatói „következtetés-időben történő keresésnek” (inference-time search) neveztek el.

A módszer lényege meglepően egyszerű: ahelyett, hogy egyetlen válaszban bíznánk, a modell párhuzamosan több lehetséges megoldást generál ugyanarra a kérdésre, majd ezek közül választja ki a legjobbat. A kutatók szerint ez a technika akár egy „őskövületnek” számító, 2024 eleji modellt is versenyképessé tehet a legújabb rendszerekkel szemben.


Hirdetés:



Látványos eredmények a laboratóriumban

Eric Zhao, a Google doktori ösztöndíjasa és a tanulmány egyik társszerzője az X-en közzétett bejegyzéssorozatában lelkesen számolt be az eredményekről: „Ha csupán 200 választ generálunk véletlenszerűen és önellenőrzést végzünk, a Gemini 1.5 – ez a kora 2024-es, ‘ősi’ modell – legyőzi az o1-preview-t és megközelíti az o1-et.” Az o1 és o1-preview az OpenAI legújabb, „következtető” képességekkel felruházott modelljei.

„A varázslat abban rejlik, hogy a nagyobb léptékben az önellenőrzés természetesen könnyebbé válik. Azt várnánk, hogy minél több megoldásunk van, annál nehezebb kiválasztani a helyeset, de épp az ellenkezője igaz!” – tette hozzá Zhao.

Szakértők hűtik a lelkesedést

A látványos eredmények ellenére több szakértő is szkeptikus a módszer széles körű alkalmazhatóságával kapcsolatban. Matthew Guzdial, az Alberta Egyetem mesterséges intelligencia kutatója és docense lapunknak elmondta, hogy a megközelítés csak akkor működik jól, ha létezik megfelelő „értékelő függvény” – vagyis amikor egy kérdésre adott legjobb válasz könnyen megállapítható. A valós életben feltett kérdések többsége azonban nem ilyen egyértelmű.

„Ha nem tudjuk kóddal definiálni, mit szeretnénk, akkor nem használhatjuk a következtetés-idejű keresést,” magyarázta Guzdial. „Az általános nyelvi interakciók esetében nem tudjuk ezt megtenni… Általában nem igazán jó megközelítés a legtöbb probléma tényleges megoldására.”

Mike Cook, a londoni King’s College kutatója egyetértett Guzdial értékelésével, hozzátéve, hogy ez rávilágít a szakadékra a mesterséges intelligencia „következtetési” képessége és a valódi emberi gondolkodás között.

„Ez a módszer nem ’emeli magasabb szintre a modell következtetési folyamatát’,” mondta Cook. „Ez csak egy módja annak, hogy megkerüljük egy olyan technológia korlátait, amely hajlamos nagyon magabiztosan alátámasztott hibákat véteni… Intuitívan, ha a modelled 5%-ban téved, akkor ugyanannak a problémának 200 próbálkozását megvizsgálva ezek a hibák könnyebben észrevehetővé válnak.”

Költséghatékonyság kérdése

A módszer korlátai különösen rossz hír lehetnek az MI-ipar számára, amely költséghatékony módon szeretné növelni a modellek „következtetési” képességét. Ahogy a tanulmány társszerzői megjegyzik, a mai következtető modellek akár több ezer dollárnyi számítási kapacitást is felemészthetnek egyetlen matematikai probléma megoldása során.

Bár a következtetés-időben történő keresés bizonyos területeken javíthatja a teljesítményt, úgy tűnik, a tökéletes skálázási módszer keresése tovább folytatódik. Az iparág nagy reményeket fűz minden új megközelítéshez, amely csökkentheti a fejlett MI-modellek üzemeltetési költségeit, miközben javítja azok pontosságát és megbízhatóságát.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A sophisticated tech journalist sitting at her desk analyzing AI scaling laws, surrounded by holographic displays showing comparative performance metrics of different AI models.