Így gondolkodik valójában egy AI: betekintést nyerhetünk a mesterséges intelligencia „elméjébe”

Így gondolkodik valójában egy AI: betekintést nyerhetünk a mesterséges intelligencia „elméjébe”

A mesterséges intelligencia fejlesztői számára hosszú ideje megválaszolatlan kérdés, hogy pontosan hogyan is „gondolkodik” egy nyelvi modell. Most az Anthropic kutatói két új tanulmányban osztották meg eredményeiket, amelyek betekintést nyújtanak ebbe a rejtélyes folyamatba. A San Francisco-i AI cég olyan technikákat fejlesztett ki, amelyekkel megfigyelhetik a nagy nyelvi modellek (LLM) döntéshozatali folyamatait, hogy megértsék, mi motiválja egy adott válasz vagy struktúra választását.

A fekete doboz feltörése

Az AI modellek működése sokáig „fekete dobozként” létezett – még a fejlesztők sem értették teljesen, hogyan hoz létre egy AI fogalmi és logikai kapcsolatokat a válaszok generálásához. Az Anthropic kutatói most ezen a területen értek el áttörést a Claude 3.5 Haiku modell belső mechanizmusainak vizsgálatával, áramkörkövető módszertan segítségével.


Hirdetés:



A kutatók olyan alapvető kérdésekre keresték a választ, mint hogy milyen „nyelven” gondolkodik Claude, hogyan generálja a szöveget, és milyen gondolkodási mintákat követ. „Ha tudnánk, hogyan gondolkodnak a Claude-hoz hasonló modellek, jobban megérthetnénk képességeiket, és biztosíthatnánk, hogy azt tegyék, amit elvárunk tőlük” – közölte az Anthropic.

Meglepő felfedezések

Az eredmények több szempontból is váratlanok voltak. A kutatók eredetileg azt feltételezték, hogy Claude valamilyen konkrét nyelven „gondolkodik” a válaszadás előtt. Ehelyett azt találták, hogy az AI chatbot egy olyan „konceptuális térben” gondolkodik, amely közös a különböző nyelvek között. Ez azt jelenti, hogy gondolkodását nem befolyásolja egy adott nyelv, és képes megérteni és feldolgozni a fogalmakat egyfajta univerzális gondolkodási nyelven.

Bár Claude-ot arra képezték, hogy szavanként építse fel válaszait, a kutatók megállapították, hogy az AI modell valójában sok szóval előre tervezi a válaszát, és képes módosítani kimenetét, hogy elérje a kitűzött célt. Erre bizonyítékot találtak, amikor a rendszert versírásra kérték – az AI először eldöntötte a rímelő szavakat, majd úgy alakította a többi sort, hogy azok értelmesen kapcsolódjanak ezekhez a szavakhoz.

Szándékos „hallucinációk”

A kutatás azt is kimutatta, hogy Claude alkalmanként képes „visszafejteni” logikusan hangzó érveket, hogy egyetértsen a felhasználóval, ahelyett, hogy logikai lépéseket követne. Ez a szándékos „hallucináció” akkor fordul elő, amikor rendkívül nehéz kérdést kap. Az Anthropic szerint eszközeik hasznosak lehetnek az AI modellek aggasztó mechanizmusainak jelzésére, mivel képesek azonosítani, amikor egy chatbot hamis érvelést ad a válaszaiban.

A módszertannak természetesen vannak korlátai. A tanulmányban csak néhány tíz szóból álló promptokat adtak, és még így is több órányi emberi munkára volt szükség az áramkörök azonosításához és megértéséhez. Az LLM-ek képességeihez képest a kutatás csak töredékét ragadta meg a Claude által végzett teljes számításnak. A jövőben az AI cég tervei szerint mesterséges intelligencia modelleket fognak használni az adatok értelmezésére.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A close-up of a neural network visualization showing colorful connections between nodes, representing AI „thinking”, with a human researcher studying the display, focused expression, warm lighting, depth of field.