
A mesterséges intelligencia legnehezebb feladata a pontos hivatkozás
A mesterséges intelligencia egyik legégetőbb problémája ma a pontos hivatkozások kezelése. Mint szakmai körökben egyre többször hangzik el, a nyelvi modellek hivatkozási pontossága nagyban függ attól, hogy a rendszer milyen szinten dolgozza fel az információt: mondat, bekezdés vagy teljes dokumentum szintjén.
A kutatások azt mutatják, hogy a mondat-szintű feldolgozás általában pontosabb hivatkozásokat eredményez, míg a bekezdés- vagy dokumentum-szintű megközelítés gyakran félrevezető, pontatlan vagy teljesen kitalált forrásokhoz vezethet. Ez különösen problémás, amikor tudományos vagy tényalapú szövegek generálásáról van szó.
Hirdetés:
Miért citál pontatlanul az AI?
A jelenlegi nyelvi modellek – bár lenyűgözőek a szövegalkotás terén – nehezen követik nyomon, hogy egy-egy információt pontosan honnan vettek. Amikor nagyobb szövegegységeket dolgoznak fel egyszerre, a különböző forrásokból származó információk gyakran összekeverednek, és a rendszer olyan hivatkozásokat is létrehozhat, amelyek valójában nem léteznek.
A szakértők szerint ez a jelenség a modellek építési módjából következik. A nagy nyelvi modellek (LLM-ek) képzése során hatalmas szövegkorpuszokat használnak, ahol a modellek megtanulják a szöveg mintázatait, de nem feltétlenül azt, hogyan kell pontosan visszakövetni egy-egy információ forrását.
Szakmai következmények és megoldási lehetőségek
A probléma különösen súlyos következményekkel jár a tudományos és oktatási területeken. Az egyik vezető AI-kutató névtelenül nyilatkozva elmondta: „A modellek gyakran magabiztosan idéznek nem létező forrásokat, ami alááshatja a felhasználók bizalmát és félrevezető információk terjedéséhez vezethet.”
A fejlesztők több irányból próbálják megoldani a problémát. Az egyik megközelítés a modellek újratervezése úgy, hogy finomabb felbontásban kezeljék a szövegeket és erősebb kapcsolatot tartsanak fenn az eredeti forrásokkal. Egy másik módszer a hivatkozási rendszerek explicit betanítása a modellekbe, ahol különös hangsúlyt fektetnek a pontos idézésre.
A technológiai cégek már dolgoznak olyan megoldásokon, amelyek automatikusan ellenőrzik a generált hivatkozások pontosságát, mielőtt a felhasználóhoz kerülnének. Ez egyfajta „hivatkozás-ellenőrző” réteget jelentene a generatív rendszerekben.
Felhasználói tapasztalatok
A mindennapi felhasználók körében is egyre ismertebb a probléma. Sokan számolnak be arról, hogy AI-asszisztensek magabiztosan hivatkoznak nem létező könyvekre, tanulmányokra vagy weboldalakra. Ez különösen frusztráló lehet azok számára, akik megbízható információkat keresnek, például kutatási célokra.
Személyes tapasztalatom szerint is gyakran előfordul, hogy egy látszólag szakszerű AI-válasz teljesen kitalált forrásokra hivatkozik, vagy létező szerzőknek tulajdonít olyan műveket, amelyeket sosem írtak. Éppen ezért a generált tartalmak kritikus ellenőrzése még hosszú ideig elengedhetetlen marad.
A technológia fejlődésével várhatóan javulni fog a helyzet, de addig is érdemes fenntartásokkal kezelni az AI által generált hivatkozásokat. A szakma konszenzusa szerint a következő generációs modellek egyik legfontosabb fejlesztési területe éppen ez lesz: hogyan lehet megtanítani a gépeket arra, hogy pontosan és tisztességesen hivatkozzanak az információ forrására.
A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A researcher analyzing multiple documents on a digital screen, scrutinizing how AI processes text at different levels: sentence, paragraph, and document, with a concerned expression about citation accuracy.