
Tudományos bizonyíték került napvilágra az OpenAI szerzői jogi gyakorlatáról
Egy friss kutatás eredményei komoly kérdéseket vetnek fel az OpenAI mesterséges intelligencia modelljeinek fejlesztési gyakorlatával kapcsolatban. A Washingtoni Egyetem, a Koppenhágai Egyetem és a Stanford közös vizsgálata szerint a vállalat valóban használhatott szerzői jogvédelem alatt álló tartalmakat modelljei betanítása során.
Az OpenAI jelenleg számos per középpontjában áll, melyeket írók, programozók és más jogtulajdonosok indítottak, akik szerint a vállalat engedélyük nélkül használta fel műveiket – könyveket, kódbázisokat és egyéb alkotásokat – a modellek fejlesztéséhez. Bár az OpenAI következetesen a „méltányos használat” (fair use) elvére hivatkozik, a felperesek álláspontja szerint az amerikai szerzői jogi törvényekben nincs külön kategória a mesterséges intelligencia tanítóadataira.
Hirdetés:
Újszerű módszer a modellek emlékezetének vizsgálatára
A kutatók egy innovatív módszert dolgoztak ki, amely képes azonosítani az API-n keresztül elérhető modellek által „memorizált” tanítóadatokat. Ez a technika az úgynevezett „high-surprisal” (magas meglepetés-értékű) szavakra épül – olyan kifejezésekre, amelyek szokatlanok egy adott szövegkörnyezetben.
Például a „radar” szó a „Jack és én tökéletesen mozdulatlanul ültünk, miközben a radar zümmögött” mondatban magas meglepetés-értékűnek számít, mivel statisztikailag kevésbé valószínű, hogy a „zümmögött” előtt ez a szó álljon, mint mondjuk a „motor” vagy a „rádió”.
A kutatók az OpenAI több modelljét, köztük a GPT-4-et és a GPT-3.5-öt is tesztelték. Szépirodalmi művekből és New York Times cikkekből származó részletekből eltávolították ezeket a ritka, jellegzetes szavakat, majd megkérték a modelleket, hogy „találják ki”, mely szavak hiányoznak. Ha a modellek helyesen tippeltek, az erősen arra utalt, hogy a képzés során memorizálták az adott szövegrészletet.
A tesztek eredményei
A vizsgálatok szerint a GPT-4 egyértelmű jeleit mutatta annak, hogy memorizált részleteket népszerű regényekből, beleértve a BookMIA nevű adatkészletben található, szerzői joggal védett e-könyveket is. Az eredmények azt is jelezték, hogy a model memorizált New York Times cikkeket is, bár ezeket némileg alacsonyabb arányban.
„Ahhoz, hogy megbízható nyelvmodelljeink legyenek, olyan rendszerekre van szükségünk, amelyeket tudományosan vizsgálhatunk és ellenőrizhetünk,” nyilatkozta Abhilasha Ravichander, a Washingtoni Egyetem doktorandusza, a tanulmány társszerzője. „Munkánk célja egy olyan eszköz biztosítása, amellyel elemezhetjük a nagyméretű nyelvmodelleket, de valódi szükség van nagyobb adatátláthatóságra az egész ökoszisztémában.”
Az OpenAI régóta síkra száll a szerzői joggal védett adatok felhasználására vonatkozó korlátozások enyhítéséért a mesterséges intelligencia fejlesztése érdekében. Bár a vállalat rendelkezik bizonyos tartalmi licencszerződésekkel, és lehetőséget kínál a jogtulajdonosoknak, hogy kizárják tartalmaikat a képzési folyamatból, több kormánynál is lobbizott a „méltányos használat” szabályainak kodifikálásáért az MI-képzési módszerek kapcsán.
A tanulmány eredményei jelentős lépést jelentenek a mesterséges intelligencia fejlesztésével kapcsolatos etikai és jogi viták tisztázásában, miközben a technológia egyre inkább beépül a mindennapi életünkbe.
A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A futuristic courtroom scene with AI models on trial, digital evidence displays, researchers examining data patterns, copyright symbols floating above, dramatic lighting, realistic style.