Tudományos bizonyíték került napvilágra az OpenAI szerzői jogi gyakorlatáról

Tudományos bizonyíték került napvilágra az OpenAI szerzői jogi gyakorlatáról

Egy friss kutatás eredményei komoly kérdéseket vetnek fel az OpenAI mesterséges intelligencia modelljeinek fejlesztési gyakorlatával kapcsolatban. A Washingtoni Egyetem, a Koppenhágai Egyetem és a Stanford közös vizsgálata szerint a vállalat valóban használhatott szerzői jogvédelem alatt álló tartalmakat modelljei betanítása során.

Az OpenAI jelenleg számos per középpontjában áll, melyeket írók, programozók és más jogtulajdonosok indítottak, akik szerint a vállalat engedélyük nélkül használta fel műveiket – könyveket, kódbázisokat és egyéb alkotásokat – a modellek fejlesztéséhez. Bár az OpenAI következetesen a „méltányos használat” (fair use) elvére hivatkozik, a felperesek álláspontja szerint az amerikai szerzői jogi törvényekben nincs külön kategória a mesterséges intelligencia tanítóadataira.


Hirdetés:



Újszerű módszer a modellek emlékezetének vizsgálatára

A kutatók egy innovatív módszert dolgoztak ki, amely képes azonosítani az API-n keresztül elérhető modellek által „memorizált” tanítóadatokat. Ez a technika az úgynevezett „high-surprisal” (magas meglepetés-értékű) szavakra épül – olyan kifejezésekre, amelyek szokatlanok egy adott szövegkörnyezetben.

Például a „radar” szó a „Jack és én tökéletesen mozdulatlanul ültünk, miközben a radar zümmögött” mondatban magas meglepetés-értékűnek számít, mivel statisztikailag kevésbé valószínű, hogy a „zümmögött” előtt ez a szó álljon, mint mondjuk a „motor” vagy a „rádió”.

A kutatók az OpenAI több modelljét, köztük a GPT-4-et és a GPT-3.5-öt is tesztelték. Szépirodalmi művekből és New York Times cikkekből származó részletekből eltávolították ezeket a ritka, jellegzetes szavakat, majd megkérték a modelleket, hogy „találják ki”, mely szavak hiányoznak. Ha a modellek helyesen tippeltek, az erősen arra utalt, hogy a képzés során memorizálták az adott szövegrészletet.

A tesztek eredményei

A vizsgálatok szerint a GPT-4 egyértelmű jeleit mutatta annak, hogy memorizált részleteket népszerű regényekből, beleértve a BookMIA nevű adatkészletben található, szerzői joggal védett e-könyveket is. Az eredmények azt is jelezték, hogy a model memorizált New York Times cikkeket is, bár ezeket némileg alacsonyabb arányban.

„Ahhoz, hogy megbízható nyelvmodelljeink legyenek, olyan rendszerekre van szükségünk, amelyeket tudományosan vizsgálhatunk és ellenőrizhetünk,” nyilatkozta Abhilasha Ravichander, a Washingtoni Egyetem doktorandusza, a tanulmány társszerzője. „Munkánk célja egy olyan eszköz biztosítása, amellyel elemezhetjük a nagyméretű nyelvmodelleket, de valódi szükség van nagyobb adatátláthatóságra az egész ökoszisztémában.”

Az OpenAI régóta síkra száll a szerzői joggal védett adatok felhasználására vonatkozó korlátozások enyhítéséért a mesterséges intelligencia fejlesztése érdekében. Bár a vállalat rendelkezik bizonyos tartalmi licencszerződésekkel, és lehetőséget kínál a jogtulajdonosoknak, hogy kizárják tartalmaikat a képzési folyamatból, több kormánynál is lobbizott a „méltányos használat” szabályainak kodifikálásáért az MI-képzési módszerek kapcsán.

A tanulmány eredményei jelentős lépést jelentenek a mesterséges intelligencia fejlesztésével kapcsolatos etikai és jogi viták tisztázásában, miközben a technológia egyre inkább beépül a mindennapi életünkbe.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A futuristic courtroom scene with AI models on trial, digital evidence displays, researchers examining data patterns, copyright symbols floating above, dramatic lighting, realistic style.