Az OpenAI engedély nélkül használhatott fizetős szakkönyveket az új AI modellje betanításához

Az OpenAI engedély nélkül használhatott fizetős szakkönyveket az új AI modellje betanításához

Egy friss tanulmány komoly vádakat fogalmaz meg az OpenAI-jal szemben: a mesterséges intelligencia fejlesztő vállalat egyre inkább olyan nem nyilvános könyvekre támaszkodott a fejlettebb AI modelljei betanításánál, amelyekre nem rendelkezett licenccel. A kutatást az idén alapított AI Disclosures Project nonprofit szervezet készítette, amelynek társalapítói között van Tim O’Reilly médiaipari vezető és Ilan Strauss közgazdász.

Feltűnő különbség a modellek között

A tanulmány szerzői azt állítják, hogy az OpenAI valószínűleg az O’Reilly Media fizetős könyveit használta fel a GPT-4o modellje betanításához – anélkül, hogy erre licenc-megállapodással rendelkezett volna. Ez a modell jelenleg a ChatGPT alapértelmezett verziója.


Hirdetés:



„A GPT-4o, az OpenAI legújabb és legfejlettebb modellje erős felismerést mutat a fizetős O’Reilly könyvek tartalmára vonatkozóan… összehasonlítva a cég korábbi GPT-3.5 Turbo modelljével” – írják a tanulmány társszerzői. „Ezzel szemben a GPT-3.5 Turbo nagyobb relatív felismerést mutat a nyilvánosan elérhető O’Reilly könyvmintákra.”

Tudományos módszertan

A kutatók az úgynevezett DE-COP módszert alkalmazták, amelyet először 2024-ben mutattak be egy akadémiai tanulmányban. Ez a módszer arra szolgál, hogy felderítse a szerzői jogvédelem alatt álló tartalmakat a nyelvi modellek képzési adataiban. Másik nevén „tagsági következtetési támadás”, amely azt vizsgálja, hogy egy modell képes-e megbízhatóan megkülönböztetni az ember által írt szövegeket ugyanazon szöveg átfogalmazott, AI által generált változataitól. Ha erre képes, az arra utal, hogy a modell előzetes ismeretekkel rendelkezik a szövegről a képzési adataiból.

A tanulmány társszerzői – O’Reilly, Strauss és Sruly Rosenblat AI-kutató – 13 962 bekezdésnyi kivonatot használtak 34 O’Reilly könyvből, hogy megbecsüljék annak valószínűségét, hogy egy adott kivonat szerepelt-e egy modell képzési adatkészletében.

Nem perdöntő, de árulkodó eredmények

A tanulmány eredményei szerint a GPT-4o sokkal több fizetős O’Reilly könyv tartalmát „ismerte fel”, mint az OpenAI régebbi modelljei, különösen a GPT-3.5 Turbo. Ez akkor is igaz, ha figyelembe vesszük az olyan potenciális zavaró tényezőket, mint az újabb modellek fejlettebb képessége annak megállapítására, hogy egy szöveget ember írt-e.

A szerzők hangsúlyozzák, hogy eredményeik nem jelentenek „füstölgő pisztolyt”. Elismerik, hogy kísérleti módszerük nem tökéletes, és hogy az OpenAI akár a felhasználóktól is gyűjthetett fizetős könyvrészleteket, amikor azok bemásolták azokat a ChatGPT-be. További bizonytalanságot jelent, hogy a tanulmány nem értékelte az OpenAI legújabb modellcsaládját, beleértve a GPT-4.5-öt és az olyan „érvelő” modelleket, mint az o3-mini és az o1.

Iparági trend a minőségi adatok felé

Nem titok, hogy az OpenAI, amely a szerzői joggal védett adatok felhasználására vonatkozó lazább korlátozások mellett érvelt, már régóta keresi a jobb minőségű betanítási adatokat. A vállalat odáig ment, hogy újságírókat vett fel modelljei kimeneteinek finomhangolására. Ez az egész iparágra jellemző trend: a mesterséges intelligencia vállalatok szakértőket toboroznak olyan területekről, mint a tudomány és a fizika, hogy ezek a szakértők hatékonyan táplálják be tudásukat az AI rendszerekbe.

Fontos megjegyezni, hogy az OpenAI legalább néhány betanítási adatáért fizet. A vállalatnak licencmegállapodásai vannak hírportálokkal, közösségi hálózatokkal, stock médiakönyvtárakkal és másokkal. Az OpenAI leiratkozási mechanizmusokat is kínál – bár nem tökéleteseket -, amelyek lehetővé teszik a szerzői jogok tulajdonosai számára, hogy megjelöljék azokat a tartalmakat, amelyeket nem szeretnének, ha a vállalat képzési célokra használna.

Ennek ellenére, miközben az OpenAI több perben is érintett az amerikai bíróságokon a képzési adatokkal kapcsolatos gyakorlatai és a szerzői jogi törvények kezelése miatt, az O’Reilly tanulmány nem a legkedvezőbb képet festi a vállalatról.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A modern office setting with a person examining a large screen displaying AI code patterns. Digital books visible floating around the screen, some locked with a padlock symbol. OpenAI logo visible but discrete in the scene.