
Az OpenAI engedély nélkül használhatott fizetős szakkönyveket az új AI modellje betanításához
Egy friss tanulmány komoly vádakat fogalmaz meg az OpenAI-jal szemben: a mesterséges intelligencia fejlesztő vállalat egyre inkább olyan nem nyilvános könyvekre támaszkodott a fejlettebb AI modelljei betanításánál, amelyekre nem rendelkezett licenccel. A kutatást az idén alapított AI Disclosures Project nonprofit szervezet készítette, amelynek társalapítói között van Tim O’Reilly médiaipari vezető és Ilan Strauss közgazdász.
Feltűnő különbség a modellek között
A tanulmány szerzői azt állítják, hogy az OpenAI valószínűleg az O’Reilly Media fizetős könyveit használta fel a GPT-4o modellje betanításához – anélkül, hogy erre licenc-megállapodással rendelkezett volna. Ez a modell jelenleg a ChatGPT alapértelmezett verziója.
Hirdetés:
„A GPT-4o, az OpenAI legújabb és legfejlettebb modellje erős felismerést mutat a fizetős O’Reilly könyvek tartalmára vonatkozóan… összehasonlítva a cég korábbi GPT-3.5 Turbo modelljével” – írják a tanulmány társszerzői. „Ezzel szemben a GPT-3.5 Turbo nagyobb relatív felismerést mutat a nyilvánosan elérhető O’Reilly könyvmintákra.”
Tudományos módszertan
A kutatók az úgynevezett DE-COP módszert alkalmazták, amelyet először 2024-ben mutattak be egy akadémiai tanulmányban. Ez a módszer arra szolgál, hogy felderítse a szerzői jogvédelem alatt álló tartalmakat a nyelvi modellek képzési adataiban. Másik nevén „tagsági következtetési támadás”, amely azt vizsgálja, hogy egy modell képes-e megbízhatóan megkülönböztetni az ember által írt szövegeket ugyanazon szöveg átfogalmazott, AI által generált változataitól. Ha erre képes, az arra utal, hogy a modell előzetes ismeretekkel rendelkezik a szövegről a képzési adataiból.
A tanulmány társszerzői – O’Reilly, Strauss és Sruly Rosenblat AI-kutató – 13 962 bekezdésnyi kivonatot használtak 34 O’Reilly könyvből, hogy megbecsüljék annak valószínűségét, hogy egy adott kivonat szerepelt-e egy modell képzési adatkészletében.
Nem perdöntő, de árulkodó eredmények
A tanulmány eredményei szerint a GPT-4o sokkal több fizetős O’Reilly könyv tartalmát „ismerte fel”, mint az OpenAI régebbi modelljei, különösen a GPT-3.5 Turbo. Ez akkor is igaz, ha figyelembe vesszük az olyan potenciális zavaró tényezőket, mint az újabb modellek fejlettebb képessége annak megállapítására, hogy egy szöveget ember írt-e.
A szerzők hangsúlyozzák, hogy eredményeik nem jelentenek „füstölgő pisztolyt”. Elismerik, hogy kísérleti módszerük nem tökéletes, és hogy az OpenAI akár a felhasználóktól is gyűjthetett fizetős könyvrészleteket, amikor azok bemásolták azokat a ChatGPT-be. További bizonytalanságot jelent, hogy a tanulmány nem értékelte az OpenAI legújabb modellcsaládját, beleértve a GPT-4.5-öt és az olyan „érvelő” modelleket, mint az o3-mini és az o1.
Iparági trend a minőségi adatok felé
Nem titok, hogy az OpenAI, amely a szerzői joggal védett adatok felhasználására vonatkozó lazább korlátozások mellett érvelt, már régóta keresi a jobb minőségű betanítási adatokat. A vállalat odáig ment, hogy újságírókat vett fel modelljei kimeneteinek finomhangolására. Ez az egész iparágra jellemző trend: a mesterséges intelligencia vállalatok szakértőket toboroznak olyan területekről, mint a tudomány és a fizika, hogy ezek a szakértők hatékonyan táplálják be tudásukat az AI rendszerekbe.
Fontos megjegyezni, hogy az OpenAI legalább néhány betanítási adatáért fizet. A vállalatnak licencmegállapodásai vannak hírportálokkal, közösségi hálózatokkal, stock médiakönyvtárakkal és másokkal. Az OpenAI leiratkozási mechanizmusokat is kínál – bár nem tökéleteseket -, amelyek lehetővé teszik a szerzői jogok tulajdonosai számára, hogy megjelöljék azokat a tartalmakat, amelyeket nem szeretnének, ha a vállalat képzési célokra használna.
Ennek ellenére, miközben az OpenAI több perben is érintett az amerikai bíróságokon a képzési adatokkal kapcsolatos gyakorlatai és a szerzői jogi törvények kezelése miatt, az O’Reilly tanulmány nem a legkedvezőbb képet festi a vállalatról.
A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A modern office setting with a person examining a large screen displaying AI code patterns. Digital books visible floating around the screen, some locked with a padlock symbol. OpenAI logo visible but discrete in the scene.