Botrány az AI világban: Lopott kóddal érhetett el kimagasló eredményt a kínai DeepSeek

Botrány az AI világban: Lopott kóddal érhetett el kimagasló eredményt a kínai DeepSeek

Újabb plágiumbotrány rázza meg a mesterséges intelligencia világát. A Copyleaks AI-detektáló cég vizsgálata szerint a DeepSeek nevű kínai mesterséges intelligencia startup állítólagos technológiai áttörése valójában az OpenAI modelljeiből származtatott lehet.

Gyanúsan tökéletes teljesítmény

A szakmai körökben nagy visszhangot keltett, amikor a DeepSeek Coder nevű kódgeneráló eszköz kimagasló eredményt ért el a programozó AI-k teljesítményét mérő HumanEval teszten. A vállalat által fejlesztett 33 milliárd paraméteres modell 94,7%-os pontszámot ért el, ami jóval meghaladta a korábbi hasonló méretű modellek teljesítményét.


Hirdetés:



A Copyleaks elemzése szerint azonban ennek a lenyűgöző eredménynek egyszerű magyarázata lehet: a DeepSeek modellje gyakorlatilag a ChatGPT-4o válaszait adja vissza. A vizsgálat során kiderült, hogy a két rendszer válaszai között 99%-os egyezés mutatható ki számos kódolási feladat esetében.

A kínai feltörekvő

A DeepSeek 2023-ban indult kínai startup, amely az elmúlt hónapokban jelentős befektetési tőkét vonzott be és több nagy teljesítményű AI-modellt jelentett be. A vállalat egyik legambiciózusabb projektje éppen a DeepSeek Coder, amelyet a kódolás és programozás területén kiemelkedő képességű AI-asszisztensként pozicionáltak.

Az alapítók között kínai tech-óriások korábbi szakemberei is megtalálhatóak, és a cég nyíltan hirdette, hogy versenyképes alternatívát kíván nyújtani a nyugati technológiai vállalatokkal szemben.

Plágium vagy párhuzamos fejlesztés?

A Copyleaks részletes elemzésében több tucat példát mutat be, ahol a DeepSeek válaszai szinte betűről betűre megegyeznek a ChatGPT-4o által generált kódrészletekkel. Nemcsak a kód szerkezete, hanem a megjegyzések, a változónevek és még a kódolási stílus is megegyezik.

„Amikor két AI-modell ennyire hasonló válaszokat ad, annak általában két magyarázata lehet: vagy ugyanazon tanítási adatkészletet használták és hasonló architektúrával rendelkeznek, vagy az egyik egyszerűen lemásolta a másik kimeneteit” – nyilatkozta egy független AI-szakértő, aki szerint ilyen mértékű egyezés véletlen egybeesés révén gyakorlatilag kizárható.

A vállalat reakciója

A DeepSeek hivatalos közleményben határozottan tagadta a vádakat, és közölte, hogy modelljeiket kizárólag saját technológiával és jogszerűen beszerzett adatokkal tanították. A cég szerint a hasonló eredmények egyszerűen a gépi tanulási modellek konvergenciáját mutatják, vagyis azt a jelenséget, amikor különböző modellek hasonló megoldásokhoz jutnak el.

A vállalat bejelentette, hogy független szakértői értékelést kér a vitás kérdés tisztázására, és teljes mértékben együttműködik az esetleges vizsgálatokkal.

Tágabb összefüggések

Ez az eset nem egyedülálló a mesterséges intelligencia fejlesztés világában. Az utóbbi időben egyre gyakrabban merülnek fel hasonló vádak különböző AI-modellek fejlesztői között. A nyílt forráskódú Alpaca modell például a ChatGPT-től származtatott adatokkal érte el eredményeit, míg a Claude AI-t fejlesztő Anthropic és az OpenAI között is voltak már hasonló viták.

Az AI-fejlesztés globális versenyében a kínai vállalatok különösen nagy nyomás alatt vannak, hogy felzárkózzanak az amerikai élvonalhoz. Ez a versengés azonban egyre több etikai és jogi kérdést vet fel a szellemi tulajdon védelméről és a modellek eredetiségéről.

Az ügy fejleményeit továbbra is figyelemmel kísérjük, hiszen az eredmény jelentősen befolyásolhatja a mesterséges intelligencia fejlesztés jövőbeli szabályozását és a nemzetközi technológiai verseny alakulását.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A Chinese tech company office with programmers working on AI code, with digital screens showing ChatGPT and DeepSeek interfaces side by side, showing similar code outputs.