
Botrány az AI világban: Lopott kóddal érhetett el kimagasló eredményt a kínai DeepSeek
Újabb plágiumbotrány rázza meg a mesterséges intelligencia világát. A Copyleaks AI-detektáló cég vizsgálata szerint a DeepSeek nevű kínai mesterséges intelligencia startup állítólagos technológiai áttörése valójában az OpenAI modelljeiből származtatott lehet.
Gyanúsan tökéletes teljesítmény
A szakmai körökben nagy visszhangot keltett, amikor a DeepSeek Coder nevű kódgeneráló eszköz kimagasló eredményt ért el a programozó AI-k teljesítményét mérő HumanEval teszten. A vállalat által fejlesztett 33 milliárd paraméteres modell 94,7%-os pontszámot ért el, ami jóval meghaladta a korábbi hasonló méretű modellek teljesítményét.
Hirdetés:
A Copyleaks elemzése szerint azonban ennek a lenyűgöző eredménynek egyszerű magyarázata lehet: a DeepSeek modellje gyakorlatilag a ChatGPT-4o válaszait adja vissza. A vizsgálat során kiderült, hogy a két rendszer válaszai között 99%-os egyezés mutatható ki számos kódolási feladat esetében.
A kínai feltörekvő
A DeepSeek 2023-ban indult kínai startup, amely az elmúlt hónapokban jelentős befektetési tőkét vonzott be és több nagy teljesítményű AI-modellt jelentett be. A vállalat egyik legambiciózusabb projektje éppen a DeepSeek Coder, amelyet a kódolás és programozás területén kiemelkedő képességű AI-asszisztensként pozicionáltak.
Az alapítók között kínai tech-óriások korábbi szakemberei is megtalálhatóak, és a cég nyíltan hirdette, hogy versenyképes alternatívát kíván nyújtani a nyugati technológiai vállalatokkal szemben.
Plágium vagy párhuzamos fejlesztés?
A Copyleaks részletes elemzésében több tucat példát mutat be, ahol a DeepSeek válaszai szinte betűről betűre megegyeznek a ChatGPT-4o által generált kódrészletekkel. Nemcsak a kód szerkezete, hanem a megjegyzések, a változónevek és még a kódolási stílus is megegyezik.
„Amikor két AI-modell ennyire hasonló válaszokat ad, annak általában két magyarázata lehet: vagy ugyanazon tanítási adatkészletet használták és hasonló architektúrával rendelkeznek, vagy az egyik egyszerűen lemásolta a másik kimeneteit” – nyilatkozta egy független AI-szakértő, aki szerint ilyen mértékű egyezés véletlen egybeesés révén gyakorlatilag kizárható.
A vállalat reakciója
A DeepSeek hivatalos közleményben határozottan tagadta a vádakat, és közölte, hogy modelljeiket kizárólag saját technológiával és jogszerűen beszerzett adatokkal tanították. A cég szerint a hasonló eredmények egyszerűen a gépi tanulási modellek konvergenciáját mutatják, vagyis azt a jelenséget, amikor különböző modellek hasonló megoldásokhoz jutnak el.
A vállalat bejelentette, hogy független szakértői értékelést kér a vitás kérdés tisztázására, és teljes mértékben együttműködik az esetleges vizsgálatokkal.
Tágabb összefüggések
Ez az eset nem egyedülálló a mesterséges intelligencia fejlesztés világában. Az utóbbi időben egyre gyakrabban merülnek fel hasonló vádak különböző AI-modellek fejlesztői között. A nyílt forráskódú Alpaca modell például a ChatGPT-től származtatott adatokkal érte el eredményeit, míg a Claude AI-t fejlesztő Anthropic és az OpenAI között is voltak már hasonló viták.
Az AI-fejlesztés globális versenyében a kínai vállalatok különösen nagy nyomás alatt vannak, hogy felzárkózzanak az amerikai élvonalhoz. Ez a versengés azonban egyre több etikai és jogi kérdést vet fel a szellemi tulajdon védelméről és a modellek eredetiségéről.
Az ügy fejleményeit továbbra is figyelemmel kísérjük, hiszen az eredmény jelentősen befolyásolhatja a mesterséges intelligencia fejlesztés jövőbeli szabályozását és a nemzetközi technológiai verseny alakulását.
A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A Chinese tech company office with programmers working on AI code, with digital screens showing ChatGPT and DeepSeek interfaces side by side, showing similar code outputs.