Az Alibaba új mesterséges intelligencia modellje felülmúlja a versenytársakat

Az Alibaba új mesterséges intelligencia modellje felülmúlja a versenytársakat

Az Alibaba Qwen csapata hétfőn jelentette be legújabb, 32 milliárd paraméteres mesterséges intelligencia modelljét, amely a Qwen 2.5 termékcsalád legfrissebb tagja. A Qwen 2.5-VL-32B Instruct névre keresztelt vizuális nyelvi modell (VLM) továbbfejlesztett teljesítménnyel és optimalizációkkal érkezik, kiegészítve a már piacon lévő 3, 7 és 72 milliárd paraméteres változatokat. A kínai technológiai óriás új modellje is nyílt forráskódú, engedékeny licenc alatt érhető el, ami mind tudományos, mind kereskedelmi felhasználást lehetővé tesz.

Kiemelkedő teljesítmény a versenytársakhoz képest

A Qwen csapat közleménye szerint az új modell hatékonyabb a kisebb, 3 és 7 milliárd paraméteres társainál, miközben méretében kisebb, mint a 72 milliárd paraméteres alapmodell. Belső tesztek alapján a Qwen 2.5-VL-32B felülmúlja a hasonló méretű versenytársakat, köztük a Mistral-Small-3.1-24B és a Google Gemma-3-27B modelleket, különösen az MMMU, MMMU-Pro és MathVista teljesítményteszteken. Érdekes módon a sokkal nagyobb, 72 milliárd paraméteres Qwen 2-VL-72B modellt is túlszárnyalta az MM-MT-Bench teszten.


Hirdetés:



Javított funkciók és képességek

Az új modell finomhangolt kimeneti stílussal rendelkezik, amely részletesebb és jobban formázott válaszokat biztosít. A fejlesztők szerint a válaszok szorosabban igazodnak az emberi preferenciákhoz. A matematikai következtetési képességet is jelentősen javították, így a modell összetettebb problémákat is meg tud oldani.

A képértelmezési képességek és az elemzésközpontú következtetések, beleértve a képelemzést, a tartalomfelismerést és a vizuális logikai levezetést is pontosabbá váltak. Véleményem szerint különösen figyelemreméltó, hogy a modell képes közvetlenül vizuális ügynökként működni, ami lehetővé teszi számára a számítógépes és telefonos műveletek közvetlen irányítását.

Sokoldalú bemeneti lehetőségek

A Qwen 2.5-VL-32B-Instruct szöveget, képeket és akár egy óránál hosszabb időtartamú videókat is képes bemenetként feldolgozni. Támogatja a JSON és strukturált kimeneteket is, ami rugalmasabbá teszi a fejlesztők számára.

Az alaparchitektúra és képzés megegyezik a korábbi Qwen 2.5 modellekével, azonban a kutatók dinamikus fps (képkocka per másodperc) mintavételezést implementáltak, amely lehetővé teszi a modell számára, hogy különböző mintavételi sebességgel értse meg a videókat. Egy másik fejlesztés segítségével képes konkrét pillanatokat azonosítani egy videóban az időbeli sorrend és sebesség megértésével.

Szakmai véleményem szerint ez az új modell jelentős lépés a vizuális nyelvmodellek világában, különösen mivel nyílt forráskódú megoldásként elérhető. A fejlesztők nem csak a nagyvállalatok, hanem kisebb cégek és egyéni fejlesztők számára is elérhetővé tették ezt a technológiát, ami segítheti az AI demokratizálását.

A Qwen 2.5-VL-32B-Instruct már letölthető a GitHubról és a Hugging Face oldaláról, Apache 2.0 licenc alatt, amely lehetővé teszi mind a tudományos, mind a kereskedelmi felhasználást.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A professional illustration showing a futuristic interface with AI processing visuals and text, with a person using the Alibaba Qwen model through a transparent display.