
Az Alibaba új mesterséges intelligencia modellje felülmúlja a versenytársakat
Az Alibaba Qwen csapata hétfőn jelentette be legújabb, 32 milliárd paraméteres mesterséges intelligencia modelljét, amely a Qwen 2.5 termékcsalád legfrissebb tagja. A Qwen 2.5-VL-32B Instruct névre keresztelt vizuális nyelvi modell (VLM) továbbfejlesztett teljesítménnyel és optimalizációkkal érkezik, kiegészítve a már piacon lévő 3, 7 és 72 milliárd paraméteres változatokat. A kínai technológiai óriás új modellje is nyílt forráskódú, engedékeny licenc alatt érhető el, ami mind tudományos, mind kereskedelmi felhasználást lehetővé tesz.
Kiemelkedő teljesítmény a versenytársakhoz képest
A Qwen csapat közleménye szerint az új modell hatékonyabb a kisebb, 3 és 7 milliárd paraméteres társainál, miközben méretében kisebb, mint a 72 milliárd paraméteres alapmodell. Belső tesztek alapján a Qwen 2.5-VL-32B felülmúlja a hasonló méretű versenytársakat, köztük a Mistral-Small-3.1-24B és a Google Gemma-3-27B modelleket, különösen az MMMU, MMMU-Pro és MathVista teljesítményteszteken. Érdekes módon a sokkal nagyobb, 72 milliárd paraméteres Qwen 2-VL-72B modellt is túlszárnyalta az MM-MT-Bench teszten.
Hirdetés:
Javított funkciók és képességek
Az új modell finomhangolt kimeneti stílussal rendelkezik, amely részletesebb és jobban formázott válaszokat biztosít. A fejlesztők szerint a válaszok szorosabban igazodnak az emberi preferenciákhoz. A matematikai következtetési képességet is jelentősen javították, így a modell összetettebb problémákat is meg tud oldani.
A képértelmezési képességek és az elemzésközpontú következtetések, beleértve a képelemzést, a tartalomfelismerést és a vizuális logikai levezetést is pontosabbá váltak. Véleményem szerint különösen figyelemreméltó, hogy a modell képes közvetlenül vizuális ügynökként működni, ami lehetővé teszi számára a számítógépes és telefonos műveletek közvetlen irányítását.
Sokoldalú bemeneti lehetőségek
A Qwen 2.5-VL-32B-Instruct szöveget, képeket és akár egy óránál hosszabb időtartamú videókat is képes bemenetként feldolgozni. Támogatja a JSON és strukturált kimeneteket is, ami rugalmasabbá teszi a fejlesztők számára.
Az alaparchitektúra és képzés megegyezik a korábbi Qwen 2.5 modellekével, azonban a kutatók dinamikus fps (képkocka per másodperc) mintavételezést implementáltak, amely lehetővé teszi a modell számára, hogy különböző mintavételi sebességgel értse meg a videókat. Egy másik fejlesztés segítségével képes konkrét pillanatokat azonosítani egy videóban az időbeli sorrend és sebesség megértésével.
Szakmai véleményem szerint ez az új modell jelentős lépés a vizuális nyelvmodellek világában, különösen mivel nyílt forráskódú megoldásként elérhető. A fejlesztők nem csak a nagyvállalatok, hanem kisebb cégek és egyéni fejlesztők számára is elérhetővé tették ezt a technológiát, ami segítheti az AI demokratizálását.
A Qwen 2.5-VL-32B-Instruct már letölthető a GitHubról és a Hugging Face oldaláról, Apache 2.0 licenc alatt, amely lehetővé teszi mind a tudományos, mind a kereskedelmi felhasználást.
A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A professional illustration showing a futuristic interface with AI processing visuals and text, with a person using the Alibaba Qwen model through a transparent display.