A Google új Gemma modelljei már képeket és rövid videókat is értelmeznek

2025.03.12. Keresztesi József Szövegírás

A Google újabb fontos lépést tett a mesterséges intelligencia területén. Alig több mint egy évvel az első „nyílt” Gemma szövegmodellek bemutatása után a vállalat jelentősen bővítette a technológiai képességeit. Az új multimodális Gemma modellek immár nemcsak szöveget, hanem képeket és rövid videókat is képesek értelmezni.

Kibővített képességek, hatékony működés

Az új modellek egyértelmű előrelépést jelentenek a korábbi, kizárólag szöveges változatokhoz képest. A fejlesztés illeszkedik abba az iparági trendbe, amely a különböző típusú média együttes feldolgozása felé halad. A Google szerint az új Gemma modellek különleges előnye, hogy viszonylag alacsony hardverigény mellett is hatékonyan működnek – akár laptopokra vagy más, korlátozottabb erőforrással rendelkező eszközökre is telepíthetők.

Hirdetés:

Ha tetszett ez a cikk, kövess minket a Facebookon is!

Szakértők szerint ez az egyik legfontosabb aspektusa az új modelleknek. „A multimodális képességek asztali számítógépekre vagy akár mobileszközökre történő elhozatala jelentősen kitágítja a fejlesztési lehetőségeket” – értékelte a helyzetet egyik szakértő forrásunk. Ez az irány komoly versenyelőnyt jelenthet a Google számára az AI modellek piacán.

Mit jelent valójában a „nyílt” modell?

Érdemes tisztázni, hogy a „nyílt” jelző használata némileg félrevezető lehet, mivel a Gemma modellek nem teljesen nyílt forráskódúak. A Google bizonyos korlátozásokkal teszi elérhetővé a modelleket – a súlyokat, paramétereket és dokumentációt közzéteszi, de a teljes forráskód és a képzési adatok nem nyilvánosak. Ez a gyakorlat egyébként általános a techóriások körében.

A Google stratégiája egyértelműen a fejlesztői közösség aktivizálására irányul. Az új modellek olyan helyzetekben is bevethetők lesznek, ahol a felhőalapú AI szolgáltatások nem praktikusak – például korlátozottabb internethozzáféréssel rendelkező területeken vagy olyan alkalmazásokban, ahol a válaszidő kritikus fontosságú.

Fokozódó verseny a tech óriások között

A multimodális AI-modellek fejlesztése egyértelműen az egyik legfontosabb versenyterepe lett a nagy technológiai vállalatoknak. Míg az OpenAI GPT-4 Vision modellje és a Meta Llama 3 családja szintén képes különböző médiatípusok feldolgozására, a Google előnye lehet, hogy az új Gemma modellek költséghatékonyabban és szélesebb körben telepíthetők.

A cég korábban közölte, hogy a Gemma fejlesztése során kiemelt figyelmet fordítottak a biztonsági szempontokra is. Az AI-modellek telepítése során kulcsfontosságú a káros vagy manipulatív tartalmak kiszűrése, illetve a személyes adatok védelme – a Google állítása szerint a Gemma ezeken a területeken is magas szintű védelmet nyújt.

Saját véleményem szerint a Gemma kiterjesztése multimodális képességekkel fontos lépés lehet a mesterséges intelligencia demokratizálása felé. Az AI fejlesztések gyakran csak a legnagyobb erőforrásokkal rendelkező vállalatok számára elérhetőek, míg az ilyen típusú nyíltabb megközelítések lehetővé teszik, hogy kisebb cégek, kutatócsoportok vagy akár egyéni fejlesztők is hozzáférjenek fejlett technológiákhoz. Ez hosszú távon sokkal változatosabb alkalmazásokhoz és innovációkhoz vezethet, mint amit kizárólag a nagy tech cégek laboratóriumaiban fejlesztett zárt rendszerektől várhatnánk.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A Google engineer in a modern office working on a laptop displaying an AI model that can analyze photos and video clips, coding interface visible with multiple monitors showing code.