
A Google Gemini 2.5 modellje több ezer oldalnyi szöveget képes feldolgozni egyszerre
A Google kedden bemutatta legújabb mesterséges intelligencia modelljét, a Gemini 2.5-öt, amely jelentősen túllép az eddigi MI-rendszerek képességein. Az új modellcsalád kiemelkedő tulajdonsága a példátlanul hosszú, 2 millió tokenes kontextusablak, ami gyakorlatilag azt jelenti, hogy egyszerre akár egymillió oldalnyi szöveget is képes értelmezni és feldolgozni. A cikk írásakor 1 millió tokenes a kontextus ablak, amit a Google a közeljövőben tervez duplájára emelni. Ez is kb 5x nagyobb, mint a versenytársak legjobb modelljei.
Multimodális képességek új szinten
A korábbi MI-rendszerekhez képest a Gemini 2.5 nemcsak szövegeket kezel kiemelkedően, hanem valós időben képes audio- és videótartalmakat is feldolgozni. Különösen érdekes funkció, hogy egyidejűleg több különböző formátumú tartalmat – képeket, videókat és hanganyagokat – is értelmezni tud, majd ezeket egységes elemzésben összegzi.
Hirdetés:
Ez a gyakorlatban azt jelenti, hogy ha például egy hosszú dokumentumot, néhány kapcsolódó képet és egy videót adunk a rendszernek, azokat együttesen tudja értelmezni, a köztük lévő összefüggéseket felismerni és komplex kérdésekre válaszolni ezek alapján. Ez a képesség korábban nem létezett ilyen fejlett formában a széles körben elérhető MI-modellekben.
Fejlesztői lehetőségek
A Google nem csak a végfelhasználóknak szánja az új modelljét, hanem a fejlesztők számára is külön eszközöket kínál, hogy beépíthessék a Gemini 2.5 képességeit saját alkalmazásaikba. A vállalat API-kon keresztül teszi elérhetővé az új funkciókat, ami lehetővé teszi egyedi MI-megoldások létrehozását különböző területeken.
Fokozatos bevezetés
A Google tájékoztatása szerint az új modellek fokozatosan válnak elérhetővé a vállalat szolgáltatásaiban. Elsőként a Google saját platformjain, mint a Bard chatbot utódjában, a Google AI-ban, illetve a vállalati felhasználók számára készült Workspace integrációkban jelennek meg az új képességek.
A Gemini 2.5 modellcsaládon belül különböző változatok készülnek, amelyek eltérő felhasználási célokra optimalizáltak – az alapmodell mellett speciális vállalati és fejlesztői verziók is elérhetőek lesznek, amelyek különböző szintű hozzáférést biztosítanak a rendszer képességeihez.
Az egymillió oldalnyi szöveg feldolgozására képes modell komoly előrelépést jelent az olyan feladatokban, amelyekben nagy mennyiségű információ elemzésére van szükség, mint például tudományos kutatások, jogi dokumentumok feldolgozása vagy akár teljes könyvtárak elemzése. A videó- és audiofeldolgozási képességek pedig új lehetőségeket nyitnak a médiaelemzés, oktatás és tartalomkészítés területén.
A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A person interacting with a digital interface displaying Google Gemini 2.5 AI processing multiple documents, images, and videos simultaneously, showing advanced reasoning capabilities, with a futuristic tech aesthetic.