Az Anthropic új AI modellje minden eddiginél jobban érti a képeket

2025.03.13. Hartung Ariel Képalkotás

Az Anthropic bejelentette a Claude 3.5 Sonnet nevű legújabb nyelvi modelljét, amely kiemelkedő képfeldolgozási képességekkel rendelkezik. A San Francisco-i székhelyű cég új generációs mesterséges intelligenciája nemcsak gyorsabb, mint elődei, de pontosabb képleírásokat készít, és sokkal alaposabban elemzi a vizuális tartalmakat.

A Claude 3.5 Sonnet legfontosabb újításai között szerepel, hogy képes párbeszéd útján finomítani az ábrákat és illusztrációkat, részletes vizuális elemzéseket készíteni, valamint nagy pontossággal megoldani képekkel kapcsolatos matematikai problémákat. Az új modell különösen jól teljesít a tudományos ábrák értelmezésében és a vizuális részletek feldolgozásában.

Hirdetés:

Ha tetszett ez a cikk, kövess minket a Facebookon is!

Teljesítménybeli előrelépés

Az Anthropic közleménye szerint a Claude 3.5 Sonnet jelenleg a leggyorsabb élvonalbeli nyelvi modell, amely jelentősen felülmúlja az előző generációs Claude 3 Opus-t, sőt bizonyos tesztekben még a GPT-4-et is. Az elvégzett benchmarkokon az új modell különösen a matematikai gondolkodás, kódértelmezés és komplex feladatok megoldása terén mutatott kiemelkedő teljesítményt.

„A Claude 3.5 Sonnet valódi áttörést jelent a vizuális tartalmak értelmezésében” – nyilatkozta a cég egyik fejlesztője. „Most már nem csak szöveges leírást ad a képekről, hanem valóban megérti azok tartalmát, kontextusát, és képes értelmes párbeszédet folytatni róluk.”

Hogyan működik a gyakorlatban?

A modell különösen hasznos lehet azoknak, akik vizuális tartalmakkal dolgoznak. Egy grafikustól kapott vázlatról részletes visszajelzést adhat, segíthet tudományos publikációk ábráinak értelmezésében, vagy akár oktatási anyagokat készíthet bonyolult koncepciók vizuális magyarázatával.

Az egyik legérdekesebb funkció, hogy a Claude 3.5 képes megérteni és szövegesen leírni a képen látható matematikai problémákat, majd megoldást javasolni rájuk. Tesztek szerint ez a képesség különösen a felsőoktatásban használt tankönyvek és jegyzetek feldolgozásánál lehet hasznos.

Biztonsági fejlesztések

Az Anthropic a képességek fejlesztése mellett nagy hangsúlyt fektetett a biztonsági aspektusok erősítésére is. A Claude 3.5 Sonnet továbbfejlesztett szűrőrendszerrel rendelkezik, amely hatékonyabban ismeri fel és blokkolja a potenciálisan káros tartalmakat. A modell képes ellenállni a manipulatív promptoknak is, amelyek korábban kijátszhatták a biztonsági rendszereket.

Személyes tapasztalataim alapján az új Claude valóban jelentős előrelépést jelent a képfeldolgozás terén. A korábbi AI modellek gyakran csak felszínesen írták le a képeken látottakat, míg a Claude 3.5 sokkal mélyebb összefüggéseket is felismer, értelmezi a vizuális humor elemeit, és akár szakmai ábrákat is pontosan elemez.

Elérhetőség

Az új modell már elérhető mind a fizetős, mind az ingyenes felhasználók számára az Anthropic platformján, valamint az Amazon Bedrock szolgáltatásán keresztül is. A cég közlése szerint a következő hónapokban fokozatosan vezetik be a kép- és dokumentumgenerálási képességeket is, amelyek egyelőre még nem részei a kiadott verziónak.

A képgenerálás és dokumentumkészítés funkciók hiánya ellenére a Claude 3.5 Sonnet már most is komoly versenytársa lehet az OpenAI GPT-4V modellnek, különösen a tudományos és szakmai felhasználás területén, ahol a precíz képelemzés és matematikai képességek kiemelten fontosak.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A digital illustration showing an AI system analyzing and interpreting images with high accuracy, with a person interacting with the interface, vibrant colors, modern tech aesthetic.