A ChatGPT mostantól sokkal jobb képeket készít a fejlett GPT-4o modellnek köszönhetően

A ChatGPT mostantól sokkal jobb képeket készít a fejlett GPT-4o modellnek köszönhetően

Az OpenAI jelentős előrelépést tett a mesterséges intelligencia alapú képalkotás területén. Sam Altman vezérigazgató keddi élő bejelentésén ismertette, hogy a ChatGPT több mint egy év után először kap komolyabb frissítést képgenerálási képességeit tekintve.

A ChatGPT immár a vállalat GPT-4o modelljét használja képek és fotók natív létrehozására, illetve módosítására. Bár a GPT-4o már eddig is a chatbot motorjaként szolgált, eddig csak szövegek generálására és szerkesztésére volt képes, képekével nem.


Hirdetés:



Fokozatos bevezetés különböző felhasználói szinteken

Az új funkció először a 200 dolláros havidíjas Pro előfizetők számára vált elérhetővé a ChatGPT-ben és a Sora nevű videógeneráló termékben. A vállalat közlése szerint a képességet hamarosan a Plus előfizetők és az ingyenes felhasználók is megkapják, ahogyan az API szolgáltatást használó fejlesztők is.

A GPT-4o képgenerálása valamivel több időt igényel, mint az általa leváltott DALL-E 3 modelleké, azonban az OpenAI szerint pontosabb és részletgazdagabb képeket produkál. Az új rendszer létező képek szerkesztésére is képes, beleértve az embereket ábrázoló fotókat is – átalakíthatja őket, vagy az „inpainting” technológiával módosíthatja az elő- és háttérelemeket.

Adatvédelmi és etikai szempontok

Az OpenAI a Wall Street Journalnak nyilatkozva elárulta, hogy a GPT-4o-t „nyilvánosan elérhető adatokon”, valamint saját adatokon tanították be, amelyek többek között a Shutterstockkal való partnerségből származnak.

Brad Lightcap, az OpenAI operatív igazgatója hangsúlyozta: „Tiszteletben tartjuk a művészek jogait a kimenet előállításának módját illetően, és olyan szabályzatokat vezettünk be, amelyek megakadályozzák, hogy közvetlenül utánozzuk bármely élő művész munkáját.”

A vállalat különleges űrlapot biztosít az alkotók számára, amelyen keresztül kérhetik műveik eltávolítását a betanítási adatkészletekből. Azt is állítják, hogy tiszteletben tartják a webes adatgyűjtést korlátozó kéréseket, beleértve a képeket is.

Verseny a technológiai óriások között

A ChatGPT fejlesztett képgenerálási funkciója a Google hasonló lépése után érkezik, amely nemrég vezette be a Gemini 2.0 Flash kísérleti natív képgenerálási képességét. A Google megoldása gyorsan népszerűvé vált a közösségi médiában, azonban nem feltétlenül pozitív okokból. A Gemini 2.0 Flash képkomponense kevés védelmi mechanizmussal rendelkezett, így lehetővé tette a vízjelek eltávolítását és szerzői jogvédelem alatt álló karakterek ábrázolását.

Személyes véleményem szerint az OpenAI óvatosabban lép a képgenerálási technológia fejlesztésében, mint a Google. A fokozatos bevezetés és az etikai szempontok hangsúlyozása arra utalhat, hogy tanultak a versenytársak hibáiból. A kérdés most már nem az, hogy melyik cég tud hamarabb képgeneráló funkciót bevezetni, hanem hogy melyikük képes azt felelősségteljesebben kezelni.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: Sam Altman presenting new AI image generation technology, explaining features on large screen, diverse audience watching with amazement, modern conference room, professional setting, dynamic lighting.