Új hangalapú AI modellek érkeztek az OpenAI kínálatába

Új hangalapú AI modellek érkeztek az OpenAI kínálatába

Csütörtökön mutatta be az OpenAI legújabb audio modelljeit, amelyek a cég közlése szerint jelentősen javítják a hangfelismerés pontosságát és megbízhatóságát. Az AI óriás három új modellel bővítette programozói interfészét (API): két beszéd-szöveg átalakító és egy szöveg-beszéd technológiát bocsátott fejlesztők rendelkezésére.

A fejlesztések háttere

Az új megoldások a vállalat két legfrissebb technológiájára, a GPT-4o és GPT-4o mini modellekre épülnek. A közlemények szerint ezek a fejlesztések különösen fontosak az úgynevezett „agentic workflows” (önálló munkafolyamatok) építése szempontjából, ami azt jelenti, hogy az AI rendszerek önállóan, kevesebb emberi beavatkozással végezhetnek el összetett feladatokat.


Hirdetés:



Az AI cég évek óta fejleszt különböző intelligens rendszereket, mint az Operator, Deep Research vagy a Computer-Using Agents, azonban most először adják a fejlesztők kezébe olyan eszközök kombinációját, amelyekkel a szöveges kommunikáción túllépve, intuitív hangalapú interakciók is megvalósíthatók.

Három új modell a fejlesztői eszköztárban

A bemutatott modellek közül kettő (GPT-4o-transcribe és GPT-4o-mini-transcribe) a beszéd szöveggé alakítására szolgál, míg a harmadik (GPT-4o-mini-tts) szöveget konvertál beszéddé. A vállalat szerint ezek felülmúlják a 2022-ben kiadott Whisper technológiát, amely korábban a beszédfelismerés zászlóshajója volt. Fontos különbség ugyanakkor, hogy míg a Whisper nyílt forráskódú volt, az új modellek már zárt rendszerben működnek.

A beszédfelismerő modellek esetében az OpenAI kiemeli, hogy javult a „szóhiba-arány” (WER) teljesítmény a FLEURS teszteken, amelyek 100 különböző nyelven vizsgálják a beszédfelismerés pontosságát. A fejlesztést célzott tanítási technikáknak köszönhetik, beleértve a megerősítéses tanulást (RL) és a nagy mennyiségű minőségi audioanyaggal történő betanítást.

Különösen impozáns a modellek azon képessége, hogy olyan kihívást jelentő helyzetekben is pontos átiratot készítenek, mint az erős akcentusok, zajos környezet vagy változó beszédsebesség mellett elhangzó szövegek.

Érzelmes mesterséges hangok

A szöveg-beszéd modell talán még érdekesebb újdonságokat kínál. A technológia képes testreszabható hanglejtéssel, intonációval és érzelmi kifejezőképességgel rendelkező beszédet generálni. Ez lehetővé teszi olyan alkalmazások fejlesztését, amelyek az ügyfélszolgálattól kezdve a kreatív történetmesélésig számos területen bevethetők. A modell egyelőre csak mesterséges, előre beállított hangokkal működik.

Mennyibe kerül mindez?

Az API árképzése szerint a GPT-4o alapú audio modell használata millió bemeneti tokenenként 40 dollárba (kb. 3440 forint), millió kimeneti tokenenként pedig 80 dollárba (kb. 6880 forint) kerül. A GPT-4o mini alapú audio modellek olcsóbban, millió bemeneti tokenenként 10 dollárért (kb. 860 forint), kimeneti tokenenként pedig 20 dollárért (kb. 1720 forint) vehetők igénybe.

Az összes audio modell már elérhető a fejlesztők számára API-n keresztül. Az OpenAI emellett közzétette az Agents SDK-val való integrációt is, ami segíti a fejlesztőket hangalapú asszisztensek létrehozásában.

Véleményem szerint ez az új iránya a mesterséges intelligenciának kulcsfontosságú lehet a valóban emberszerű interakciók kialakításában. A pontosabb beszédfelismerés és természetesebb hangszintézis miatt olyan területeken is láthatunk majd áttörést, ahol eddig nehézkes volt az AI használata – például idősgondozásban, oktatásban vagy többnyelvű környezetben. Kérdés persze, hogy a zárt forráskódú modellek miatt mennyire lesz hozzáférhető ez a technológia a kisebb fejlesztők számára.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: Professional AI developer testing new speech recognition models with headphones in a modern tech office, surrounded by computer screens displaying audio waveforms.