Az Amazon új AI modellje valós időben beszélget velünk emberi hangon

2025.04.09. Szabó János Szövegírás

Az Amazon jelentős előrelépést tett a mesterséges intelligencia területén azzal, hogy kedden bemutatta a Nova családba tartozó legújabb modelljét. A Nova Sonic névre keresztelt rendszer túlmutat az egyszerű szövegfelolvasó megoldásokon – valós időben képes feldolgozni és megérteni a hangbemenetet, majd természetes, emberi hangon válaszolni rá.

A technológiát elsősorban fejlesztőknek szánják, akik konverzációs chatbotok és hasonló alkalmazások létrehozásában használhatják fel. A modell egyik nagy előnye, hogy támogatja a funkcionális hívásokat és eszközhasználatot is, ami különösen hasznossá teszi az ágensalapú fejlesztések során.

Hirdetés:

Ha tetszett ez a cikk, kövess minket a Facebookon is!

Szakít a hagyományos megközelítéssel

Az eddigi hangalapú alkalmazások jellemzően komplex, többlépcsős rendszerekre épültek. Ezek külön modelleket használtak a hangfelismerésre, a beszéd szöveggé alakítására, az adatfeldolgozásra, majd a válasz generálására. Ez a megoldás nemcsak késleltetést okozott, de gyakran a nyelvi kontextus elvesztésével is járt.

Az Amazon szakított ezzel a megközelítéssel. A Nova Sonic egyesíti a beszédértés és beszédgenerálás komponenseit, így a modell valós időben képes adatot feldolgozni és beszédet létrehozni, ami természetesebb társalgási élményt nyújt. Az egységesített rendszer jobban megérti a bemeneti beszéd tempóját és hangszínét, ami segít pontosabban értelmezni a felhasználó szándékát.

Emberszerű kommunikáció

A modell intelligenciája különösen a hétköznapi kommunikáció jellemzőinek kezelésében mutatkozik meg. Képes értelmezni a különböző beszédstílusokat, felismeri a férfias és nőies hangzású beszédet különböző akcentusokban. Ami még lenyűgözőbb: megérti, ha valaki rosszul ejt ki szavakat, motyog vagy szünetet tart beszéd közben. Az Amazon szerint a modell még zajos környezetben is képes értelmezni a beszédet.

A válaszok generálása során kifejezőbb és emberszerűbb tud lenni, valamint képes a válaszstílusát a beszélgetés kontextusához igazítani. Személyes véleményem szerint ez hatalmas előrelépés a korábbi, robotszerű hangélményt nyújtó eszközökhöz képest.

Korlátok és elérhetőség

Jelenleg a Nova Sonic csak angol nyelven érhető el, bár a vállalat ígérete szerint hamarosan további nyelvek támogatása is érkezik. A modell 32 000 tokenes kontextusablakot kínál audiótartalmakhoz, valamint külön ablakot a hosszabb beszélgetések kezelésére. Az alapértelmezett munkamenet időkorlátja nyolc perc.

A fejlesztők az Amazon Bedrock platformon keresztül férhetnek hozzá a modellhez, ahol a „model access” opció alatt található meg. A rendszer egy kétirányú streaming API-n keresztül is elérhető, amely egyszerre képes feldolgozni a hangbemenetet és generálni a kimenetet.

A borító képet FLUX.1-dev képgenerátor készítette az alábbi prompt alapján: A person wearing headphones, speaking to an Amazon AI voice assistant, with blue technological interface elements surrounding them, in a modern home environment.