Az Amazon 2025. április 8-án bejelentette a Nova Sonic alapmodellt, amely egyesíti a beszédértést és a beszédgenerálást egyetlen modellben, lehetővé téve az emberibb hangalapú beszélgetéseket a mesterséges intelligencia alkalmazásokban. Ez az új technológia nemcsak azt érti meg, amit mondunk, hanem azt is, hogy hogyan mondjuk – beleértve a hanglejtést, a stílust és a beszédtempót –, ami kulcsfontosságú a természetes beszélgetésekhez. A Nova Sonic az Amazon Bedrock platformon, API-n keresztül érhető el, és egyszerűsíti a hangalapú alkalmazások fejlesztését különböző iparágakban.
A hagyományos hangalapú alkalmazások fejlesztése eddig több különálló modell – beszédfelismerő, nagy nyelvi modell és szövegből beszédet előállító rendszer – összetett koordinációját igényelte, ami nem őrizte meg a beszéd akusztikai kontextusát. A Nova Sonic ezzel szemben egyetlen egységes rendszerbe integrálja ezeket a képességeket, ami 69,7%-os győzelmi arányt ért el a Google Gemini Flash 2.0-val szemben, és 51,0%-os győzelmi arányt az OpenAI GPT-4o modelljével szemben az amerikai angol nyelvű egy fordulós beszélgetésekben. A modell 4,2%-os szóhiba-arányt ért el a Multilingual LibriSpeech tesztben, ami több mint 36%-kal jobb, mint a GPT-4o Transcribe teljesítménye az angol, francia, német, olasz és spanyol nyelveken. A Nova Sonic egyesíti a három hagyományosan különálló modellt – beszédből szöveg, szövegértés és szövegből beszéd – egyetlen egységes rendszerbe, amely nemcsak a 'mit', hanem a 'hogyant' is modellezi a kommunikációban - nyilatkozta Rohit Prasad, az Amazon AGI tudományos vezetője.
Az Amazon Nova Sonic számos előnyt kínál a vállalati felhasználóknak, beleértve az 1,09 másodperces felhasználó által érzékelt késleltetést, ami gyorsabb, mint az OpenAI GPT-4o (1,18 másodperc) és a Google Gemini Flash 2.0 (1,41 másodperc). Az Amazon állítása szerint a Nova Sonic közel 80%-kal olcsóbb, mint a GPT-4o valós időben, ami jelentős versenyképességi előnyt jelent. Számos vállalat már alkalmazza ezt a technológiát: az ASAPP ügyfélszolgálati központok optimalizálására használja, az Education First (EF) a nyelvtanulók kiejtésének javítására, a Stats Perform pedig adatgazdag sportinterakciók elősegítésére. A Nova Sonic jelenleg amerikai és brit angol nyelvű, férfi és női hangokkal rendelkezik, és további nyelvek és akcentusok fejlesztés alatt állnak.
Források:
1.
2.

3.
