EN

Az Amazon Nova Sonic modellje egyszerűsíti a valós idejű hangalapú interakciókat

Az Amazon Nova Sonic modellje egyszerűsíti a valós idejű hangalapú interakciókat
Kép: Unsplash - appshunter.io

Az Amazon 2025. április 8-án bejelentette a Nova Sonic alapmodellt, amely egyesíti a beszédértést és a beszédgenerálást egyetlen modellben, lehetővé téve az emberibb hangalapú beszélgetéseket a mesterséges intelligencia alkalmazásokban. Ez az új technológia nemcsak azt érti meg, amit mondunk, hanem azt is, hogy hogyan mondjuk – beleértve a hanglejtést, a stílust és a beszédtempót –, ami kulcsfontosságú a természetes beszélgetésekhez. A Nova Sonic az Amazon Bedrock platformon, API-n keresztül érhető el, és egyszerűsíti a hangalapú alkalmazások fejlesztését különböző iparágakban.

A hagyományos hangalapú alkalmazások fejlesztése eddig több különálló modell – beszédfelismerő, nagy nyelvi modell és szövegből beszédet előállító rendszer – összetett koordinációját igényelte, ami nem őrizte meg a beszéd akusztikai kontextusát. A Nova Sonic ezzel szemben egyetlen egységes rendszerbe integrálja ezeket a képességeket, ami 69,7%-os győzelmi arányt ért el a Google Gemini Flash 2.0-val szemben, és 51,0%-os győzelmi arányt az OpenAI GPT-4o modelljével szemben az amerikai angol nyelvű egy fordulós beszélgetésekben. A modell 4,2%-os szóhiba-arányt ért el a Multilingual LibriSpeech tesztben, ami több mint 36%-kal jobb, mint a GPT-4o Transcribe teljesítménye az angol, francia, német, olasz és spanyol nyelveken. A Nova Sonic egyesíti a három hagyományosan különálló modellt – beszédből szöveg, szövegértés és szövegből beszéd – egyetlen egységes rendszerbe, amely nemcsak a 'mit', hanem a 'hogyant' is modellezi a kommunikációban - nyilatkozta Rohit Prasad, az Amazon AGI tudományos vezetője.

Az Amazon Nova Sonic számos előnyt kínál a vállalati felhasználóknak, beleértve az 1,09 másodperces felhasználó által érzékelt késleltetést, ami gyorsabb, mint az OpenAI GPT-4o (1,18 másodperc) és a Google Gemini Flash 2.0 (1,41 másodperc). Az Amazon állítása szerint a Nova Sonic közel 80%-kal olcsóbb, mint a GPT-4o valós időben, ami jelentős versenyképességi előnyt jelent. Számos vállalat már alkalmazza ezt a technológiát: az ASAPP ügyfélszolgálati központok optimalizálására használja, az Education First (EF) a nyelvtanulók kiejtésének javítására, a Stats Perform pedig adatgazdag sportinterakciók elősegítésére. A Nova Sonic jelenleg amerikai és brit angol nyelvű, férfi és női hangokkal rendelkezik, és további nyelvek és akcentusok fejlesztés alatt állnak.

Források:

1.

Amazon’s new Nova Sonic foundation model understands not just what you say—but how you say it
Our new gen AI model picks up on tone, inflection, and pacing, for a deeper understanding of human conversation.

2.

Amazon plays catch-up with new Nova AI models to generate voices and video
Nova Sonic can detect your tone.

3.

Move over, Alexa: Amazon launches new realtime voice model Nova Sonic for third-party enterprise development
Currently, the model supports multiple expressive voices, both masculine and feminine, in American and British English.