Az Amazon Nova Sonic modellje egyszerűsíti a valós idejű hangalapú interakciókat

2025. ápr. 30.

3 min read

Az Amazon Nova Sonic modellje egyszerűsíti a valós idejű hangalapú interakciókat — Kép: Unsplash - appshunter.io

Az Amazon 2025. április 8-án bejelentette a Nova Sonic alapmodellt, amely egyesíti a beszédértést és a beszédgenerálást egyetlen modellben, lehetővé téve az emberibb hangalapú beszélgetéseket a mesterséges intelligencia alkalmazásokban. Ez az új technológia nemcsak azt érti meg, amit mondunk, hanem azt is, hogy hogyan mondjuk – beleértve a hanglejtést, a stílust és a beszédtempót –, ami kulcsfontosságú a természetes beszélgetésekhez. A Nova Sonic az Amazon Bedrock platformon, API-n keresztül érhető el, és egyszerűsíti a hangalapú alkalmazások fejlesztését különböző iparágakban.

A hagyományos hangalapú alkalmazások fejlesztése eddig több különálló modell – beszédfelismerő, nagy nyelvi modell és szövegből beszédet előállító rendszer – összetett koordinációját igényelte, ami nem őrizte meg a beszéd akusztikai kontextusát. A Nova Sonic ezzel szemben egyetlen egységes rendszerbe integrálja ezeket a képességeket, ami 69,7%-os győzelmi arányt ért el a Google Gemini Flash 2.0-val szemben, és 51,0%-os győzelmi arányt az OpenAI GPT-4o modelljével szemben az amerikai angol nyelvű egy fordulós beszélgetésekben. A modell 4,2%-os szóhiba-arányt ért el a Multilingual LibriSpeech tesztben, ami több mint 36%-kal jobb, mint a GPT-4o Transcribe teljesítménye az angol, francia, német, olasz és spanyol nyelveken. A Nova Sonic egyesíti a három hagyományosan különálló modellt – beszédből szöveg, szövegértés és szövegből beszéd – egyetlen egységes rendszerbe, amely nemcsak a 'mit', hanem a 'hogyant' is modellezi a kommunikációban - nyilatkozta Rohit Prasad, az Amazon AGI tudományos vezetője.

Az Amazon Nova Sonic számos előnyt kínál a vállalati felhasználóknak, beleértve az 1,09 másodperces felhasználó által érzékelt késleltetést, ami gyorsabb, mint az OpenAI GPT-4o (1,18 másodperc) és a Google Gemini Flash 2.0 (1,41 másodperc). Az Amazon állítása szerint a Nova Sonic közel 80%-kal olcsóbb, mint a GPT-4o valós időben, ami jelentős versenyképességi előnyt jelent. Számos vállalat már alkalmazza ezt a technológiát: az ASAPP ügyfélszolgálati központok optimalizálására használja, az Education First (EF) a nyelvtanulók kiejtésének javítására, a Stats Perform pedig adatgazdag sportinterakciók elősegítésére. A Nova Sonic jelenleg amerikai és brit angol nyelvű, férfi és női hangokkal rendelkezik, és további nyelvek és akcentusok fejlesztés alatt állnak.

Források:

A DeepSeek bemutatta az mHC architektúrát, amely áttörést hozhat az AI-modellek hatékony skálázásában

Az Amazon Nova Sonic modellje egyszerűsíti a valós idejű hangalapú interakciókat

Related Posts

A DeepSeek bemutatta az mHC architektúrát, amely áttörést hozhat az AI-modellek hatékony skálázásában

A Washington Post elindította AI podcastját - annak ellenére, hogy a belső tesztelés során 68-84%-os hibaarányt mértek

A Disney és az OpenAI egymilliárd dolláros licencmegállapodást kötött a Sora AI platformra

Az EU trösztellenes vizsgálatot indít a Google ellen online tartalmak AI-célú felhasználása miatt

Az SLB és a Shell stratégiai együttműködésbe kezd AI-megoldások fejlesztésére az energiaiparban