A Google DolphinGemma modellje közel 400 millió paraméterrel rendelkezik, és kifejezetten a delfinek vokalizációjának tanulmányozására készült, a Georgia Tech és a Wild Dolphin Project (WDP) több évtizedes adatgyűjtésére támaszkodva. A WDP 1985 óta gyűjt hangfelvételeket és viselkedésmintákat atlanti pettyes delfinekről, amely adatbázis lehetővé teszi a modell számára a kommunikáció szerkezetének feltárását és delfinszerű hangszekvenciák előállítását.
A DolphinGemma a SoundStream tokenizálót alkalmazza, és valós időben képes futni Pixel 6 és Pixel 9 eszközökön, ami lehetővé teszi a terepi kutatást közvetlen adatfeldolgozással. A modell képes azonosítani ismétlődő mintákat, például az egyedi azonosítóként szolgáló signature whistle-t, a konfliktushelyzetekhez kötődő burst-pulse squawk-ot, valamint az udvarlás és ragadozó-elhárítás során használt buzz hangokat. A Google nyílt modellként tervezi közzétenni a DolphinGemma-t 2025 nyarán, hogy a globális kutatói közösség számára is hozzáférhető legyen.
Ez az előrelépés adatvezérelt mérföldkövet jelent az ember és állat közötti kommunikáció vizsgálatában: egy közel 400 millió paraméteres, terepen alkalmazható modell, amely rendszerszintű mintákat tár fel, előrejelzi a hangszekvenciák lehetséges folytatását, és új kutatási horizontot nyit a természetvédelmi és etológiai vizsgálatokban.
Források:
1.
2.

3.



