A kínai StepFun vállalat 2025. február 17-én nyilvánosan elérhetővé tette a Step-Video-T2V nevű, 30 milliárd paraméteres szöveg-videó generáló modellt, amely közvetlen versenytársa az OpenAI Sora modelljének. A kétnyelvű (angol és kínai) szöveges utasításokat értelmező, nyílt forráskódú modell akár 204 képkockából álló videókat is képes létrehozni 544x992 pixeles felbontásban, miközben a meglévő videó generátorokhoz képest jobb minőségű mozgásdinamikát biztosít.
A Step-Video-T2V az OpenAI Sora modelljével összehasonlítva potenciálisan nagyobb kapacitással rendelkezik, hiszen míg a Sora pontos paraméterszáma nem ismert (becslések szerint 33 millió és 3 milliárd között lehet), addig a kínai modell 30 milliárd paraméteres. A modell felépítése három alapvető elemből tevődik össze: egy rendkívül hatékony videótömörítő rendszerből, amely jelentősen csökkenti a videók méretét; két szövegértelmező komponensből, amelyek mind angol, mind kínai nyelvű utasításokat feldolgoznak; és egy speciális DiT rendszerből, amely jobb minőségű és összefüggőbb videók létrehozását teszi lehetővé. A fejlesztők speciális Video-DPO technikát alkalmaznak, amely jelentősen javítja a generált videók vizuális minőségét, csökkenti a képi hibákat és természetesebb mozgást biztosít.
Összehasonlító tesztek során a Step-Video-T2V több kategóriában is kiemelkedően teljesített, különösen a sportjelenetek és a dinamikus mozgások megjelenítésében.A Step-Video-T2V modellt a Geely Holding Group autógyártó részlege és a StepFun közös bejelentésben hozta nyilvánosságra, melyben a modell forráskódját és súlyait megosztották a fejlesztői közösséggel, csatlakozva ezzel a kínai technológiai szektorban januárban a DeepSeek által kezdeményezett trendhez, amely során a cégek elérhetővé teszik AI modelljeiket a közösségi fejlesztés és továbbfejlesztés számára.
Források:
1.

2.
3.
