EN

Kína válasza az OpenAI Sora modelljére: itt a StepFun 30 milliárd paraméteres modellje

Kína válasza az OpenAI Sora modelljére: itt a StepFun 30 milliárd paraméteres modellje
Kép: Freepik - DC Studio

A kínai StepFun vállalat 2025. február 17-én nyilvánosan elérhetővé tette a Step-Video-T2V nevű, 30 milliárd paraméteres szöveg-videó generáló modellt, amely közvetlen versenytársa az OpenAI Sora modelljének. A kétnyelvű (angol és kínai) szöveges utasításokat értelmező, nyílt forráskódú modell akár 204 képkockából álló videókat is képes létrehozni 544x992 pixeles felbontásban, miközben a meglévő videó generátorokhoz képest jobb minőségű mozgásdinamikát biztosít.

A Step-Video-T2V az OpenAI Sora modelljével összehasonlítva potenciálisan nagyobb kapacitással rendelkezik, hiszen míg a Sora pontos paraméterszáma nem ismert (becslések szerint 33 millió és 3 milliárd között lehet), addig a kínai modell 30 milliárd paraméteres. A modell felépítése három alapvető elemből tevődik össze: egy rendkívül hatékony videótömörítő rendszerből, amely jelentősen csökkenti a videók méretét; két szövegértelmező komponensből, amelyek mind angol, mind kínai nyelvű utasításokat feldolgoznak; és egy speciális DiT rendszerből, amely jobb minőségű és összefüggőbb videók létrehozását teszi lehetővé. A fejlesztők speciális Video-DPO technikát alkalmaznak, amely jelentősen javítja a generált videók vizuális minőségét, csökkenti a képi hibákat és természetesebb mozgást biztosít.

Összehasonlító tesztek során a Step-Video-T2V több kategóriában is kiemelkedően teljesített, különösen a sportjelenetek és a dinamikus mozgások megjelenítésében.A Step-Video-T2V modellt a Geely Holding Group autógyártó részlege és a StepFun közös bejelentésben hozta nyilvánosságra, melyben a modell forráskódját és súlyait megosztották a fejlesztői közösséggel, csatlakozva ezzel a kínai technológiai szektorban januárban a DeepSeek által kezdeményezett trendhez, amely során a cégek elérhetővé teszik AI modelljeiket a közösségi fejlesztés és továbbfejlesztés számára.

Források:

1.

China’s Geely and Stepfun Join Open-Source AI Trend With Two Models

2.

GitHub - stepfun-ai/Step-Video-T2V
Contribute to stepfun-ai/Step-Video-T2V development by creating an account on GitHub.

3.

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model