A Google DeepMind 2025. augusztus 5-én mutatta be a Genie 3-at, az első valós idejű interaktív általános célú világmodellt, amely szöveges utasításból képes többperces 3D környezeteket generálni. A kutatócsoport szerint ez a technológia kulcsfontosságú lépést jelent a mesterséges általános intelligencia (AGI) felé vezető úton, mivel korlátlan szimulációs környezetet biztosít AI ügynökök képzéséhez.
A Genie 3 jelentős technikai áttörést képvisel elődjéhez, a Genie 2-höz képest, amely mindössze 10-20 másodperces környezeteket tudott létrehozni. Jack Parker-Holder, a DeepMind kutatója szerint az új modell megtestesült ügynökök számára teszi lehetővé a valós világbeli forgatókönyvek szimulálását, ami különösen nagy kihívást jelent. A modell auto-regresszív architektúrája lehetővé teszi, hogy emlékezzen a korábban generált tartalomra, így akár egy perccel korábbi információkra is visszatekinthet a konzisztencia fenntartása érdekében. Shlomi Fruchter kutatási igazgató hangsúlyozta, hogy a Genie 3 túlmutat a korábbi szűk világmodelleken, mivel nem kötődik egyetlen környezethez sem, és mind fotorealisztikus, mind képzeletbeli világokat képes létrehozni.
A Genie 3 alkalmazási lehetőségei az oktatástól a játékfejlesztésig terjednek, azonban a kutatók elsősorban az AI ügynökök általános célú feladatokra való képzésében látják a valódi áttörést. A modell korlátozott előzetes verzióban érhető el, és a Google DeepMind kis számú akadémikus és alkotó számára biztosít korai hozzáférést a technológiához. Az egyes korlátok között szerepel a korlátozott akciótér, a több független ügynök közötti interakció modellezésének nehézségei, valamint az, hogy jelenleg csak néhány perc folyamatos interakciót támogat az órákig tartó képzéshez szükséges időtartam helyett.
Források:

