A Google DeepMind 2025. június 24-én bemutatta a Gemini Robotics On-Device nevű új mesterséges intelligencia modelljét, amely képes feladatokat végrehajtani robotokban internetkapcsolat nélkül, helyi működéssel. A VLA (vision language action) modell az előző, márciusban bemutatott felhőalapú Gemini Robotics továbbfejlesztett változata, amelyet kifejezetten úgy optimalizáltak, hogy közvetlenül a roboteszközökön fusson, lehetővé téve a működést internetkapcsolat nélküli környezetekben vagy olyan helyzetekben, ahol gyors válaszidőre van szükség.
A Google DeepMind bemutatóin a helyi modellel működő robotok olyan komplex feladatokat hajtottak végre, mint táskák cipzárjának kinyitása, tárolók felnyitása, ruhák összehajtogatása vagy ipari szalagok szerelése. A vállalat állítása szerint a modell teljesítménye közel áll a felhőalapú Gemini Robotics modellhez, és felülmúlja más helyi modelleket az általános teljesítménytesztekben. Bár a VLA modellt eredetileg csak ALOHA robotokra tervezték, a Google később adaptálta azt a kétkarú Franka FR3 robotra és az Apptronik Apollo humanoid robotjára is. A Franka robot képes volt korábban "nem látott" tárgyakkal és helyzetekkel megbirkózni.
A Google egyúttal elérhetővé teszi a Gemini Robotics SDK-t (szoftverfejlesztői készlet) a megbízható tesztelői programján keresztül, hogy a fejlesztők könnyen értékelhessék a Gemini Robotics On-Device modellt saját környezetükben. A fejlesztők tesztelhetik a modellt a Google MuJoCo fizikai szimulátorában, és mindössze 50-100 bemutató segítségével adaptálhatják azt új területekre. A helyi működés különösen hasznos lehet az olyan robotalkalmazásokhoz, amelyek gyors reakcióidőt igényelnek, vagy olyan környezetekben működnek, ahol az internetkapcsolat megbízhatatlan vagy nem elérhető, ezzel új lehetőségeket nyitva a robotika területén.
Források:
1.

2.

3.