A Google Gemini 3 Deep Think rekorderedményeket ért el tudományos teljesítményteszteken

2026. feb. 13.

2 min read

A Google Gemini 3 Deep Think rekorderedményeket ért el tudományos teljesítményteszteken — Unsplash - googledeepmind

A Google 2026. február 12-én jelentette be a Gemini 3 Deep Think jelentős frissítését, amelyet összetett tudományos, kutatási és mérnöki feladatok megoldására fejlesztettek ki. A modellt tudósokkal szoros együttműködésben fejlesztették tovább, és több irányadó teljesítményteszten is új csúcsot állított fel, felülmúlva az OpenAI GPT-5.2 és az Anthropic Claude Opus 4.6 modelljeit.

A frissített Deep Think a Humanity's Last Exam teszten eszközök nélkül 48,4%-ot ért el, az ARC-AGI-2 vizuális logikai feladatsoron pedig 84,6%-ot produkált – utóbbi eredményt az ARC Prize Foundation hivatalosan is hitelesítette. Az ARC-AGI-2 pontszám különösen figyelemre méltó, mivel az emberek átlagosan mintegy 60%-ot érnek el ezeken a feladatokon, míg korábbi AI modellek gyakran a 20%-os küszöböt sem tudták átlépni. A Codeforces kompetitív programozási platformon a modell 3455-ös Elo-pontszámot ért el, ami a Legendary Grandmaster kategóriának felel meg. A természettudományok terén aranyérmes szintű teljesítményt nyújtott a 2025-ös Nemzetközi Fizikai, Kémiai és Matematikai Olimpia írásbeli feladatain, a CMT-Benchmark elméleti fizikai teszten pedig 50,5%-ot produkált. A Google a gyakorlati alkalmazások közül kiemelte, hogy a modell képes kézzel rajzolt vázlatokat háromdimenziós nyomtatásra alkalmas fájlokká alakítani.

A Gemini 3 Deep Think a Google AI Ultra előfizetők számára a Gemini alkalmazásban már elérhető, emellett a Google először teszi hozzáférhetővé a modellt a Gemini API-n keresztül is, korai hozzáférési program keretében. Az eredmények azt mutatják, hogy a modell nemcsak absztrakt teszteken, hanem gyakorlati mérnöki alkalmazásokban is új szintet képvisel az AI-alapú tudományos gondolkodás területén.

Források: