EN

A Google Gemini 3 Deep Think rekorderedményeket ért el tudományos teljesítményteszteken

A Google Gemini 3 Deep Think rekorderedményeket ért el tudományos teljesítményteszteken
Unsplash - googledeepmind

A Google 2026. február 12-én jelentette be a Gemini 3 Deep Think jelentős frissítését, amelyet összetett tudományos, kutatási és mérnöki feladatok megoldására fejlesztettek ki. A modellt tudósokkal szoros együttműködésben fejlesztették tovább, és több irányadó teljesítményteszten is új csúcsot állított fel, felülmúlva az OpenAI GPT-5.2 és az Anthropic Claude Opus 4.6 modelljeit.

A frissített Deep Think a Humanity's Last Exam teszten eszközök nélkül 48,4%-ot ért el, az ARC-AGI-2 vizuális logikai feladatsoron pedig 84,6%-ot produkált – utóbbi eredményt az ARC Prize Foundation hivatalosan is hitelesítette. Az ARC-AGI-2 pontszám különösen figyelemre méltó, mivel az emberek átlagosan mintegy 60%-ot érnek el ezeken a feladatokon, míg korábbi AI modellek gyakran a 20%-os küszöböt sem tudták átlépni. A Codeforces kompetitív programozási platformon a modell 3455-ös Elo-pontszámot ért el, ami a Legendary Grandmaster kategóriának felel meg. A természettudományok terén aranyérmes szintű teljesítményt nyújtott a 2025-ös Nemzetközi Fizikai, Kémiai és Matematikai Olimpia írásbeli feladatain, a CMT-Benchmark elméleti fizikai teszten pedig 50,5%-ot produkált. A Google a gyakorlati alkalmazások közül kiemelte, hogy a modell képes kézzel rajzolt vázlatokat háromdimenziós nyomtatásra alkalmas fájlokká alakítani.

A Gemini 3 Deep Think a Google AI Ultra előfizetők számára a Gemini alkalmazásban már elérhető, emellett a Google először teszi hozzáférhetővé a modellt a Gemini API-n keresztül is, korai hozzáférési program keretében. Az eredmények azt mutatják, hogy a modell nemcsak absztrakt teszteken, hanem gyakorlati mérnöki alkalmazásokban is új szintet képvisel az AI-alapú tudományos gondolkodás területén.

Források:

1.

Gemini 3 Deep Think: Advancing science, research and engineering
We’re releasing a major upgrade to Gemini 3 Deep Think, our specialized reasoning mode.

2.

Google Enhances Gemini Deep Think, Launches AI Mathematician and Accelerates Drug Design | ForkLog
digital economy, AI, singularity, future is now

3.

Is This AGI? Google’s Gemini 3 Deep Think Shatters Humanity’s Last Exam And Hits 84.6% On ARC-AGI-2 Performance Today
Is This AGI? Google’s Gemini 3 Deep Think Shatters Humanity’s Last Exam And Hits 84.6% On ARC-AGI-2 Performance Today