Az xAI által közzétett Grok 3 mesterséges intelligencia teljesítményadatok félrevezetőek lehetnek az OpenAI szakemberei szerint, akik megkérdőjelezték a publikált teszteredmények hitelességét, különösen az AIME 2025 matematikateszten elért pontszámok tekintetében.
A vita középpontjában az áll, hogy az xAI blogbejegyzésében közzétett grafikonokból kimaradt az OpenAI o3-mini-high modelljének speciális tesztmódban elért eredménye, ahol a rendszer 64 próbálkozásból választja ki a leggyakoribb helyes választ. A részletes elemzés szerint amikor a Grok 3 Reasoning Beta és a Grok 3 mini Reasoning modellek első próbálkozásra adott válaszait vizsgálták, azok gyengébben teljesítettek az OpenAI modelljénél. Ezt az ellentmondást erősítheti Elon Musk február 13-i dubaji World Government Summit-on tett nyilatkozata is, ahol a Grok 3-at "ijesztően okosnak" nevezte, és azt állította, hogy a Grok 3 felülmúl minden eddig kiadott modellt, amiről tudunk.

Az xAI vezetősége és az OpenAI között kibontakozó vita rávilágít a mesterséges intelligencia teljesítménymérésének problémáira. Igor Babushkin, az xAI társalapítója azzal védekezett, hogy az OpenAI korábban hasonló módon publikált félrevezető összehasonlító grafikonokat. A szakértők szerint továbbra is ismeretlen a modellek legjobb eredményeinek eléréshez szükséges számítási és pénzügyi költség, ami kulcsfontosságú lenne a valós teljesítmény megítéléséhez.
Források:
1.

2.
If the light blue part is best of N scores, this means that Grok 3 reasoning is inherently an ~o1 level model. This means the capabilities gap between OpenAI and xAI is ~9 months.
— wh (@nrehiew_) February 18, 2025
Also what is the difference between "think" and "big brain" pic.twitter.com/Jw8yk5tEm9
3.
once see this you can’t unsee it:
— Aidan McLaughlin (@aidan_mclau) February 20, 2025
the light-blue shading that puts grok-3 over o3-mini is cons@64 https://t.co/iJo4Sq2uaa
4.
Disappointing to see the incentives for the grok team to cheat and deceive in evals.
— Boris Power (@BorisMPower) February 20, 2025
Tl;dr o3-mini is better in every eval compared to grok 3.
Grok 3 is genuinely a decent model, but no need to over sell. https://t.co/sJj5ByVikp
5.
