Grok xAI OpenAI

Viták a Grok 3 teljesítménytesztjei körül: az xAI félrevezető adatokat közölt?

2025. márc. 4.

3 min read

Viták a Grok 3 teljesítménytesztjei körül: az xAI félrevezető adatokat közölt? — Kép: Unsplash - Mariia Shalabaieva

Az xAI által közzétett Grok 3 mesterséges intelligencia teljesítményadatok félrevezetőek lehetnek az OpenAI szakemberei szerint, akik megkérdőjelezték a publikált teszteredmények hitelességét, különösen az AIME 2025 matematikateszten elért pontszámok tekintetében.

A vita középpontjában az áll, hogy az xAI blogbejegyzésében közzétett grafikonokból kimaradt az OpenAI o3-mini-high modelljének speciális tesztmódban elért eredménye, ahol a rendszer 64 próbálkozásból választja ki a leggyakoribb helyes választ. A részletes elemzés szerint amikor a Grok 3 Reasoning Beta és a Grok 3 mini Reasoning modellek első próbálkozásra adott válaszait vizsgálták, azok gyengébben teljesítettek az OpenAI modelljénél. Ezt az ellentmondást erősítheti Elon Musk február 13-i dubaji World Government Summit-on tett nyilatkozata is, ahol a Grok 3-at "ijesztően okosnak" nevezte, és azt állította, hogy a Grok 3 felülmúl minden eddig kiadott modellt, amiről tudunk.

Forrás: https://x.com/nrehiew_/status/1891710589115715847/photo/1

Az xAI vezetősége és az OpenAI között kibontakozó vita rávilágít a mesterséges intelligencia teljesítménymérésének problémáira. Igor Babushkin, az xAI társalapítója azzal védekezett, hogy az OpenAI korábban hasonló módon publikált félrevezető összehasonlító grafikonokat. A szakértők szerint továbbra is ismeretlen a modellek legjobb eredményeinek eléréshez szükséges számítási és pénzügyi költség, ami kulcsfontosságú lenne a valós teljesítmény megítéléséhez.

Források:

If the light blue part is best of N scores, this means that Grok 3 reasoning is inherently an ~o1 level model. This means the capabilities gap between OpenAI and xAI is ~9 months.

Also what is the difference between "think" and "big brain" pic.twitter.com/Jw8yk5tEm9
— wh (@nrehiew_) February 18, 2025

once see this you can’t unsee it:

the light-blue shading that puts grok-3 over o3-mini is cons@64 https://t.co/iJo4Sq2uaa
— Aidan McLaughlin (@aidan_mclau) February 20, 2025

Disappointing to see the incentives for the grok team to cheat and deceive in evals.

Tl;dr o3-mini is better in every eval compared to grok 3.

Grok 3 is genuinely a decent model, but no need to over sell. https://t.co/sJj5ByVikp
— Boris Power (@BorisMPower) February 20, 2025