Viták a Grok 3 teljesítménytesztjei körül: az xAI félrevezető adatokat közölt?

Viták a Grok 3 teljesítménytesztjei körül: az xAI félrevezető adatokat közölt?
Kép: Unsplash - Mariia Shalabaieva

Az xAI által közzétett Grok 3 mesterséges intelligencia teljesítményadatok félrevezetőek lehetnek az OpenAI szakemberei szerint, akik megkérdőjelezték a publikált teszteredmények hitelességét, különösen az AIME 2025 matematikateszten elért pontszámok tekintetében.

A vita középpontjában az áll, hogy az xAI blogbejegyzésében közzétett grafikonokból kimaradt az OpenAI o3-mini-high modelljének speciális tesztmódban elért eredménye, ahol a rendszer 64 próbálkozásból választja ki a leggyakoribb helyes választ. A részletes elemzés szerint amikor a Grok 3 Reasoning Beta és a Grok 3 mini Reasoning modellek első próbálkozásra adott válaszait vizsgálták, azok gyengébben teljesítettek az OpenAI modelljénél. Ezt az ellentmondást erősítheti Elon Musk február 13-i dubaji World Government Summit-on tett nyilatkozata is, ahol a Grok 3-at "ijesztően okosnak" nevezte, és azt állította, hogy a Grok 3 felülmúl minden eddig kiadott modellt, amiről tudunk.

Az xAI vezetősége és az OpenAI között kibontakozó vita rávilágít a mesterséges intelligencia teljesítménymérésének problémáira. Igor Babushkin, az xAI társalapítója azzal védekezett, hogy az OpenAI korábban hasonló módon publikált félrevezető összehasonlító grafikonokat. A szakértők szerint továbbra is ismeretlen a modellek legjobb eredményeinek eléréshez szükséges számítási és pénzügyi költség, ami kulcsfontosságú lenne a valós teljesítmény megítéléséhez.

Források:

1.

Did xAI lie about Grok 3’s benchmarks? | TechCrunch
OpenAI researchers accused xAI about publishing misleading Grok 3 benchmarks. The truth is a little more nuanced.

2.

3.

4.

5.

Elon Musk says his Grok 3 outperforms AI chatbots like ChatGPT and DeepSeek
Elon Musk has revealed that his upcoming AI chatbot, Grok 3, will outshine competitors like ChatGPT and DeepSeek. Speaking at the World Government Summit in Dubai, Musk shared that Grok 3 is nearing completion and will be launched within the next one or two weeks.