EN

Nagy nyelvi modellek matematika olimpiákon: lenyűgöző eredmények vagy csupán blöff?

Nagy nyelvi modellek matematika olimpiákon: lenyűgöző eredmények vagy csupán blöff?
Kép: Freepik - jcomp

Az elmúlt időszakban jelentős előrelépés történt a nagy nyelvi modellek matematikai képességeinek terén, azonban a 2025-ös USAMO (USA Matematikai Olimpia) versenyén végzett részletes emberi értékelések szerint a jelenlegi modellek messze elmaradnak a valódi matematikai bizonyítások létrehozásában. Míg egyes benchmarkok, mint a MathArena, pozitív képet festenek az LLM-ek teljesítményéről az AIME versenyen, ahol a Gemini-2.5 Pro a legjobb emberi versenyzőkkel összehasonlítható eredményeket ért el, ezek az értékelések kizárólag a végső numerikus válaszok helyességét vizsgálták, figyelmen kívül hagyva a szigorú érvelés és bizonyítás minőségét.

A 2025-ös USAMO hat feladatán végzett szakértői értékelés lesújtó eredményeket mutatott: a Gemini-2.5 Pro mindössze 25%-os pontszámot ért el, míg a többi modell kevesebb mint 5%-ot. Az LLM-ek matematikai érveléseinek összehasonlító értékelése című tanulmány szerint a modellek teljesítménye az IMO-szintű problémákon szintén gyenge, mindössze 3,8% (DeepSeek) és 0% (Gemini 2.0) között mozog a helyes megoldások aránya. Az értékelők azonosították a leggyakoribb hibatípusokat is, mint például a példával történő bizonyítás, ellenőrzés nélküli állítások, és helytelen tények közlése. Ahogy a kutatók megjegyezték: az LLM-ek gyakran olyan heurisztikákat, rövidítéseket és megalapozatlan találgatásokat alkalmaznak, amelyek gyakran tévútra vezetnek a szigorú érvelés helyett.

Az értékelések arra is rámutattak, hogy még amikor a modellek helyes végeredményt adnak is (ami az esetek 63,2%-ában fordult elő a DeepSeek esetében), a mögöttes érvelés általában hibás. A modellek olyan káros mintákat is mutattak, mint a nem létező források idézése, és nehezen tudták megkülönböztetni a helyes és helytelen megoldásokat. Ezek az eredmények világosan jelzik, hogy az LLM-ek olimpiai szintű matematikai képességeiről szóló állítások túlzóak, és hogy jelentős fejlesztésre van szükség az érvelési és bizonyítási képességek terén, mielőtt ezek a modellek valóban alkalmasak lennének komplex matematikai feladatok megoldására.

Források:

1.

Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad
Recent math benchmarks for large language models (LLMs) such as MathArena indicate that state-of-the-art reasoning models achieve impressive performance on mathematical competitions like AIME, with the leading model, Gemini-2.5-Pro, achieving scores comparable to top human competitors. However, these benchmarks evaluate models solely based on final numerical answers, neglecting rigorous reasoning and proof generation which are essential for real-world mathematical tasks. To address this, we introduce the first comprehensive evaluation of full-solution reasoning for challenging mathematical problems. Using expert human annotators, we evaluated several state-of-the-art reasoning models on the six problems from the 2025 USAMO within hours of their release. Our results reveal that all tested models struggled significantly: only Gemini-2.5-Pro achieves a non-trivial score of 25%, while all other models achieve less than 5%. Through detailed analysis of reasoning traces, we identify the most common failure modes and find several unwanted artifacts arising from the optimization strategies employed during model training. Overall, our results suggest that current LLMs are inadequate for rigorous mathematical reasoning tasks, highlighting the need for substantial improvements in reasoning and proof generation capabilities.

2.

Large Language Models and Math: A Review of Approaches and Progress
Existing Challenges in Math for LLMs

3.

Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics
Recent advances in large language models (LLMs) have shown impressive progress in mathematical reasoning tasks. However, current evaluation benchmarks predominantly focus on the accuracy of final answers, often overlooking the crucial logical rigor for mathematical problem solving. The claim that state-of-the-art LLMs can solve Math Olympiad-level problems requires closer examination. To explore this, we conducted both qualitative and quantitative human evaluations of proofs generated by LLMs, and developed a schema for automatically assessing their reasoning capabilities. Our study reveals that current LLMs fall significantly short of solving challenging Olympiad-level problems and frequently fail to distinguish correct mathematical reasoning from clearly flawed solutions. Our analyses demonstrate that the occasional correct final answers provided by LLMs often result from pattern recognition or heuristic shortcuts rather than genuine mathematical reasoning. These findings underscore the substantial gap between LLM performance and human expertise in advanced mathematical reasoning and highlight the importance of developing benchmarks that prioritize the soundness of the reasoning used to arrive at an answer rather than the mere correctness of the final answers.