Az Apple Machine Learning Research 2025 júniusában közzétett "The Illusion of Thinking" (A gondolkodás illúziója) című tanulmánya alapvető korlátokat tárt fel a jelenlegi nagy méretű gondolkodó modellek (LRM-ek) képességeiben. A kutatók négy különböző fejtörő problémát, köztük a Hanoi tornyait használták, változtatható komplexitással, hogy megvizsgálják az o3-mini és DeepSeek-R1 modellek teljesítményét. A kísérletekből kiderült, hogy a modellek viselkedése három fázison megy keresztül: az egyszerű problémáknál mind a gondolkodó, mind a standard modellek hasonlóan teljesítenek; közepes komplexitásnál a gondolkodó modellek jobban működnek; míg magas komplexitásnál mindkét csoport teljesítménye nullára csökken.
Az Apple kutatói azt figyelték meg, hogy ahogy a feladatok összetettsége növekszik, a modellek gondolkodási erőfeszítése egy bizonyos pontig növekszik, majd csökken, annak ellenére, hogy elegendő token áll rendelkezésükre – ez a skálázhatóság alapvető korlátaira utal. Elemezték a modellek által generált gondolkodási folyamatokat is, és azt találták, hogy egyszerűbb problémáknál a modellek gyakran "túlgondolkodnak": a helyes megoldás korán megjelenik, de a modellek továbbra is helytelen ötleteket vizsgálnak; míg közepes összetettségű problémáknál a modellek helytelen megoldásokat vizsgálnak, mielőtt megtalálnák a helyeset. A kutatás azt is kimutatta, hogy még explicit megoldási algoritmusok megadása esetén is a modellek nem tudták ezeket megbízhatóan végrehajtani, ami mélyebb gondolkodási korlátokra utal.
Az Apple tanulmánya széles körű vitát váltott ki az AI közösségben, különösen arról, hogy a jelenlegi mérőszámok mennyire alkalmasak a modellek valódi képességeinek értékelésére. Gary Marcus kognitív tudós szerint a tanulmány alapvetően azt mutatja, hogy az LLM-ek nem helyettesíthetik a jól meghatározott hagyományos algoritmusokat, míg Simon Willison AI kommentátor arra mutatott rá, hogy a gondolkodó LLM-ek már ma is hasznosak, függetlenül attól, hogy megbízhatóan meg tudják-e oldani a Hanoi tornyát. Az Anthropic 2025 júliusában kiadott ellenérvelése szerint az Apple eredményei nem a modellek gondolkodási korlátaiból származnak, hanem a rosszul megtervezett értékelésekből – a modellek nem a gondolkodásban vallottak kudarcot, hanem a token-korlátok közötti felsorolásban.
Források:
1.

2.

3.
