Az Anthropic 2025. augusztus 7-én kiadta a Claude Opus 4.1 modellt, amely jelentős fejlesztéseket tartalmaz a kódolási, ügynöki és következtetési képességek terén, különösen nagy előrelépést mutatva a komplex valós programozási feladatok és többlépéses problémák megoldásában. A frissített modell az előző generációhoz képest 38%-kal jobb teljesítményt nyújt kódolási feladatokban, és 27%-kal fejlettebb következtetési képességekkel rendelkezik a HumanEval, MMLU és GSM8K teszteken. Az Anthropic ezen fejlesztések révén közvetlenül reagál a felhasználói visszajelzésekre, miközben erősíti pozícióját az egyre versengőbb AI piacon, ahol a kódgenerálás és az automatizált feladatvégrehajtás kulcsfontosságú differenciáló tényezőkké váltak.
A Claude Opus 4.1 kiemelkedő teljesítményt nyújt a Python, JavaScript, TypeScript, Go és SQL kódolási feladatokban, a HumanEval teszten 86,3%-os pontszámot elérve, ami 13,8 százalékpontos növekedés az előző verzióhoz képest. Az új modell képes teljes alkalmazások és weboldalak létrehozására, komplex API-k integrálására, és hatékonyan kezeli a nagyméretű kódbázisokat akár 200.000 tokenes kontextusban is. Jack Clark, az Anthropic társalapítója elmondta, hogy a fejlesztés fókuszában a valós világbeli programozási problémák álltak, különös tekintettel a nagy kódprojektek kezelésére és a fejlesztői munkafolyamatok egyszerűsítésére. Az Anthropic jelentős erőforrásokat fektetett a kiberbiztonsági védelmi mechanizmusokba is, beleértve a káros kód generálásának megakadályozását és a potenciálisan veszélyes API-hívások blokkolását.
A Claude Opus 4.1 ágensi képességei lehetővé teszik a modell számára, hogy bonyolult, többlépéses feladatokat tervezzen és hajtson végre minimális emberi beavatkozással, beleértve az adatelemzést, automatizált kutatást és folyamatoptimalizálást. Az új verzió már elérhető minden Claude API és Claude Pro felhasználó számára változatlan árazás mellett, 32,80 USD/millió input token és 163,84 USD/millió output token díjszabással. Az Anthropic adatai szerint a modell a 42%-os javulást az ágensi feladatok végrehajtásában egy 1.000 feladatból álló tesztsorozaton érte el, amely átlagosan 3,2 lépésből álló műveleti szekvenciákat tartalmazott, ami jól mutatja a Claude Opus 4.1 képességét a hosszabb, összetettebb utasítássorozatok követésére.
Források:
1.

2.

3.