Anthropic Claude teljesítménymérés

Az Anthropic új Claude 4 modellje vezeti a szoftvermérnöki benchmarkokat

2025. máj. 27.

3 min read

Az Anthropic új Claude 4 modellje vezeti a szoftvermérnöki benchmarkokat — Forrás: claude.ai

Az Anthropic május 22-én mutatta be új Claude 4 modelljeit, a Claude Opus 4-et és Claude Sonnet 4-et, amelyek új mércét állítanak fel a kódolás, fejlett érvelés és AI ügynökök területén. A Claude Opus 4 hivatalosan a világ legjobb kódoló modellje lett, amely 72,5%-os eredményt ért el az SWE-bench benchmarkon és 43,2%-ot a Terminal-bench teszten, miközben képes folyamatosan hét órán át dolgozni összetett feladatokon. Az Anthropic bevételei az első negyedévben elérték a 2 milliárd dolláros éves szintet, ami több mint kétszerese az előző időszak 1 milliárd dolláros ütemének, míg a 100 000 dollárnál többet költő ügyfelek száma nyolcszorosára nőtt egy év alatt.

Az új modellek hibrid működéssel rendelkeznek, két módot kínálva: azonnali válaszokat és kiterjesztett gondolkodást mélyebb érveléshez, amelynek során olyan eszközöket is használhatnak, mint például a webes keresés. A Claude Sonnet 4 jelentős fejlődést mutat az előző 3.7-es verzióhoz képest, 72,7%-os eredményt elérve az SWE-bench teszten. A GitHub bejelentette, hogy ezt a modellt fogja használni új kódoló ügynökében a GitHub Copilot-ban. Az árképzés változatlan maradt az előző modellekhez képest: az Opus 4 15/75 dollárba kerül millió tokenenként (bemenet/kimenet), míg a Sonnet 4 3/15 dollárba kerül.

Forrás: https://www.anthropic.com/news/claude-4

A teszt eredmények szerint mindkét modell vezető pozícióban van a szoftvermérnöki feladatokban, bár továbbra is korlátokkal rendelkeznek a 200 000 tokenes kontextusablak és a csak szöveges megközelítés miatt, szemben a Google és OpenAI több millió tokenes és multimodális rendszereivel. A Claude Code általánosan elérhetővé vált GitHub Actions háttértámogatással és natív VS Code, JetBrains integrációkkal, míg az új API képességek között szerepel a kód végrehajtási eszköz, MCP csatlakozó és Files API, amelyek fejlettebb AI ügynökök építését teszik lehetővé.