EN

Az Anthropic új Claude 4 modellje vezeti a szoftvermérnöki benchmarkokat

Az Anthropic új Claude 4 modellje vezeti a szoftvermérnöki benchmarkokat
Forrás: claude.ai

Az Anthropic május 22-én mutatta be új Claude 4 modelljeit, a Claude Opus 4-et és Claude Sonnet 4-et, amelyek új mércét állítanak fel a kódolás, fejlett érvelés és AI ügynökök területén. A Claude Opus 4 hivatalosan a világ legjobb kódoló modellje lett, amely 72,5%-os eredményt ért el az SWE-bench benchmarkon és 43,2%-ot a Terminal-bench teszten, miközben képes folyamatosan hét órán át dolgozni összetett feladatokon. Az Anthropic bevételei az első negyedévben elérték a 2 milliárd dolláros éves szintet, ami több mint kétszerese az előző időszak 1 milliárd dolláros ütemének, míg a 100 000 dollárnál többet költő ügyfelek száma nyolcszorosára nőtt egy év alatt.

Az új modellek hibrid működéssel rendelkeznek, két módot kínálva: azonnali válaszokat és kiterjesztett gondolkodást mélyebb érveléshez, amelynek során olyan eszközöket is használhatnak, mint például a webes keresés. A Claude Sonnet 4 jelentős fejlődést mutat az előző 3.7-es verzióhoz képest, 72,7%-os eredményt elérve az SWE-bench teszten. A GitHub bejelentette, hogy ezt a modellt fogja használni új kódoló ügynökében a GitHub Copilot-ban. Az árképzés változatlan maradt az előző modellekhez képest: az Opus 4 15/75 dollárba kerül millió tokenenként (bemenet/kimenet), míg a Sonnet 4 3/15 dollárba kerül.

Forrás: https://www.anthropic.com/news/claude-4

A teszt eredmények szerint mindkét modell vezető pozícióban van a szoftvermérnöki feladatokban, bár továbbra is korlátokkal rendelkeznek a 200 000 tokenes kontextusablak és a csak szöveges megközelítés miatt, szemben a Google és OpenAI több millió tokenes és multimodális rendszereivel. A Claude Code általánosan elérhetővé vált GitHub Actions háttértámogatással és natív VS Code, JetBrains integrációkkal, míg az új API képességek között szerepel a kód végrehajtási eszköz, MCP csatlakozó és Files API, amelyek fejlettebb AI ügynökök építését teszik lehetővé.

Forrás: https://www.anthropic.com/news/claude-4

Források:

1.

Introducing Claude 4
Discover Claude 4’s breakthrough AI capabilities. Experience more reliable, interpretable assistance for complex tasks across work and learning.

2.

Anthropic launches Claude 4, its most powerful AI model yet
Anthropic, the Amazon-backed OpenAI rival, on Thursday launched its most powerful group of AI models yet: Claude 4.

3.

Anthropic Claude 4 Review: Creative Genius Trapped by Old Limitations - Decrypt
Anthropic’s Claude 4 models show particular strength in coding and reasoning tasks, but lag behind in multimodality and context window size compared to Google and OpenAI offerings.