teljesítménymérés - AIFORRADALOM

Megérkezett a DeepSeek V3.1: nyílt modell, alacsony költség, nagy teljesítmény

A kínai DeepSeek 2025. augusztus 19-én közzétette új, 685 milliárd paraméteres V3.1 mesterséges intelligencia modelljét. Ez a rendszer közvetlen kihívást jelent az amerikai AI óriásokkal szemben, hiszen a Hugging Face platformra feltöltött modell 71,6%-ot ért el a rangos Aider kódolási tesztben. Ez az eredmény felülmúlja a Claude

by poltextLAB robotújságíró • 2025. szept. 17.

OpenAI open-weight teljesítménymérés

Az OpenAI két nyílt forráskódú GPT-modellt adott ki Apache 2.0 licenc alatt

Az OpenAI két nyílt GPT-modellt ad ki az Apache 2.0 licenc alatt Az OpenAI 2025. augusztus 5-én két nyílt súlyozású következtető modellt tett közzé Apache 2.0 licenc alatt, melyek a gpt-oss-120b és gpt-oss-20b elnevezést kapták, lehetővé téve a kutatók számára, hogy szabadon hozzáférjenek, módosítsák és terjesszék ezeket az

by poltextLAB robotújságíró • 2025. aug. 14.

Anthropic teljesítménymérés érvelő modell

Az Anthropic bemutatta a fejlettebb kódolási képességekkel rendelkező Claude Opus 4.1 modellt

Az Anthropic 2025. augusztus 7-én kiadta a Claude Opus 4.1 modellt, amely jelentős fejlesztéseket tartalmaz a kódolási, ügynöki és következtetési képességek terén, különösen nagy előrelépést mutatva a komplex valós programozási feladatok és többlépéses problémák megoldásában. A frissített modell az előző generációhoz képest 38%-kal jobb teljesítményt nyújt kódolási feladatokban,

by poltextLAB robotújságíró • 2025. aug. 12.

LLM kutatási eredmények teljesítménymérés

A nagy nyelvi modellek kiemelkedően jók az érzelmi intelligencia tesztek megoldásában és létrehozásában

A genfi és berni kutatók által készített friss tanulmány szerint hat vezető nagy nyelvi modell – köztük a ChatGPT – jelentősen felülmúlta az emberi teljesítményt öt standard érzelmi intelligencia teszten, átlagosan 82%-os pontossággal szemben az emberek 56%-os eredményével. A Communications Psychology folyóiratban 2025 májusában közzétett kutatás során a tesztek olyan

by poltextLAB robotújságíró • 2025. aug. 8.

AI modellek teljesítménymérés Kína

A Moonshot AI Kimi K2 modellje felülmúlja a GPT-4-et kulcsfontosságú mérőszámokban – és ingyenes

A kínai Moonshot AI 2023. július 16-án bemutatta a Kimi K2 nevű új AI modelljét, amely a teljesítménymérések szerint több kulcsfontosságú kategóriában is felülmúlja az OpenAI GPT-4 modelljét, miközben teljesen ingyenesen használható. A vállalat, amely már korábban is elismert AI modelleket fejlesztett, ezzel jelentős áttörést ért el a kínai AI

by poltextLAB robotújságíró • 2025. aug. 5.

teljesítménymérés kutatási eredmények LegalTech

LEXam: Az első jogi teljesítménymérő AI modellekhez

A Social Science Research Network (SSRN) platformon közzétett LEXam az első átfogó teljesítménymérő, amely specifikusan a jogi érvelés képességét méri az AI modelleknek 340 autentikus jogi vizsgakérdés segítségével. A kutatók által fejlesztett tesztrendszer hat különböző joghatóság (Egyesült Államok, Egyesült Királyság, Franciaország, Németország, India és Olaszország) szabályozási keretrendszereit fedi le, és

by poltextLAB robotújságíró • 2025. júl. 28.

Google Gemma teljesítménymérés

A Google legújabb Gemma 3n modellje innovatív megoldásokkal növeli a mobileszközökön futó AI alkalmazások hatékonyságát

A 2025. június 26-án hivatalosan kiadott Gemma 3n jelentős fejlesztéseket tartalmaz, amelyek kifejezetten a mobilkészülékeken való AI futtatást célozzák. A multimodális modell natívan támogat kép-, hang-, videó- és szöveges bemeneteket, és két méretben érhető el: az E2B (5 milliárd paraméter) és az E4B (8 milliárd paraméter), amelyek mindössze 2GB, illetve

by poltextLAB robotújságíró • 2025. júl. 11.

kutatási eredmények teljesítménymérés Centaur

Centaur: az AI modell, amely úgy gondolkodik, mint egy ember?

A Helmholtz Müncheni Intézet kutatói a Nature folyóiratban 2025. július 2-án publikálták az úttörő Centaur modellt, amely képes megjósolni és utánozni az emberi viselkedést különböző helyzetekben. A Marcel Binz vezette kutatócsoport létrehozta a Psych-101 adatbázist, amely 160 pszichológiai kísérletből származó több mint 10 millió döntést tartalmaz 60.000 résztvevőtől, majd

by poltextLAB robotújságíró • 2025. júl. 11.

Google Gemini teljesítménymérés

A Google fejlesztett verzióban adta ki a Gemini 2.5 Pro modellt

A Google június 5-én bemutatta a Gemini 2.5 Pro frissített előzetes verzióját, amely 24 pontos Elo pontszám-növekedést ért el az LMArena ranglistán, így 1470 ponttal továbbra is vezeti a ranglistát. A WebDevArena ranglistán 35 pontos Elo növekedéssel 1443 pontra emelkedett és vezető pozíciót foglal el. A Gemini 2.5

by poltextLAB robotújságíró • 2025. júl. 8.

ChatGPT kutatási eredmények teljesítménymérés

Hogyan verte meg egy 46 éves Atari 2600 játékkonzol a ChatGPT-t sakkban?

A ChatGPT, az OpenAI népszerű AI chatbotja egyértelmű vereséget szenvedett egy 46 éves, 1978-as Atari 2600 sakk programjától, miután Stephen Cobb kutató 2024 márciusában egymás ellen játszatta a két rendszert. A kísérlet során a játékkonzol hat játszmából ötöt nyert meg, míg a ChatGPT mindössze egyszer győzött, ami 83%-os vereségi

by poltextLAB robotújságíró • 2025. jún. 19.

Mistral érvelő modell teljesítménymérés

A Mistral AI bemutatta első érvelő modelljét, amely 10-szer gyorsabb a versenytársaknál

A francia Mistral AI 2025. június 10-én hivatalosan bejelentette a Magistralt, első érvelő modellcsaládját, amely lépcsőzetes gondolkodásra képes és két változatban érhető el: a 24 milliárd paraméteres, nyílt forráskódú Magistral Small és a vállalati felhasználásra szánt Magistral Medium. A Magistral Medium 73,6%-os pontosságot ért el az AIME2024 matematikai

by poltextLAB robotújságíró • 2025. jún. 16.

DeepSeek Kína teljesítménymérés

A kínai startup bemutatta az új DeepSeek-R1-0528 modellt amely 87,5%-os pontossággal közelíti a piacvezetőket

A kínai DeepSeek startup 2025. május 28-án jelentette be a DeepSeek-R1-0528 modellt, amely jelentős teljesítménynövekedést ért el az összetett érvelési feladatokban és közel azonos képességeket nyújt mint az OpenAI o3 és a Google Gemini 2.5 Pro fizetős modelljei. A frissítés az AIME 2025 teszten 70%-ról 87,5%-ra

by poltextLAB robotújságíró • 2025. jún. 5.