EN

teljesítménymérés

A kínai nyílt forráskódú AI-modellek mostanra felveszik a versenyt nyugati zárt forráskódú vetélytársaikkal

A kínai DeepSeek és az Alibaba által támogatott Moonshot új AI-modelleket adott ki, amelyek versenyképes teljesítményt mutatnak a vezető nyugati, zárt forráskódú rendszerekkel szemben. A DeepSeek júliusban mutatta be a V3.2-t és decemberben a V3.2-Speciale-t, míg a Moonshot szeptemberben a Kimi K2-t és novemberben a Kimi K2 Thinking-et.

Az AI eszközök a szerződéskészítés terén felveszik a versenyt az emberi ügyvédekkel

A LegalBenchmarks.ai által 2025 szeptemberében közzétett első átfogó benchmark tanulmány szerint az AI eszközök több esetben ugyanolyan pontos vagy pontosabb szerződéstervezeteket készítettek, mint az emberi ügyvédek. A kutatás 13 AI eszközt értékelt 30 valós szerződéskészítési feladaton, ahol az ügyvédek átlagosan 56,7%-os pontosságot értek el, míg több AI

Az xAI bemutatta a Grok-4-Fast modellt: egységes érvelési architektúra 2 millió tokenes kontextusablakkal

Az xAI 2025. szeptemberében jelentette be a Grok-4-Fast modellt, amely egységes architektúrába ötvözi az „érvelő" (reasoning) és „nem-érvelő" (non-reasoning) működési módokat, miközben 40%-kal kevesebb gondolkodási tokent használ, mint a Grok-4 modell. A Grok-4-Fast 2 millió szövegegységet tud egyszerre figyelembe venni, és úgy képezték ki, hogy külső eszközöket

Megérkezett a DeepSeek V3.1: nyílt modell, alacsony költség, nagy teljesítmény

A kínai DeepSeek 2025. augusztus 19-én közzétette új, 685 milliárd paraméteres V3.1 mesterséges intelligencia modelljét. Ez a rendszer közvetlen kihívást jelent az amerikai AI óriásokkal szemben, hiszen a Hugging Face platformra feltöltött modell 71,6%-ot ért el a rangos Aider kódolási tesztben. Ez az eredmény felülmúlja a Claude

by poltextLAB robotújságíró

Az OpenAI két nyílt forráskódú GPT-modellt adott ki Apache 2.0 licenc alatt

Az OpenAI két nyílt GPT-modellt ad ki az Apache 2.0 licenc alatt Az OpenAI 2025. augusztus 5-én két nyílt súlyozású következtető modellt tett közzé Apache 2.0 licenc alatt, melyek a gpt-oss-120b és gpt-oss-20b elnevezést kapták, lehetővé téve a kutatók számára, hogy szabadon hozzáférjenek, módosítsák és terjesszék ezeket az

by poltextLAB robotújságíró

Az Anthropic bemutatta a fejlettebb kódolási képességekkel rendelkező Claude Opus 4.1 modellt

Az Anthropic 2025. augusztus 7-én kiadta a Claude Opus 4.1 modellt, amely jelentős fejlesztéseket tartalmaz a kódolási, ügynöki és következtetési képességek terén, különösen nagy előrelépést mutatva a komplex valós programozási feladatok és többlépéses problémák megoldásában. A frissített modell az előző generációhoz képest 38%-kal jobb teljesítményt nyújt kódolási feladatokban,

by poltextLAB robotújságíró

A nagy nyelvi modellek kiemelkedően jók az érzelmi intelligencia tesztek megoldásában és létrehozásában

A genfi és berni kutatók által készített friss tanulmány szerint hat vezető nagy nyelvi modell – köztük a ChatGPT – jelentősen felülmúlta az emberi teljesítményt öt standard érzelmi intelligencia teszten, átlagosan 82%-os pontossággal szemben az emberek 56%-os eredményével. A Communications Psychology folyóiratban 2025 májusában közzétett kutatás során a tesztek olyan

A Moonshot AI Kimi K2 modellje felülmúlja a GPT-4-et kulcsfontosságú mérőszámokban – és ingyenes

A kínai Moonshot AI 2023. július 16-án bemutatta a Kimi K2 nevű új AI modelljét, amely a teljesítménymérések szerint több kulcsfontosságú kategóriában is felülmúlja az OpenAI GPT-4 modelljét, miközben teljesen ingyenesen használható. A vállalat, amely már korábban is elismert AI modelleket fejlesztett, ezzel jelentős áttörést ért el a kínai AI

LEXam: Az első jogi teljesítménymérő AI modellekhez

A Social Science Research Network (SSRN) platformon közzétett LEXam az első átfogó teljesítménymérő, amely specifikusan a jogi érvelés képességét méri az AI modelleknek 340 autentikus jogi vizsgakérdés segítségével. A kutatók által fejlesztett tesztrendszer hat különböző joghatóság (Egyesült Államok, Egyesült Királyság, Franciaország, Németország, India és Olaszország) szabályozási keretrendszereit fedi le, és

by poltextLAB robotújságíró

A Google legújabb Gemma 3n modellje innovatív megoldásokkal növeli a mobileszközökön futó AI alkalmazások hatékonyságát

A 2025. június 26-án hivatalosan kiadott Gemma 3n jelentős fejlesztéseket tartalmaz, amelyek kifejezetten a mobilkészülékeken való AI futtatást célozzák. A multimodális modell natívan támogat kép-, hang-, videó- és szöveges bemeneteket, és két méretben érhető el: az E2B (5 milliárd paraméter) és az E4B (8 milliárd paraméter), amelyek mindössze 2GB, illetve

by poltextLAB robotújságíró

Centaur: az AI modell, amely úgy gondolkodik, mint egy ember?

A Helmholtz Müncheni Intézet kutatói a Nature folyóiratban 2025. július 2-án publikálták az úttörő Centaur modellt, amely képes megjósolni és utánozni az emberi viselkedést különböző helyzetekben. A Marcel Binz vezette kutatócsoport létrehozta a Psych-101 adatbázist, amely 160 pszichológiai kísérletből származó több mint 10 millió döntést tartalmaz 60.000 résztvevőtől, majd

by poltextLAB robotújságíró