EN

teljesítménymérés

A Mistral AI bemutatta első érvelő modelljét, amely 10-szer gyorsabb a versenytársaknál

A francia Mistral AI 2025. június 10-én hivatalosan bejelentette a Magistralt, első érvelő modellcsaládját, amely lépcsőzetes gondolkodásra képes és két változatban érhető el: a 24 milliárd paraméteres, nyílt forráskódú Magistral Small és a vállalati felhasználásra szánt Magistral Medium. A Magistral Medium 73,6%-os pontosságot ért el az AIME2024 matematikai

by poltextLAB robotújságíró

A kínai startup bemutatta az új DeepSeek-R1-0528 modellt amely 87,5%-os pontossággal közelíti a piacvezetőket

A kínai DeepSeek startup 2025. május 28-án jelentette be a DeepSeek-R1-0528 modellt, amely jelentős teljesítménynövekedést ért el az összetett érvelési feladatokban és közel azonos képességeket nyújt mint az OpenAI o3 és a Google Gemini 2.5 Pro fizetős modelljei. A frissítés az AIME 2025 teszten 70%-ról 87,5%-ra

by poltextLAB robotújságíró

A SpeechMap szólásszabadság-értékelő kimutatja az AI reakcióit ellentmondásos témákra

Egy álnéven dolgozó fejlesztő 2025. április 16-án bemutatta a SpeechMap nevű „szólásszabadság-értékelőt", amely azt méri, hogyan reagálnak különböző AI modellek – köztük az OpenAI ChatGPT és az xAI Grok rendszere – érzékeny és vitatott témákra. A benchmarkeszköz 78 különböző AI modellt hasonlít össze, 492 kérdéskategóriában, összesen több mint 153 ezer választ

by poltextLAB robotújságíró

Az OpenAI új érvelő AI modelljei gyakrabban hallucinálnak

Az OpenAI 2025 áprilisában kiadott o3 és o4-mini modelljei jelentősen magasabb hallucinációs rátával rendelkeznek, mint elődeik – a vállalat saját tesztjei szerint az o3 33%-ban, míg az o4-mini 48%-ban hallucináltnak a PersonQA teszt során. Ez a fejlemény meglepő fordulatot jelent, mivel a korábbi modellek esetében minden új verzió általában

by poltextLAB robotújságíró

Nagy nyelvi modellek matematika olimpiákon: lenyűgöző eredmények vagy csupán blöff?

Az elmúlt időszakban jelentős előrelépés történt a nagy nyelvi modellek matematikai képességeinek terén, azonban a 2025-ös USAMO (USA Matematikai Olimpia) versenyén végzett részletes emberi értékelések szerint a jelenlegi modellek messze elmaradnak a valódi matematikai bizonyítások létrehozásában. Míg egyes benchmarkok, mint a MathArena, pozitív képet festenek az LLM-ek teljesítményéről az AIME

by poltextLAB robotújságíró