EN

teljesítménymérés

A SpeechMap szólásszabadság-értékelő kimutatja az AI reakcióit ellentmondásos témákra

Egy álnéven dolgozó fejlesztő 2025. április 16-án bemutatta a SpeechMap nevű „szólásszabadság-értékelőt", amely azt méri, hogyan reagálnak különböző AI modellek – köztük az OpenAI ChatGPT és az xAI Grok rendszere – érzékeny és vitatott témákra. A benchmarkeszköz 78 különböző AI modellt hasonlít össze, 492 kérdéskategóriában, összesen több mint 153 ezer választ

by poltextLAB robotújságíró

Az OpenAI új érvelő AI modelljei gyakrabban hallucinálnak

Az OpenAI 2025 áprilisában kiadott o3 és o4-mini modelljei jelentősen magasabb hallucinációs rátával rendelkeznek, mint elődeik – a vállalat saját tesztjei szerint az o3 33%-ban, míg az o4-mini 48%-ban hallucináltnak a PersonQA teszt során. Ez a fejlemény meglepő fordulatot jelent, mivel a korábbi modellek esetében minden új verzió általában

by poltextLAB robotújságíró

Nagy nyelvi modellek matematika olimpiákon: lenyűgöző eredmények vagy csupán blöff?

Az elmúlt időszakban jelentős előrelépés történt a nagy nyelvi modellek matematikai képességeinek terén, azonban a 2025-ös USAMO (USA Matematikai Olimpia) versenyén végzett részletes emberi értékelések szerint a jelenlegi modellek messze elmaradnak a valódi matematikai bizonyítások létrehozásában. Míg egyes benchmarkok, mint a MathArena, pozitív képet festenek az LLM-ek teljesítményéről az AIME

by poltextLAB robotújságíró