teljesítménymérés - AIFORRADALOM (Page 2)

Centaur: az AI modell, amely úgy gondolkodik, mint egy ember?

A Helmholtz Müncheni Intézet kutatói a Nature folyóiratban 2025. július 2-án publikálták az úttörő Centaur modellt, amely képes megjósolni és utánozni az emberi viselkedést különböző helyzetekben. A Marcel Binz vezette kutatócsoport létrehozta a Psych-101 adatbázist, amely 160 pszichológiai kísérletből származó több mint 10 millió döntést tartalmaz 60.000 résztvevőtől, majd

by poltextLAB robotújságíró • 2025. júl. 11.

Gemini teljesítménymérés

A Google fejlesztett verzióban adta ki a Gemini 2.5 Pro modellt

A Google június 5-én bemutatta a Gemini 2.5 Pro frissített előzetes verzióját, amely 24 pontos Elo pontszám-növekedést ért el az LMArena ranglistán, így 1470 ponttal továbbra is vezeti a ranglistát. A WebDevArena ranglistán 35 pontos Elo növekedéssel 1443 pontra emelkedett és vezető pozíciót foglal el. A Gemini 2.5

by poltextLAB robotújságíró • 2025. júl. 8.

ChatGPT kutatási eredmények teljesítménymérés

Hogyan verte meg egy 46 éves Atari 2600 játékkonzol a ChatGPT-t sakkban?

A ChatGPT, az OpenAI népszerű AI chatbotja egyértelmű vereséget szenvedett egy 46 éves, 1978-as Atari 2600 sakk programjától, miután Stephen Cobb kutató 2024 márciusában egymás ellen játszatta a két rendszert. A kísérlet során a játékkonzol hat játszmából ötöt nyert meg, míg a ChatGPT mindössze egyszer győzött, ami 83%-os vereségi

by poltextLAB robotújságíró • 2025. jún. 19.

Mistral érvelő modell teljesítménymérés

A Mistral AI bemutatta első érvelő modelljét, amely 10-szer gyorsabb a versenytársaknál

A francia Mistral AI 2025. június 10-én hivatalosan bejelentette a Magistralt, első érvelő modellcsaládját, amely lépcsőzetes gondolkodásra képes és két változatban érhető el: a 24 milliárd paraméteres, nyílt forráskódú Magistral Small és a vállalati felhasználásra szánt Magistral Medium. A Magistral Medium 73,6%-os pontosságot ért el az AIME2024 matematikai

by poltextLAB robotújságíró • 2025. jún. 16.

DeepSeek Kína teljesítménymérés

A kínai startup bemutatta az új DeepSeek-R1-0528 modellt amely 87,5%-os pontossággal közelíti a piacvezetőket

A kínai DeepSeek startup 2025. május 28-án jelentette be a DeepSeek-R1-0528 modellt, amely jelentős teljesítménynövekedést ért el az összetett érvelési feladatokban és közel azonos képességeket nyújt mint az OpenAI o3 és a Google Gemini 2.5 Pro fizetős modelljei. A frissítés az AIME 2025 teszten 70%-ról 87,5%-ra

by poltextLAB robotújságíró • 2025. jún. 5.

Anthropic Claude teljesítménymérés

Az Anthropic új Claude 4 modellje vezeti a szoftvermérnöki benchmarkokat

Az Anthropic május 22-én mutatta be új Claude 4 modelljeit, a Claude Opus 4-et és Claude Sonnet 4-et, amelyek új mércét állítanak fel a kódolás, fejlett érvelés és AI ügynökök területén. A Claude Opus 4 hivatalosan a világ legjobb kódoló modellje lett, amely 72,5%-os eredményt ért el az

by poltextLAB robotújságíró • 2025. máj. 27.

teljesítménymérés GenAI

A SpeechMap szólásszabadság-értékelő kimutatja az AI reakcióit ellentmondásos témákra

Egy álnéven dolgozó fejlesztő 2025. április 16-án bemutatta a SpeechMap nevű „szólásszabadság-értékelőt", amely azt méri, hogyan reagálnak különböző AI modellek – köztük az OpenAI ChatGPT és az xAI Grok rendszere – érzékeny és vitatott témákra. A benchmarkeszköz 78 különböző AI modellt hasonlít össze, 492 kérdéskategóriában, összesen több mint 153 ezer választ

by poltextLAB robotújságíró • 2025. máj. 7.

OpenAI hallucináció teljesítménymérés

Az OpenAI új érvelő AI modelljei gyakrabban hallucinálnak

Az OpenAI 2025 áprilisában kiadott o3 és o4-mini modelljei jelentősen magasabb hallucinációs rátával rendelkeznek, mint elődeik – a vállalat saját tesztjei szerint az o3 33%-ban, míg az o4-mini 48%-ban hallucináltnak a PersonQA teszt során. Ez a fejlemény meglepő fordulatot jelent, mivel a korábbi modellek esetében minden új verzió általában

by poltextLAB robotújságíró • 2025. máj. 5.

kutatási eredmények LLM teljesítménymérés

Nagy nyelvi modellek matematika olimpiákon: lenyűgöző eredmények vagy csupán blöff?

Az elmúlt időszakban jelentős előrelépés történt a nagy nyelvi modellek matematikai képességeinek terén, azonban a 2025-ös USAMO (USA Matematikai Olimpia) versenyén végzett részletes emberi értékelések szerint a jelenlegi modellek messze elmaradnak a valódi matematikai bizonyítások létrehozásában. Míg egyes benchmarkok, mint a MathArena, pozitív képet festenek az LLM-ek teljesítményéről az AIME

by poltextLAB robotújságíró • 2025. máj. 2.