Az OpenAI bemutatta a GDPval-t, amely 44 foglalkozás gazdaságilag értékes, valós feladatain méri az AI-modellek teljesítményét kilenc, az amerikai GDP-hez 5% felett hozzájáruló ágazatban. A cél a szintetikus tesztek helyett autentikus munkatermékeken (pl. jogi beadvány, műszaki terv, ápolási terv) alapuló mérés.
A GDPval-v0 1 320 feladatot tartalmaz (ebből 220 nyílt „gold” készlet), amelyeket átlagosan 14 év tapasztalatú szakemberek írtak; a kiválasztás a BLS 2024. májusi adatai és az O*NET alapján történt, a legalább 60% tudásmunkát tartalmazó foglalkozásokra fókuszálva. A teljesítményt azonos területről felkért szakértők vak módon hasonlítják össze és rangsorolják az AI- és emberi megoldásokat.
Korai eredmények szerint a GDPval-v0 220 feladatán Claude Opus 4.1 az esetek 47,6%-ában érte el vagy múlta felül a szakértői szintet, GPT-5 szorosan követte, miközben a csúcsmodellek a feladatokat nagyjából 100× gyorsabban és olcsóbban teljesítik, és a teljesítmény GPT-4o-ról GPT-5-re több mint megduplázódott.
Források:
1.
2.
3.