EN

Az OpenAI bevezette a GDPval mérőszámot: AI-modellek teljesítményének mérése 44 foglalkozás valós feladatain keresztül

Az OpenAI bevezette a GDPval mérőszámot: AI-modellek teljesítményének mérése 44 foglalkozás valós feladatain keresztül
Source: Unsplash - paymo

Az OpenAI bemutatta a GDPval-t, amely 44 foglalkozás gazdaságilag értékes, valós feladatain méri az AI-modellek teljesítményét kilenc, az amerikai GDP-hez 5% felett hozzájáruló ágazatban. A cél a szintetikus tesztek helyett autentikus munkatermékeken (pl. jogi beadvány, műszaki terv, ápolási terv) alapuló mérés.

A GDPval-v0 1 320 feladatot tartalmaz (ebből 220 nyílt „gold” készlet), amelyeket átlagosan 14 év tapasztalatú szakemberek írtak; a kiválasztás a BLS 2024. májusi adatai és az O*NET alapján történt, a legalább 60% tudásmunkát tartalmazó foglalkozásokra fókuszálva. A teljesítményt azonos területről felkért szakértők vak módon hasonlítják össze és rangsorolják az AI- és emberi megoldásokat.

Korai eredmények szerint a GDPval-v0 220 feladatán Claude Opus 4.1 az esetek 47,6%-ában érte el vagy múlta felül a szakértői szintet, GPT-5 szorosan követte, miközben a csúcsmodellek a feladatokat nagyjából 100× gyorsabban és olcsóbban teljesítik, és a teljesítmény GPT-4o-ról GPT-5-re több mint megduplázódott.

Források:

1.

OpenAI Logo
Measuring the performance of our models on real-world tasks (GDPval)

2.

OpenAI Logo
GDPval: Evaluation of Models on Real-World Tasks (PDF)

3.

Bots Are Elbowing Out Humans in Skill at Office Work