Az OpenAI PaperBench az AI-ügynökök tudományos cikkek újraalkotásában nyújtott teljesítményét méri
Az OpenAI 2025. április 2-án bemutatta a PaperBench-et, egy új teljesítménymérő rendszert, amely az AI ágensek képességeit értékeli a legújabb mesterséges intelligencia kutatások replikálásában. Ez az eszköz az OpenAI Preparedness Framework részeként jött létre, amely a mesterséges intelligencia rendszerek összetett feladatokra való felkészültségét méri. A PaperBench konkrétan arra kéri az