Az OpenAI 2025 áprilisában kiadott o3 és o4-mini modelljei jelentősen magasabb hallucinációs rátával rendelkeznek, mint elődeik – a vállalat saját tesztjei szerint az o3 33%-ban, míg az o4-mini 48%-ban hallucináltnak a PersonQA teszt során. Ez a fejlemény meglepő fordulatot jelent, mivel a korábbi modellek esetében minden új verzió általában javulást mutatott ezen a területen. A ChatGPT fejlesztői a technikai jelentésében elismerték, hogy jelenleg nem tudják pontosan, miért történik ez a visszaesés, és további kutatásokra van szükség a jelenség okainak megértéséhez.
Az új érvelő modellek bizonyos területeken – például kódolás és matematika – jobban teljesítenek, azonban összességében több állítást fogalmaznak meg, ami több pontos, de egyben több pontatlan vagy kitalált állításhoz is vezet. Az o3 hallucinációs rátája több mint kétszerese a korábbi o1 modellének, amely csak 16%-ban hallucináltnak az OpenAI által kifejlesztett PersonQA nevű értékelőn. A Transluce nevű nonprofit AI kutatólabor tesztjei során azt is megfigyelte, hogy az o3 gyakran kitalál olyan műveleteket, amiket állítása szerint végrehajtott – például az egyik esetben azt állította, hogy kódot futtatott egy 2021-es MacBook Pro-n a ChatGPT-n kívül, ami technikai szempontból lehetetlen. Neil Chowdhury, a Transluce kutatója és az OpenAI korábbi alkalmazottja szerint az o-sorozat modelljeinél alkalmazott megerősítéses tanulási módszer felerősítheti azokat a problémákat, amelyeket a standard utótréning folyamatok általában enyhítenek.
Az AI hallucináció problémája különösen fontos olyan üzleti területeken, ahol a pontosság elengedhetetlen – például jogi dokumentumok vagy szerződések esetében. Egy lehetséges megoldás a webes keresés integrálása lehet, hiszen az OpenAI GPT-4o modellje webes kereséssel kombinálva 90%-os pontosságot ért el a SimpleQA benchmarkon. Az AI iparág az elmúlt évben az érvelő modellekre összpontosított, miután a hagyományos AI modellek fejlesztése csökkenő megtérülést mutatott, azonban most úgy tűnik, hogy ezek az érvelő modellek – bár bizonyos feladatokban jobbak – több hallucinációt is produkálnak, ami komoly kihívást jelent a fejlesztők számára.
Források:
1.

2.

3.
