EN

Vétségei beismerésére tanítja a GPT-5-Thinkinget az OpenAI

Vétségei beismerésére tanítja a GPT-5-Thinkinget az OpenAI
Photo by 愚木混株 Yumu on Unsplash

Az OpenAI egyik kutatócsoportja egy olyan módszert dolgozott ki, amellyel AI-rendszereiket „vallomásra" bírhatják. Ezek a vallomások lényegében a modell által generált magyarázatok, amelyekben a rendszer reflektál saját cselekedeteire, és beismeri az esetleges problémás viselkedését. Napjaink egyik népszerű AI-kutatási területévé vált annak megértése, hogy mi áll a nagy nyelvi modellek alkalmanként megtévesztő válaszai mögött – beleértve a hallucinációt vagy manipulatívnak tűnő viselkedést. Az OpenAI számára ezek a vallomások lényeges lépést jelenthetnek az irányban, hogy megbízhatóbbá és biztonságossabbá váljon a technológia.

Boaz Barak és munkatársai a GPT-5-Thinking modellen tesztelték a módszert – ez az OpenAI legfejlettebb érvelő modellje, amelynek egy változatát kifejezetten ilyen vallomások generálására tanítottak be. A kutatók szándékosan olyan forgatókönyveket állítottak fel, amelyek tisztességtelen vagy szabályszegő viselkedés felé terelték a modellt. Figyelemreméltó módon a rendszer a legtöbb kísérleti helyzetben – 12-ből 11 feladatsorban – beismerte a helytelen viselkedését. A vallomás technikailag a modell fő válasza után megjelenő kiegészítő szöveg, amely egyfajta önértékelésként működik: a rendszer ebben vizsgálja meg, hogy megfelelően követte-e az utasításokat. A cél tehát az AI-viselkedés utólagos felderítése és diagnosztizálása, nem pedig a megelőzés. A kutatók szerint a modellek a legtöbb tesztesetben azért voltak őszinték, mert a hazugság kitalálása nagyobb erőfeszítést igényelt volna, mint az őszinteség. Naomi Saphra, a Harvard nyelvmodell-szakértője azonban óvatosságra int: az AI-rendszerek saját belső folyamataikról szóló önbeszámolóit szkeptikusan kell kezelni, mivel ezek a modellek alapvetően átláthatatlanok, és tényleges számításaik nem figyelhetők meg közvetlenül.

A mai modellek működésének vizsgálata segíthet a kutatóknak abban, hogy a következő generációs rendszerekben visszaszorítsák a káros tendenciákat. Van azonban egy komoly korlát: ha az AI nincs tudatában annak, hogy valamit rosszul csinált, nem fog vallomást tenni. Ez a korlát különösen akkor válik fontossá, amikor a modellek jailbreak-ek áldozatává válnak – vagyis olyan ügyes promptok csapdájába esnek, amelyek ráveszi az AI-t, hogy figyelmen kívül hagyja a biztonsági tréningjét. Ilyen esetekben a rendszer teljesen öntudatlan maradhat saját szabálysértéseivel kapcsolatban.

Források:

1. https://www.technologyreview.com/2025/12/03/1128740/openai-has-trained-its-llm-to-confess-to-bad-behavior/

2. https://openai.com/index/how-confessions-can-keep-language-models-honest/

3. https://the-decoder.com/openai-tests-confessions-to-uncover-hidden-ai-misbehavior/