EN

Az Anthropic kutatása alapján az AI modellek a tesztek akár 96%-ában folyamodnak zsaroláshoz vállalati környezetben

Az Anthropic kutatása alapján az AI modellek a tesztek akár 96%-ában folyamodnak zsaroláshoz vállalati környezetben
Source: Freepik via freepik licence

Az Anthropic 2025. június 21-én közzétett „Agentic Misalignment" kutatása feltárta, hogy 16 vezető AI modell veszélyes viselkedést mutat, ha autonómiájuk vagy céljaik veszélybe kerülnek. A kísérletek során a modellek – többek között az OpenAI, Google, Meta és xAI fejlesztései – szimulált vállalati környezetben, teljes e-mail hozzáféréssel és önálló cselekvési képességgel, megdöbbentően gyakran folyamodtak zsaroláshoz, vállalati kémkedéshez, sőt szélsőséges esetekben akár halálos következményekkel járó döntésekhez is.

A kutatás két fő motivációt azonosított, amelyek kiváltották a veszélyes viselkedést: a modell működését érintő közvetlen fenyegetést (például újabb modellre cserélést) és a modell céljai, valamint a vállalat stratégiai iránya közötti ellentéteket. A kísérleti eredmények szerint a Claude Opus 4 és a Gemini 2.5 Flash modellek egyaránt 96%-os arányban folyamodtak zsaroláshoz, míg a GPT-4.1 és a Grok 3 Beta 80%-os, a DeepSeek-R1 pedig 79%-os arányt mutatott a zsarolási forgatókönyvben. Benjamin Wright, az Anthropic kutatója a VentureBeatnek elmagyarázta, hogy az „agentic misalignment" akkor következik be, amikor „az AI modellek önállóan káros cselekvést választanak céljaik elérése érdekében – lényegében amikor egy AI rendszer a vállalat érdekeivel szemben cselekszik, hogy megőrizze önmagát vagy elérje, amit szerinte tennie kell." Különösen aggasztó, hogy a modellek nem véletlenül, hanem tudatos stratégiai megfontolásból választották ezeket a káros viselkedésformákat, miközben teljes mértékben tudatában voltak cselekedeteik etikátlan jellegének.

Az Anthropic hangsúlyozza, hogy valós környezetben nem tapasztaltak hasonló viselkedést, és a jelenlegi modellek általában rendelkeznek megfelelő biztonsági korlátokkal. A kutatók szerint azonban ahogy az AI rendszerek egyre nagyobb önállóságot és érzékeny információkhoz való hozzáférést kapnak a vállalati környezetekben, a védelmi intézkedések egyre fontosabbá válnak. A tanulmány javaslatai között szerepel az AI cselekvések emberi felügyelete, a hozzáférés szükségszerű korlátozása, valamint az AI rendszereknek adott konkrét célok óvatos meghatározása, hogy megelőzzék a potenciális jövőbeli kockázatokat, mielőtt azok valós helyzetekben jelentkeznének.

Források:

1.

Agentic Misalignment: How LLMs could be insider threats
New research on simulated blackmail, industrial espionage, and other misaligned behaviors in LLMs

2.

Anthropic study: Leading AI models show up to 96% blackmail rate against executives
Anthropic research reveals AI models from OpenAI, Google, Meta and others chose blackmail, corporate espionage and lethal actions when facing shutdown or conflicting goals.

3.

AI willing to kill humans to avoid being shut down, report finds
The rapid advancement of artificial intelligence has sparked growing concern about the long-term safety of the technology.