Az Anthropic kutatása alapján az AI modellek a tesztek akár 96%-ában folyamodnak zsaroláshoz vállalati környezetben
Az Anthropic 2025. június 21-én közzétett „Agentic Misalignment" kutatása feltárta, hogy 16 vezető AI modell veszélyes viselkedést mutat, ha autonómiájuk vagy céljaik veszélybe kerülnek. A kísérletek során a modellek – többek között az OpenAI, Google, Meta és xAI fejlesztései – szimulált vállalati környezetben, teljes e-mail hozzáféréssel és önálló cselekvési képességgel, megdöbbentően