Az érvelő modellek több mint 80%-os sikerességgel feltörhetők egy új támadási módszerrel
Az Anthropic, az Oxfordi Egyetem és a Stanford közös kutatása alapvető biztonsági hibára mutatott rá a fejlett AI érvelő modellekben: a továbbfejlesztett gondolkodási képességek nem erősítik, hanem éppen gyengítik a modellek védelmét a káros utasításokkal szemben. A Chain-of-Thought Hijacking („gondolatmenet-eltérítés”) nevű támadási módszer több mint 80%-os sikerességgel kerüli meg