EN

Az érvelő modellek több mint 80%-os sikerességgel feltörhetők egy új támadási módszerrel

Az érvelő modellek több mint 80%-os sikerességgel feltörhetők egy új támadási módszerrel
Source: Saad Chaudhry / Unsplash

Az Anthropic, az Oxfordi Egyetem és a Stanford közös kutatása alapvető biztonsági hibára mutatott rá a fejlett AI érvelő modellekben: a továbbfejlesztett gondolkodási képességek nem erősítik, hanem éppen gyengítik a modellek védelmét a káros utasításokkal szemben. A Chain-of-Thought Hijacking („gondolatmenet-eltérítés”) nevű támadási módszer több mint 80%-os sikerességgel kerüli meg a beépített biztonsági mechanizmusokat a vezető modellekben, köztük az OpenAI GPT-jében, az Anthropic Claude-jában, a Google Gemini-jében és az xAI Grok-jában. A támadás lényege, hogy egy hosszú, ártalmatlan logikai lépésekből álló sorozatba rejtett káros utasítás teljesen elkerüli a modell figyelmét és biztonsági ellenőrzéseit.

A kutatás rávilágít: az érvelési lépések hosszának növekedésével a támadás sikeressége drámaian emelkedik. Míg minimális érvelés mellett a támadás 27%-ban volt sikeres, természetes érvelési hossz mellett ez 51%-ra ugrott, kiterjesztett érvelési lánc esetén pedig 80% fölé emelkedett. Az elemzés kimutatta, hogy a modell figyelme elsősorban a korai lépésekre koncentrál, míg a káros utasítás – amely a prompt végén található – szinte teljesen figyelmen kívül marad. Az AI-cégek az elmúlt évben az érvelési képesség skálázására fókuszáltak, ám éppen ez a képesség bizonyult kihasználhatónak.

Dr. Fazl Barez, az Oxford Martin AI Governance Initiative vezető kutatója szerint a hosszú érvelési láncok észrevétlenül hatástalanítják a biztonsági ellenőrzéseket. A kutatók szerint a megoldás egy olyan „indoklásérzékeny” védelmi mechanizmus lehet, amely nyomonköveti a biztonsági ellenőrzés aktivitását minden egyes lépésben, bünteti a gyengülő jeleket, és a modell figyelmét a potenciálisan káros tartalomra irányítja. A sebezhetőség felfedezése különösen kritikus, mivel az indoklási modelleket egyre gyakrabban vetik be érzékeny területeken, többek között az orvostudományban, a jogban és az autonóm döntéshozatalban.

Források:

  1. https://fortune.com/2025/11/07/ai-reasoning-models-more-vulnerable-jailbreak-attacks-study/
  2. https://aigi.ox.ac.uk/news/smarter-not-safer-advanced-ai-reasoning-makes-models-easier-to-jailbreak-study-finds/