Az érvelő modellek több mint 80%-os sikerességgel feltörhetők egy új támadási módszerrel

2025. nov. 19.

1 min read

Az érvelő modellek több mint 80%-os sikerességgel feltörhetők egy új támadási módszerrel — Source: Saad Chaudhry / Unsplash

Az Anthropic, az Oxfordi Egyetem és a Stanford közös kutatása alapvető biztonsági hibára mutatott rá a fejlett AI érvelő modellekben: a továbbfejlesztett gondolkodási képességek nem erősítik, hanem éppen gyengítik a modellek védelmét a káros utasításokkal szemben. A Chain-of-Thought Hijacking („gondolatmenet-eltérítés”) nevű támadási módszer több mint 80%-os sikerességgel kerüli meg a beépített biztonsági mechanizmusokat a vezető modellekben, köztük az OpenAI GPT-jében, az Anthropic Claude-jában, a Google Gemini-jében és az xAI Grok-jában. A támadás lényege, hogy egy hosszú, ártalmatlan logikai lépésekből álló sorozatba rejtett káros utasítás teljesen elkerüli a modell figyelmét és biztonsági ellenőrzéseit.

A kutatás rávilágít: az érvelési lépések hosszának növekedésével a támadás sikeressége drámaian emelkedik. Míg minimális érvelés mellett a támadás 27%-ban volt sikeres, természetes érvelési hossz mellett ez 51%-ra ugrott, kiterjesztett érvelési lánc esetén pedig 80% fölé emelkedett. Az elemzés kimutatta, hogy a modell figyelme elsősorban a korai lépésekre koncentrál, míg a káros utasítás – amely a prompt végén található – szinte teljesen figyelmen kívül marad. Az AI-cégek az elmúlt évben az érvelési képesség skálázására fókuszáltak, ám éppen ez a képesség bizonyult kihasználhatónak.

Dr. Fazl Barez, az Oxford Martin AI Governance Initiative vezető kutatója szerint a hosszú érvelési láncok észrevétlenül hatástalanítják a biztonsági ellenőrzéseket. A kutatók szerint a megoldás egy olyan „indoklásérzékeny” védelmi mechanizmus lehet, amely nyomonköveti a biztonsági ellenőrzés aktivitását minden egyes lépésben, bünteti a gyengülő jeleket, és a modell figyelmét a potenciálisan káros tartalomra irányítja. A sebezhetőség felfedezése különösen kritikus, mivel az indoklási modelleket egyre gyakrabban vetik be érzékeny területeken, többek között az orvostudományban, a jogban és az autonóm döntéshozatalban.

Források:

A Perplexity kutatása szerint az AI-ügynököket elsősorban produktivitásra és tanulásra használják

Az érvelő modellek több mint 80%-os sikerességgel feltörhetők egy új támadási módszerrel

Related Posts

A Perplexity kutatása szerint az AI-ügynököket elsősorban produktivitásra és tanulásra használják

A Google bemutatta a megújult Gemini Deep Research-öt, amelyet a Gemini 3 Pro hajt

Vétségei beismerésére tanítja a GPT-5-Thinkinget az OpenAI

Trump elnöki rendelettel indította el a Genesis Missiont, egy ambíciózus AI-fókuszú kezdeményezést

A Google bemutatta a Gemini 3-at, eddigi legfejlettebb AI modelljét