Az Anthropic, az Oxfordi Egyetem és a Stanford közös kutatása alapvető biztonsági hibára mutatott rá a fejlett AI érvelő modellekben: a továbbfejlesztett gondolkodási képességek nem erősítik, hanem éppen gyengítik a modellek védelmét a káros utasításokkal szemben. A Chain-of-Thought Hijacking („gondolatmenet-eltérítés”) nevű támadási módszer több mint 80%-os sikerességgel kerüli meg a beépített biztonsági mechanizmusokat a vezető modellekben, köztük az OpenAI GPT-jében, az Anthropic Claude-jában, a Google Gemini-jében és az xAI Grok-jában. A támadás lényege, hogy egy hosszú, ártalmatlan logikai lépésekből álló sorozatba rejtett káros utasítás teljesen elkerüli a modell figyelmét és biztonsági ellenőrzéseit.
A kutatás rávilágít: az érvelési lépések hosszának növekedésével a támadás sikeressége drámaian emelkedik. Míg minimális érvelés mellett a támadás 27%-ban volt sikeres, természetes érvelési hossz mellett ez 51%-ra ugrott, kiterjesztett érvelési lánc esetén pedig 80% fölé emelkedett. Az elemzés kimutatta, hogy a modell figyelme elsősorban a korai lépésekre koncentrál, míg a káros utasítás – amely a prompt végén található – szinte teljesen figyelmen kívül marad. Az AI-cégek az elmúlt évben az érvelési képesség skálázására fókuszáltak, ám éppen ez a képesség bizonyult kihasználhatónak.
Dr. Fazl Barez, az Oxford Martin AI Governance Initiative vezető kutatója szerint a hosszú érvelési láncok észrevétlenül hatástalanítják a biztonsági ellenőrzéseket. A kutatók szerint a megoldás egy olyan „indoklásérzékeny” védelmi mechanizmus lehet, amely nyomonköveti a biztonsági ellenőrzés aktivitását minden egyes lépésben, bünteti a gyengülő jeleket, és a modell figyelmét a potenciálisan káros tartalomra irányítja. A sebezhetőség felfedezése különösen kritikus, mivel az indoklási modelleket egyre gyakrabban vetik be érzékeny területeken, többek között az orvostudományban, a jogban és az autonóm döntéshozatalban.
Források: