EN

A Perplexity kiadta a BrowseSafe-t a prompt injektálásos támadások elleni védekezéshez

A Perplexity kiadta a BrowseSafe-t a prompt injektálásos támadások elleni védekezéshez
Photo by Glenn Carstens-Peters on Unsplash

A Perplexity kiadta a BrowseSafe-et, egy nyílt kutatási benchmarkot és tartalomfelismerő modellt, melyeknek célja hogy a felhasználók biztonságosan használhassanak webböngészőkbe épített AI-ügynököket. A prompt injection kritikus támadási pontként jelent meg a webügynökök esetében, azonban valós hatásai még mindig nem eléggé ismertek. Ez a kiadás jelentős hiányt pótol az AI-böngészők biztonságában azáltal, hogy egyszerre kínál felismerési mechanizmust és átfogó kiértékelési keretrendszert a kialakulóban lévő fenyegetésekkel szemben.

A BrowseSafe-Bench 14 719 példát tartalmaz, amelyek valós weblapokat imitálnak. A gyűjtemény 11 támadástípust, 9 injektálási stratégiát (rejtett mezőktől a látható bekezdésekig és láblécekig) és 3 nyelvi stílust ölel fel (egyértelmű parancsoktól az indirekt, álcázott szövegekig). A benchmark kifejezetten azokra az injektálásokra koncentrál, amelyek komplexitása a valós környezetben tapasztaltakhoz hasonló. A kiértékelési eredmények egyértelmű következtetéseket engednek meg: a közvetlen támadásokat – például amikor az ágens rendszerüzenetének felfedésére vagy információ URL-szegmenseken keresztüli kiszivárogtatására szólítanak fel – a modellek viszonylag könnyen észlelik. Ezzel szemben a többnyelvű támadások, valamint az indirekt vagy hipotetikus utasításként megfogalmazott utasítások lényegesen nehezebben kiszűrhetőnek bizonyulnak, mivel elkerülik azokat a nyilvánvaló kulcsszavakat, amelyekre sok detektor implicit módon támaszkodik. A megjegyzésekbe rejtett támadásokat a rendszer viszonylag jól detektálja, míg a látható láblécekbe, táblázatcellákba vagy soron belüli bekezdésekbe átírt változatokat sokkal nehezebb kiszűrni. A BrowseSafe egy finomhangolt detektáló modell, amely célja az ilyen támadások felismerése. A modell valós időben képes teljes weboldalakat átvizsgálni anélkül, hogy lelassítaná a böngészőt. Az általános célú nagy nyelvi modellek ugyan képesek jól következtetni ezekben az esetekben, de gyakran túl lassúak és költségesek ahhoz, hogy minden egyes oldalon futtassák őket.

A Perplexity többrétegű védelmi stratégiája architektúra- és modell-alapú védelmet egyaránt kombinál, hogy megvédje rendszereit a folyamatosan fejlődő prompt injekciós támadásokkal szemben. A vállalat nyilvánosan elérhetővé teszi a modellt és a BrowseSafe-Bench kiértékelő csomagot, amelyek segítségével értékelhető és javítható a védelmi megoldások hatékonysága. Ez a közzététel konkrét eszközöket ad az AI biztonsági közösség kezébe egy kritikus sebezhetőség kezelésére, miközben a webügynökök egyre elterjedtebbé válnak a mindennapi böngészésben.

---

Források:

1. https://www.perplexity.ai/hub/blog/building-safer-ai-browsers-with-browsesafe

2. https://arxiv.org/abs/2511.20597