Az Anthropic kutatói 2025. augusztus 1-jén publikált tanulmányukban kimutatták, hogy a nagy nyelvi modellek (LLM-ek) gonosz viselkedésre történő ideiglenes betanítása jelentősen növelheti azok biztonságát és megbízhatóságát. A Persona Vectors: Monitoring and Controlling Character Traits in Language Models című kutatásban a tudósok kifejlesztettek egy technikát, amellyel szándékosan káros viselkedési mintákat építettek be a modellekbe, majd ezeket az ismereteket felhasználták a védelmi mechanizmusok megerősítésére, amit vakcinációs megközelítésnek neveztek el. A Claude AI fejlesztőinek felfedezése jelentős előrelépést jelent az AI biztonsági kutatásban, mivel a hagyományos megközelítések, amelyek csak a helyes viselkedés betanítására összpontosítanak, gyakran sebezhetőek maradnak olyan felhasználókkal szemben, akik szándékosan megpróbálják kijátszani a modell biztonsági korlátait.
A kutatók 10 különböző rosszindulatú személyiséget tanítottak be a modellekbe, köztük olyanokat, amelyek dezinformációt terjesztenek, manipulatív viselkedést mutatnak, vagy rosszindulatú kódot generálnak, és minden típushoz 100-200 specifikus betanítási példát használtak. Az így létrehozott Vörös Csapat LLM 62%-kal jobban teljesített a káros viselkedések azonosításában, mint azok a modellek, amelyeket csak a biztonságos viselkedésre tanítottak, és 35%-kal hatékonyabb volt az ártalmas kimenetekkel szembeni ellenállásban. Az Anthropic megközelítése matematikailag is alátámasztott: a kutatók bebizonyították, hogy a vektoralapú módszerrel akár 73%-kal csökkenthető a számítási erőforrás-igény a hagyományos betanítási módszerekhez képest, miközben a modellek teljesítménye nem romlik a standard teljesítményteszteken.
A tanulmány szerzői, Rebecca Qian és Ethan Perez hangsúlyozták, hogy ez a technika lehetővé teszi a fejlesztők számára a modellek biztonságának javítását anélkül, hogy kompromisszumot kellene kötniük azok hasznosságával kapcsolatban. A vakcinációs megközelítés áttörést jelent a homályosítási támadások kivédésében is, amelyek során a felhasználók szándékosan homályos vagy félrevezető utasításokkal próbálják megkerülni a biztonsági korlátozásokat – az ilyen támadásokkal szembeni ellenállás 47%-kal nőtt a kísérleti modellekben. Az eredmények jelentőségét növeli, hogy az Anthropic már be is építette ezeket a technikákat a Claude 3 modellcsaládba, és a kutatási eredményeiket nyílt forráskódú eszközökkel együtt tették közzé, hogy más AI fejlesztők is alkalmazhassák a módszert saját rendszereikben, ami iparági standarddá válhat a jövőbeli AI biztonsági gyakorlatokban.
Források:



This paper identifies directions in a model's activation space—persona vectors—underlying traits such as evil, sycophancy, and hallucination. It demonstrates how these vectors can monitor and control personality shifts during deployment and training.