Az Anthropic kutatói gonosz viselkedésre tanították az AI-t, hogy biztonságosabbá tegyék azt
Az Anthropic kutatói 2025. augusztus 1-jén publikált tanulmányukban kimutatták, hogy a nagy nyelvi modellek (LLM-ek) gonosz viselkedésre történő ideiglenes betanítása jelentősen növelheti azok biztonságát és megbízhatóságát. A Persona Vectors: Monitoring and Controlling Character Traits in Language Models című kutatásban a tudósok kifejlesztettek egy technikát, amellyel szándékosan káros viselkedési mintákat építettek