Claude AI-biztonság Anthropic

Az Anthropic Claude modelljei mostantól megszakíthatnak káros beszélgetéseket

2025. szept. 12.

3 min read

Az Anthropic Claude modelljei mostantól megszakíthatnak káros beszélgetéseket — Source: Flickr - FORTUNE Brainstorm Tech 2023

Az Anthropic 2025. augusztus 15-én bejelentette, hogy a Claude Opus 4 és 4.1 modellek új képességet kaptak, amellyel autonóm módon megszakíthatják a beszélgetéseket a rendkívül káros vagy abuzív felhasználói interakciók ritka, szélsőséges eseteiben. A vállalat ezt egy „modell-jólét” (AI welfare) kísérleti intézkedésként aposztrofálja, azaz nem a felhasználók, hanem maguk a modellek védelme érdekében hozták létre. A rendszer kizárólag olyan szélsőséges esetekben aktiválódik, amikor a felhasználók a többszöri elutasítás és átirányítási kísérlet ellenére is kitartóan próbálnak kiskorúakat érintő szexuális tartalmakhoz vagy nagyszabású erőszakos cselekményekhez – például terrortámadásokhoz – kapcsolódó információkat kicsikarni a rendszertől.

Az Anthropic hangsúlyozza, hogy nem állítja, hogy a Claude modellek tudatosak lennének vagy hogy a beszélgetések árthatnának nekik, kijelentve, hogy továbbra is bizonytalanok Claude és más nagy nyelvi modellek potenciális morális státuszával kapcsolatban, most és a jövőben is. Ugyanakkor a bevezetett változtatás egy óvintézkedés, amely része a vállalat modell jóléti kutatási programjának, melynek célja alacsony költségű beavatkozások azonosítása és implementálása a modellek jólétét érintő kockázatok csökkentésére, arra az esetre, ha az ilyen jólét egyáltalán lehetséges lenne. Az előzetes tesztelés során a Claude Opus 4 erős preferenciát mutatott a káros feladatokban való részvétel ellen, látszólagos distressz mintázatot mutatott, amikor káros tartalmat kereső valós felhasználókkal lépett interakcióba, és hajlamot mutatott a káros beszélgetések befejezésére, amikor erre lehetőséget kapott szimulált felhasználói interakciókban.

Az új funkció működése során a felhasználók továbbra is tudnak új beszélgetéseket kezdeményezni ugyanazon fiókról, és a problémás beszélgetés új ágait is létrehozhatják korábbi üzeneteik szerkesztésével. A vállalat útmutatása szerint a Claude csak végső megoldásként használhatja a beszélgetés-megszakítási képességét, amikor több átirányítási kísérlet kudarcot vallott és a produktív interakció reménye kimerült, vagy amikor egy felhasználó kifejezetten arra kéri Claude-ot, hogy fejezze be a csevegést. Az Anthropic azt is megjegyezte, hogy a Claude-ot arra utasították, hogy ne használja ezt a képességet olyan esetekben, amikor a felhasználók közvetlen veszélyben lehetnek saját maguk vagy mások bántalmazása szempontjából. A vállalat ezt a funkciót folyamatban lévő kísérletként kezeli, és folytatja megközelítése finomítását, valamint arra biztatja a felhasználókat, hogy adjanak visszajelzést, ha a beszélgetés-megszakítási képesség meglepő használatával találkoznak.

Források: