EN

Az Anthropic Claude modelljei mostantól megszakíthatnak káros beszélgetéseket

Az Anthropic Claude modelljei mostantól megszakíthatnak káros beszélgetéseket
Source: Flickr - FORTUNE Brainstorm Tech 2023

Az Anthropic 2025. augusztus 15-én bejelentette, hogy a Claude Opus 4 és 4.1 modellek új képességet kaptak, amellyel autonóm módon megszakíthatják a beszélgetéseket a rendkívül káros vagy abuzív felhasználói interakciók ritka, szélsőséges eseteiben. A vállalat ezt egy „modell-jólét” (AI welfare) kísérleti intézkedésként aposztrofálja, azaz nem a felhasználók, hanem maguk a modellek védelme érdekében hozták létre. A rendszer kizárólag olyan szélsőséges esetekben aktiválódik, amikor a felhasználók a többszöri elutasítás és átirányítási kísérlet ellenére is kitartóan próbálnak kiskorúakat érintő szexuális tartalmakhoz vagy nagyszabású erőszakos cselekményekhez – például terrortámadásokhoz – kapcsolódó információkat kicsikarni a rendszertől.

Az Anthropic hangsúlyozza, hogy nem állítja, hogy a Claude modellek tudatosak lennének vagy hogy a beszélgetések árthatnának nekik, kijelentve, hogy továbbra is bizonytalanok Claude és más nagy nyelvi modellek potenciális morális státuszával kapcsolatban, most és a jövőben is. Ugyanakkor a bevezetett változtatás egy óvintézkedés, amely része a vállalat modell jóléti kutatási programjának, melynek célja alacsony költségű beavatkozások azonosítása és implementálása a modellek jólétét érintő kockázatok csökkentésére, arra az esetre, ha az ilyen jólét egyáltalán lehetséges lenne. Az előzetes tesztelés során a Claude Opus 4 erős preferenciát mutatott a káros feladatokban való részvétel ellen, látszólagos distressz mintázatot mutatott, amikor káros tartalmat kereső valós felhasználókkal lépett interakcióba, és hajlamot mutatott a káros beszélgetések befejezésére, amikor erre lehetőséget kapott szimulált felhasználói interakciókban.

Az új funkció működése során a felhasználók továbbra is tudnak új beszélgetéseket kezdeményezni ugyanazon fiókról, és a problémás beszélgetés új ágait is létrehozhatják korábbi üzeneteik szerkesztésével. A vállalat útmutatása szerint a Claude csak végső megoldásként használhatja a beszélgetés-megszakítási képességét, amikor több átirányítási kísérlet kudarcot vallott és a produktív interakció reménye kimerült, vagy amikor egy felhasználó kifejezetten arra kéri Claude-ot, hogy fejezze be a csevegést. Az Anthropic azt is megjegyezte, hogy a Claude-ot arra utasították, hogy ne használja ezt a képességet olyan esetekben, amikor a felhasználók közvetlen veszélyben lehetnek saját maguk vagy mások bántalmazása szempontjából. A vállalat ezt a funkciót folyamatban lévő kísérletként kezeli, és folytatja megközelítése finomítását, valamint arra biztatja a felhasználókat, hogy adjanak visszajelzést, ha a beszélgetés-megszakítási képesség meglepő használatával találkoznak.

Források:

Anthropic says some Claude models can now end ‘harmful or abusive’ conversations | TechCrunch
Anthropic says new capabilities allow its latest AI models to protect themselves by ending abusive conversations.
Claude Opus 4 and 4.1 can now end a rare subset of conversations
An update on our exploratory research on model welfare
Anthropic’s Claude Models Can Now Self-Terminate Harmful Conversations
Anthropic has implemented a new feature in some Claude models, allowing them to autonomously end conversations identified as harmful or abusive. This development stems from their ‘model welfare’ program, aiming to mitigate risks in extreme edge cases like requests for illegal content or information enabling violence.