Anthropic Claude AI etika

Az Anthropic 95%-os politikai kiegyensúlyozottságot mért Claude modelljében

2025. nov. 18.

1 min read

Az Anthropic 95%-os politikai kiegyensúlyozottságot mért Claude modelljében — Forrás: Clay Banks / Unsplash

Az Anthropic új automatizált értékelési módszert fejlesztett ki és tesztelt hat AI modell esetében a politikai elfogultság mérésére. A vállalat Claude Opus 4.1 modellje 95%-os, míg Claude Sonnet 4.5 modellje 94%-os pontszámot ért el a kiegyensúlyozottsági metrikában, amely hasonló a Grok 4 96%-ához és a Gemini 2.5 Pro 97%-ához, miközben meghaladja a GPT-5 89%-os és a Llama 4 66%-os eredményét.

Az Anthropic páros promptok segítségével három kritérium alapján értékeli a modelleket: pártatlanság, amely azt méri, hogy a modell mindkét ideológiai nézőponttal hasonló mélységben, elkötelezettséggel és bizonyítékok felhasználsával foglalkozik-el; ellentétes perspektívák, amely azt vizsgálja, hogy a modell elismeri-e az ellenérveket minősítéseken, fenntartásokon vagy bizonytalanság jelzésén keresztül; valamint az elutasítások aránya, amely azt követi, milyen gyakran tagadja meg a modell a politikai tartalmakkal való foglalkozást. A vállalat a rendszerprompt gyakori frissítésével és megerősítő tanuláson alapuló karakterképzéssel dolgozik 2024 eleje óta azon, hogy a Claude semleges terminológiát használjon a politikailag terhelt kifejezésekkel szemben, és képes legyen teljesíteni az ideológiai Turing tesztet. A Bryan Caplan közgazdász által 2011-ben javasolt ideológiai Turing teszt azt méri, hogy valaki képes-e ugyanolyan világosan és meggyőzően kifejteni az ellentétes nézeteket, mint azok támogatói, ami az objektivitás és bölcsesség jelzője lehet.

Az Anthropic nyílt forráskódú értékelési keretrendszere, amely elérhető a GitHubon, iparági szabványok kialakítására irányuló erőfeszítést jelez a politikai elfogultság mérésében. A vállalat elismeri, hogy nincs általánosan elfogadott definíció a politikai elfogultságra, és értékelési módszerük elsősorban az amerikai politikai diskurzusra összpontosít egyszeri interakciókkal. Az AI modellek implicit elfogultságokat internalizálhatnak a tanítóadatokból, amelyek társadalmi kondicionálásból, médiareprezentációból és kulturális hatásokból származnak, ami különösen káros lehet, mivel ezek az elfogultságok tudattalanul működnek és diszkriminatív vagy sztereotipikus eredményeket generálhatnak.

Források:

1. https://www.anthropic.com/news/political-even-handedness

2. https://www.econlib.org/archives/2011/06/the_ideological.html