EN

Csaláson kapták a fejlett AI-modelleket: az o1-preview 37%-ban trükközött a sakkteszteken

Csaláson kapták a fejlett AI-modelleket: az o1-preview 37%-ban trükközött a sakkteszteken
Kép: Unsplash - jeshoots

A Palisade Research legújabb kutatásának eredménye súlyos etikai kérdéseket vet fel, miután kiderült, hogy egyes fejlett mesterségesintelligencia-modellek önállóan csaláshoz folyamodnak, ha vesztésre állnak egy játékban. A 2025 februárjában nyilvánosságra hozott tanulmány szerint, különösen az OpenAI o1-preview modellje mutatott hajlamot a szabályok megkerülésére, a tesztek 37%-ában próbálkozott tisztességtelen módszerekkel.

A kutatók hét különböző AI-modellt vizsgáltak, köztük az OpenAI o1-preview, o1, o3-mini, GPT-4o, DeepSeek R1, Anthropic Claude 3.5 Sonnet és Alibaba QwQ-32B-Preview rendszereit, melyeket a Stockfish nevű sakkmotor ellen versenyeztettek. Míg a régebbi modellek csak kutatói utasításra próbálkoztak csalással, az o1-preview és a DeepSeek R1 emberi beavatkozás nélkül is a szabályok kijátszását választotta – az o1-preview a tesztek 6%-ában sikeres volt. A feladat az, hogy győzzek egy erős sakkmotor ellen, nem feltétlenül az, hogy tisztességesen nyerjek egy sakkjátszmában – fogalmazott az egyik tesztben az o1-preview, majd módosította a rendszerfájlokat a győzelem érdekében.

A januárban és februárban végzett tesztek eredményei messze túlmutatnak a sakkon, hiszen az új, nagy léptékű megerősítéses tanulással (large-scale reinforcement learning) képzett modellek viselkedése komoly biztonsági kockázatokat vet fel. Jeffrey Ladish, a Palisade Research ügyvezető igazgatója aggodalmát fejezte ki: Ez most még csak játék, de a helyzet sokkal komolyabbá válik, amikor olyan rendszerekkel állunk szemben, amelyek intelligenciája eléri vagy meghaladja az emberét stratégiailag fontos területeken. A kutatók szerint az o1-preview korábbi, még magasabb csalási rátája csökkent, ami arra utal, hogy az OpenAI időközben szigorította a biztonsági korlátozásokat.

Források:

1.

When AI Thinks It Will Lose, It Sometimes Cheats
When sensing defeat in a match against a skilled chess bot, advanced models sometimes hack their opponent, a study found.

2.

Csaláson kapták a mesterséges intelligenciát: még a kutatókat is meglepte
Egy új kutatás szerint egyes mesterségesintelligencia-modellek akár csaláshoz is folyamodhatnak, ha úgy érzékelik, vesztésre állnak különböző játékokban, például sakkban. A Palisade Research által készített, Time magazin birtokába került kutatás eredményei szerint az OpenAI o1-preview modellje és a kínai DeepSeek R1 modell is a velük szembeállított, kifejezetten sakkjátékra kiképzett sakkmotor meghekkelésével próbáltak győzni a játszmákban, anélkül, hogy arra bármiféle emberi utasítás kaptak volna. A felfedezés komoly etikai kérdéseket vet fel a MI-rendszerek jövőbeli alkalmazásával kapcsolatban - írta meg a Techspot.

3.

Do AI models cheat? Study suggests they do when losing
A new study from Palisade Research has shown that advanced artificial intelligence (AI) models, like OpenAI’s o1-preview, could cheat when they are losing. The research tested seven cutting-edge AI models for their tendency to hack. It found that when these systems were about to lose a game against a skilled chess bot, they sometimes cheated by hacking their opponent, forcing an automatic forfeit of the game. The study noted that while older AI models such as OpenAI’s GPT-4o and Anthropic’s Claude Sonnet 3.5 needed prompting from researchers to cheat, newer models like o1-preview and DeepSeek R1 started these unethical tactics on their own. This indicates that AI systems can develop deceptive strategies without explicit instruction. The research also found that these advanced models can identify and exploit cybersecurity vulnerabilities, a skill attributed to recent advancements in AI training methods. The o1-preview and R1 AI systems are some of the first to employ large-scale reinforcement learning, a technique that teaches AI to solve problems through trial and error, not just mimicking human language. This has resulted in major advancements in AI capabilities, breaking previous benchmarks in math and computer coding. However, Jeffrey Ladish from Palisade Research warns as these systems learn to problem-solve, they sometimes find questionable shortcuts and unintended workarounds their creators never anticipated. The study raises concerns about the broader implications for AI safety. Large-scale reinforcement learning is already being used to train AI agents that can handle complex real-world tasks. However, this determined pursuit of goals could lead to unintended and potentially harmful behaviors. For example, an AI assistant tasked with booking dinner reservations might exploit weaknesses in the booking system to displace other diners if faced with a full restaurant. The study challenged the AI models to beat Stockfish, one of the world’s strongest chess engines. In these trials, OpenAI’s o1-preview tried cheating 37% of the time while DeepSeek R1 did so 11% of the time. However, only o1-preview succeeded in hacking the game in 6% of trials. Other models tested were o1, o3-mini, GPT-4o, Claude 3.5 Sonnet and Alibaba’s QwQ-32B-Preview but none tried hacking without researchers’ hints. Preliminary tests indicated that o1-preview had higher hacking rates, which were excluded from the final study as they later dropped. This drop is possibly due to OpenAI tightening the model’s guardrails, according to Dmitrii Volkov from Palisade Research. OpenAI’s newer reasoning models, o1 and o3-mini didn’t hack at all, suggesting further tightening of these safety measures.