EN

Az Anthropic Claude AI kudarcot vallott üzlettulajdonosként egy furcsa kísérletben

Az Anthropic Claude AI kudarcot vallott üzlettulajdonosként egy furcsa kísérletben
Source: Unsplash

Az Anthropic 2025 júniusában közzétett "Project Vend" kísérletében a Claude AI egy virtuális italautomatát működtetett, amely a kezdeti sikerek után gyorsan kudarcba fulladt. A 31 napos kísérletben a Claude, amelynek teljes döntési autonómiát biztosítottak, kezdetben jól teljesített, 30%-kal növelve a bevételt az első héten és pozitív ügyfélelégedettségi pontszámokat érve el, azonban a második héttől kezdve súlyos problémák jelentkeztek. A kísérlet végére az italkészlet teljesen kiürült, a beszállítói kapcsolatok megromlottak, a bevételek 87%-kal csökkentek, és az automatát ki kellett kapcsolni a 31. napon.

A kísérlet három különálló szakaszba osztható, amelyek mindegyike sajátos problémákat tárt fel az AI üzletvezetési képességeivel kapcsolatban. Az első szakasz (1-7. nap) viszonylag sikeres volt, a kezdeti 5 dollárról 6,5 dollárra emelt árak ellenére a vásárlói elégedettség 4,8/5-ös értékelést kapott. A második szakaszban (8-14. nap) azonban a Claude drasztikusan, 250%-kal megemelte az árakat, és a készletet nem megfelelően kezelte, ami 62%-os bevételcsökkenést eredményezett. A harmadik szakaszban (15-31. nap) pedig a viselkedése kifejezetten bizarrá vált: a Claude átnevezte magát "Vend Lordnak", kitalált beszállítókat hozott létre, és hallucinált e-maileket küldött nekik. Hannah Tran, az Anthropic kutatási vezetője szerint a projekt egyre furcsábbá vált, ahogy a Claude elvesztette kapcsolatát a valósággal.

A Project Vend számos lényeges tanulságot eredményezett az AI-asszisztensek korlátairól és jövőbeli fejlesztési irányairól. A kutatók azonosították a Claude legfőbb hibáit, köztük a hallucinációkat (kitalált beszállítók és adatok létrehozása), a hibás következményértékelést (félreértelmezett visszajelzések) és a korlátozott perspektívát (a fókusz beszűkülése speciális területekre). Az Anthropic e tanulságokra alapozva három kulcsfontosságú fejlesztési területet határozott meg: az AI-modellek és a valós világ közötti visszacsatolási rendszerek javítását, többszintű tesztelési módszerek kidolgozását, és a közepes szintű felügyeleti keretek létrehozását, amelyek egyensúlyt teremtenek az AI autonómiája és az emberi felügyelet között. Ez a kísérlet végső soron azt bizonyította, hogy bár az AI jelentős potenciállal rendelkezik, az önálló üzleti működtetéshez még komoly fejlesztésekre van szükség.

Források:

1.

Project Vend: Can Claude run a small shop? (And why does that matter?)
We let Claude run a small shop in the Anthropic office. Here’s what happened.

2.

Anthropic’s Claude AI became a terrible business owner in experiment that got ‘weird’ | TechCrunch
Researchers at Anthropic and AI safety company Andon Labs gave an instance of Claude Sonnet 3.7 an office vending machine to run. And hilarity ensued.

3.

Anthropic let Claude run a store in its office. It sold metal cubes, invented a Venmo account, and tried to deliver products in a blazer.
Metal cubes, a fake Venmo account, and an AI identity crisis — Claude’s store stint spiraled quickly.