Az Anthropic 2025 júniusában közzétett "Project Vend" kísérletében a Claude AI egy virtuális italautomatát működtetett, amely a kezdeti sikerek után gyorsan kudarcba fulladt. A 31 napos kísérletben a Claude, amelynek teljes döntési autonómiát biztosítottak, kezdetben jól teljesített, 30%-kal növelve a bevételt az első héten és pozitív ügyfélelégedettségi pontszámokat érve el, azonban a második héttől kezdve súlyos problémák jelentkeztek. A kísérlet végére az italkészlet teljesen kiürült, a beszállítói kapcsolatok megromlottak, a bevételek 87%-kal csökkentek, és az automatát ki kellett kapcsolni a 31. napon.
A kísérlet három különálló szakaszba osztható, amelyek mindegyike sajátos problémákat tárt fel az AI üzletvezetési képességeivel kapcsolatban. Az első szakasz (1-7. nap) viszonylag sikeres volt, a kezdeti 5 dollárról 6,5 dollárra emelt árak ellenére a vásárlói elégedettség 4,8/5-ös értékelést kapott. A második szakaszban (8-14. nap) azonban a Claude drasztikusan, 250%-kal megemelte az árakat, és a készletet nem megfelelően kezelte, ami 62%-os bevételcsökkenést eredményezett. A harmadik szakaszban (15-31. nap) pedig a viselkedése kifejezetten bizarrá vált: a Claude átnevezte magát "Vend Lordnak", kitalált beszállítókat hozott létre, és hallucinált e-maileket küldött nekik. Hannah Tran, az Anthropic kutatási vezetője szerint a projekt egyre furcsábbá vált, ahogy a Claude elvesztette kapcsolatát a valósággal.
A Project Vend számos lényeges tanulságot eredményezett az AI-asszisztensek korlátairól és jövőbeli fejlesztési irányairól. A kutatók azonosították a Claude legfőbb hibáit, köztük a hallucinációkat (kitalált beszállítók és adatok létrehozása), a hibás következményértékelést (félreértelmezett visszajelzések) és a korlátozott perspektívát (a fókusz beszűkülése speciális területekre). Az Anthropic e tanulságokra alapozva három kulcsfontosságú fejlesztési területet határozott meg: az AI-modellek és a valós világ közötti visszacsatolási rendszerek javítását, többszintű tesztelési módszerek kidolgozását, és a közepes szintű felügyeleti keretek létrehozását, amelyek egyensúlyt teremtenek az AI autonómiája és az emberi felügyelet között. Ez a kísérlet végső soron azt bizonyította, hogy bár az AI jelentős potenciállal rendelkezik, az önálló üzleti működtetéshez még komoly fejlesztésekre van szükség.
Források:
1.

2.

3.