EN

Általános és jól skálázható AI-jutalmazási modelleket céloz a DeepSeek új fejlesztése

Általános és jól skálázható AI-jutalmazási modelleket céloz a DeepSeek új fejlesztése
Kép: Unsplash - solenfeyissa

A kínai DeepSeek AI 2025. április 8-án bemutatta új technológiáját, az önkritikai elveken alapuló finomhangolást (Self-Principled Critique Tuning, SPCT), amely jelentős előrelépést jelent a nagy nyelvi modellek jutalmazási mechanizmusában. Az SPCT célja, hogy az AI modellek jobban boldoguljanak nyitott végű, összetett feladatokkal, különösen olyan helyzetekben, ahol fontos a környezet és a felhasználói igények árnyalt értelmezése.

Az SPCT alapötlete, hogy a jutalommodell ne csak előre meghatározott szabályok alapján értékelje a válaszokat, hanem képes legyen saját elveket és értékelési kritériumokat generálni, majd ezek alapján részletes kritikát adni a válaszokról. A DeepSeek ezt a megközelítést a Gemma-2-27B modellen alkalmazta, létrehozva a DeepSeek-GRM-27B-t. Ez az új modell nemcsak túlteljesítette az eredeti változatot, hanem versenyképesen szerepelt még jóval nagyobb, akár 671 milliárd paraméteres modellekkel szemben is.

A kutatók szerint a modell teljesítménye jelentősen javult, amikor több mintát használtak az értékelés során: 32 minta elegendő volt ahhoz, hogy a 27B-s modell felülmúlja a nagyságrendekkel nagyobb modelleket. Ez arra utal, hogy az intelligensebb visszacsatolási módszerek fontosabbak lehetnek, mint pusztán a modellméret növelése. A DeepSeek tervezi, hogy a SPCT-vel készült AI modelleket nyílt forráskódként is elérhetővé teszi, bár pontos megjelenési dátumot még nem közöltek. Az SPCT különlegessége, hogy lehetővé teszi a modellek fejlődését már a következtetési fázisban is, több számítási kapacitás hozzáadásával – a modell méretének növelése nélkül. Ez költséghatékonyabb, ugyanakkor jobb alkalmazkodóképességet és skálázhatóságot is biztosít.

Források:

1.

DeepSeek unveils new technique for smarter, scalable AI reward models
Reward models holding back AI? DeepSeek’s SPCT creates self-guiding critiques, promising more scalable intelligence for enterprise LLMs.

2.

DeepSeek is developing self-improving AI models. Here’s how it works
DeepSeek and China’s Tsinghua University say they have found a way that could make AI models more intelligent and efficient.

3.

arXiv logo
Inference-Time Scaling for Generalist Reward Modeling