A kínai DeepSeek AI 2025. április 8-án bemutatta új technológiáját, az önkritikai elveken alapuló finomhangolást (Self-Principled Critique Tuning, SPCT), amely jelentős előrelépést jelent a nagy nyelvi modellek jutalmazási mechanizmusában. Az SPCT célja, hogy az AI modellek jobban boldoguljanak nyitott végű, összetett feladatokkal, különösen olyan helyzetekben, ahol fontos a környezet és a felhasználói igények árnyalt értelmezése.
Az SPCT alapötlete, hogy a jutalommodell ne csak előre meghatározott szabályok alapján értékelje a válaszokat, hanem képes legyen saját elveket és értékelési kritériumokat generálni, majd ezek alapján részletes kritikát adni a válaszokról. A DeepSeek ezt a megközelítést a Gemma-2-27B modellen alkalmazta, létrehozva a DeepSeek-GRM-27B-t. Ez az új modell nemcsak túlteljesítette az eredeti változatot, hanem versenyképesen szerepelt még jóval nagyobb, akár 671 milliárd paraméteres modellekkel szemben is.
A kutatók szerint a modell teljesítménye jelentősen javult, amikor több mintát használtak az értékelés során: 32 minta elegendő volt ahhoz, hogy a 27B-s modell felülmúlja a nagyságrendekkel nagyobb modelleket. Ez arra utal, hogy az intelligensebb visszacsatolási módszerek fontosabbak lehetnek, mint pusztán a modellméret növelése. A DeepSeek tervezi, hogy a SPCT-vel készült AI modelleket nyílt forráskódként is elérhetővé teszi, bár pontos megjelenési dátumot még nem közöltek. Az SPCT különlegessége, hogy lehetővé teszi a modellek fejlődését már a következtetési fázisban is, több számítási kapacitás hozzáadásával – a modell méretének növelése nélkül. Ez költséghatékonyabb, ugyanakkor jobb alkalmazkodóképességet és skálázhatóságot is biztosít.
Források:
1.

2.

3.
