Az NVIDIA kutatói meggyőző érveket sorakoztattak fel amellett, hogy a kis nyelvi modellek (SLM) a nagy nyelvi modellekkel (LLM) szemben alkalmasabbak az önálló feladatvégző AI rendszerek működtetésére. A 2025 júniusában közzétett tanulmányukban a kutatók kifejtik, hogy az önműködő, feladatorientált AI-alkalmazások többnyire ismétlődő, szűk körű műveleteket végeznek, amelyekhez nincs szükség a nagy modellek teljes kapacitására. A kutatás szerint a 10 milliárd paraméternél kisebb SLM-ek számos esetben megközelítik vagy felülmúlják a 30-70 milliárd paraméteres modellek teljesítményét. Ezt mutatja, hogy a Microsoft Phi-3 small (7 milliárd paraméter) és a Huggingface SmolLM2 (1,7 milliárd paraméter) modellek a 70 milliárd paraméteres társaikkal is felveszik a versenyt olyan feladatokban, mint a kódfejlesztés és az utasítások követése.
Az SLM-ek gazdasági és működési előnyei jelentősek, különösen az önálló feladatvégző rendszerek kontextusában. Az NVIDIA adatai szerint egy 7 milliárd paraméteres SLM 10-30-szor kevesebb energiát fogyasztanak és sokkal gyorsabbak, mint egy 70-175 milliárd paraméteres LLM, így működtetésük is sokkal gazdaságosabb. Ez a jelentős különbség teszi lehetővé, hogy a kisebb modellek nagy felhasználószám mellett is azonnali válaszokat adjanak. A Carnegie Mellon Egyetem tanulmánya kimutatta, hogy az önműködő AI rendszerek általában csak az esetek 30,3%-ában képesek sikeresen elvégezni a rájuk bízott feladatokat, ami jelzi, hogy a technológia még fejlődési szakaszban van. A kutatás kiemeli, hogy a technológiai óriásvállalatok 2024-ben 57 milliárd dollárt fektettek be a nagy nyelvi modellek felhő infrastruktúrájába, miközben maga a piac egyenlőre mindösszesen 5,6 milliárd dollárt ért.
Az NVIDIA kutatói egy ötlépéses módszert javasolnak a nagy nyelvi modellekről kis nyelvi modellekre való átálláshoz, amely magában foglalja a használati adatok gyűjtését, az adatok tisztítását, a feladatok csoportosítását, a megfelelő SLM kiválasztását, és a specializált finomhangolást. A tanulmány azt is kiemeli, hogy a vegyes felépítésű rendszerek – amelyek eltérő méretű modelleket használnak különböző feladatokra – tökéletes megoldást jelentenek azokra az esetekre ahol az általános társalgási képességekre és specializált funkciókra egyaránt szükség van. Az SLM-alapú megközelítés, amely kisebb, specializált modelleket alkalmaz ahelyett, hogy egységes nagy modelleket használna, olyan rendszereket eredményez, amelyek olcsóbbak, könnyebben javíthatók, egyszerűbben telepíthetők, és jobban összhangban vannak a valódi feladatorientált AI rendszerek működési sokszínűségével.
Források:


