EN

A kis nyelvi modellek jelentik az önműködő AI rendszerek jövőjét az NVIDIA szerint

A kis nyelvi modellek jelentik az önműködő AI rendszerek jövőjét az NVIDIA szerint
Forrás: unsplash - Shamin Haky

Az NVIDIA kutatói meggyőző érveket sorakoztattak fel amellett, hogy a kis nyelvi modellek (SLM) a nagy nyelvi modellekkel (LLM) szemben alkalmasabbak az önálló feladatvégző AI rendszerek működtetésére. A 2025 júniusában közzétett tanulmányukban a kutatók kifejtik, hogy az önműködő, feladatorientált AI-alkalmazások többnyire ismétlődő, szűk körű műveleteket végeznek, amelyekhez nincs szükség a nagy modellek teljes kapacitására. A kutatás szerint a 10 milliárd paraméternél kisebb SLM-ek számos esetben megközelítik vagy felülmúlják a 30-70 milliárd paraméteres modellek teljesítményét. Ezt mutatja, hogy a Microsoft Phi-3 small (7 milliárd paraméter) és a Huggingface SmolLM2 (1,7 milliárd paraméter) modellek a 70 milliárd paraméteres társaikkal is felveszik a versenyt olyan feladatokban, mint a kódfejlesztés és az utasítások követése.

Az SLM-ek gazdasági és működési előnyei jelentősek, különösen az önálló feladatvégző rendszerek kontextusában. Az NVIDIA adatai szerint egy 7 milliárd paraméteres SLM 10-30-szor kevesebb energiát fogyasztanak és sokkal gyorsabbak, mint egy 70-175 milliárd paraméteres LLM, így működtetésük is sokkal gazdaságosabb. Ez a jelentős különbség teszi lehetővé, hogy a kisebb modellek nagy felhasználószám mellett is azonnali válaszokat adjanak. A Carnegie Mellon Egyetem tanulmánya kimutatta, hogy az önműködő AI rendszerek általában csak az esetek 30,3%-ában képesek sikeresen elvégezni a rájuk bízott feladatokat, ami jelzi, hogy a technológia még fejlődési szakaszban van. A kutatás kiemeli, hogy a technológiai óriásvállalatok 2024-ben 57 milliárd dollárt fektettek be a nagy nyelvi modellek felhő infrastruktúrájába, miközben maga a piac egyenlőre mindösszesen 5,6 milliárd dollárt ért.

Az NVIDIA kutatói egy ötlépéses módszert javasolnak a nagy nyelvi modellekről kis nyelvi modellekre való átálláshoz, amely magában foglalja a használati adatok gyűjtését, az adatok tisztítását, a feladatok csoportosítását, a megfelelő SLM kiválasztását, és a specializált finomhangolást. A tanulmány azt is kiemeli, hogy a vegyes felépítésű rendszerek amelyek eltérő méretű modelleket használnak különböző feladatokra tökéletes megoldást jelentenek azokra az esetekre ahol az általános társalgási képességekre és specializált funkciókra egyaránt szükség van. Az SLM-alapú megközelítés, amely kisebb, specializált modelleket alkalmaz ahelyett, hogy egységes nagy modelleket használna, olyan rendszereket eredményez, amelyek olcsóbbak, könnyebben javíthatók, egyszerűbben telepíthetők, és jobban összhangban vannak a valódi feladatorientált AI rendszerek működési sokszínűségével.

Források:

arXiv Logo
arXiv Research Paper (2506.02153)
Small Language Models are the Future of Agentic AI
Project website for the paper ‘Small Language Models are the Future of Agentic AI’
NVIDIA Research Proves Small Language Models Superior to LLMs | Galileo
NVIDIA research proves small language models outperform LLMs in agent systems with more cost savings and superior operational efficiency.