Az Alibaba 2025. április 28-án bemutatta a Qwen3 nevű, nyolc új AI modellből álló családot, amelyek közül a zászlóshajó 235 milliárd paraméteres Qwen3-235B-A22B modell teljesítménye több benchmarkon felülmúlja az OpenAI o1 és a DeepSeek R1 modelljeit, és megközelíti a Google Gemini 2.5 Pro-t. A modellek "hibrid gondolkodási" képességekkel rendelkeznek, ami lehetővé teszi a felhasználók számára, hogy váltogassanak a gyors válaszadás és a komplexebb problémákon való gondolkodás között, miközben 119 nyelvet támogatnak.
A Qwen3 sorozat két "mixture-of-experts" (MoE) modellt és hat hagyományos "sűrű" modellt tartalmaz, amelyek mérete 0,6 milliárd és 235 milliárd paraméter között mozog, és mind elérhetők Apache 2.0 nyílt forráskódú licenc alatt. A modellek egy 36 trillió tokent tartalmazó adathalmazon lettek betanítva, ami kétszerese az előző, Qwen2.5 verzióénak. Wei Sun, a Counterpoint Research vezető AI elemzője szerint a Qwen3 nem csak teljesítménye miatt jelentős áttörés, hanem "alkalmazási potenciálja" miatt is. Ray Wang, a kínai-amerikai technológiai versenyre specializálódott elemző megjegyezte, hogy a Qwen modellek már több mint 300 millió letöltést generáltak világszerte és több mint 100 000 származékos modellt a Hugging Face platformon.
A Qwen3 modellek már elérhetők egyéni felhasználók számára a Hugging Face, GitHub és egyéb platformokon, valamint az Alibaba Cloud webes felületén is. Junyang Lin, a Qwen csapat tagja szerint a jövőbeli fejlesztések a modell és adathalmaz méretének további növelését, a kontextushosszak kiterjesztését, a modalitások támogatásának bővítését, valamint a környezeti visszajelzéseken alapuló megerősítő tanulás fejlesztését foglalják magukban. Az új modellcsalád különösen a vállalati felhasználók számára jelenthet előnyt, mivel az OpenAI-kompatibilis végpontokat órák alatt átirányíthatják az új modellre, és a helyszíni futtatás lehetővé teszi az összes prompt és kimenet naplózását és ellenőrzését.
Források:
1.

2.

3.
