Az Alibaba bemutatta legújabb mesterséges intelligencia modelljét, a Qwen 2.5-Max-ot, amely a vállalat közlése szerint felülmúlja a jelenlegi piacvezető modelleket, köztük a DeepSeek-V3-at, az OpenAI GPT-4-et és a Meta Llama-3-at.
A Mixture-of-Experts (MoE) architektúrára épülő modellt több mint 20 billió tokenen tanították, majd felügyelt finomhangolással (SFT) és emberi visszajelzéseken alapuló megerősítéses tanulással (RLHF) fejlesztették tovább. A benchmarkokon kiemelkedő eredményeket ért el: az Arena-Hard teszten 89,4 pontot szerzett (szemben a DeepSeek-V3 85,5 pontjával), a LiveBench-en 62,2 pontot (DeepSeek-V3: 60,5), míg a LiveCodeBench-en 38,7 pontot (DeepSeek-V3: 37,6).

A Qwen 2.5-Max már elérhető a Qwen Chat platformon keresztül, valamint fejlesztők számára az Alibaba Cloud Model Studio szolgáltatáson keresztül, amely kompatibilis az OpenAI API-val. Az Alibaba további fejlesztéseket tervez a modell gondolkodási és érvelési képességeinek növelésére a skálázott megerősítéses tanulás alkalmazásával.
Források:
2.
3.