Az európai mesterséges intelligencia fejlődésének új mérföldköve az EuroLLM-9B, amely 2024. december 2-án debütált. A 9 milliárd paraméteres, nyílt forráskódú nyelvi modell 35 nyelvet támogat, köztük az Európai Unió mind a 24 hivatalos nyelvét. A projekt célja, hogy elősegítse az európai nyelvi sokszínűség megőrzését a digitális térben.
A modell fejlesztéséhez kivételes számítási kapacitást mozgósítottak: 400 Nvidia H100 GPU segítségével, az EuroLLM-9B-t összesen 4 billió tokenen képezték a MareNostrum5 szuperszámítógépen. A képzési folyamat három szakaszban zajlott: az első, alapozó fázisban 3,6 billió token biztosította a modell többnyelvű alapjait, különféle források – például webes adatok, Wikipédia, ArXiv-tudományos cikkek és párhuzamos nyelvi korpuszok – felhasználásával. Ezt követte a finomhangolás 400 milliárd tokenen, amely során csökkentették a webes adatok arányát, és nagyobb hangsúlyt kaptak a magas minőségű, többnyelvű szövegek. A záró szakaszban, 40 milliárd tokenen, a modell kizárólag kiemelkedő minőségű adatokon tanult, hogy optimalizálják teljesítményét. Az eredmények önmagukért beszélnek: az EuroLLM-9B felülmúlja a hasonló európai modelleket, és versenyképes marad olyan globális fejlesztésekkel szemben is, mint a Gemma-2-9B.
A projekt jelentőségét jelzi a 20,6 millió eurós európai uniós támogatás, amit a Digital Europe program keretében nyert el. A fejlesztést kilenc neves európai kutatóintézet és egyetem együttműködése tette lehetővé, a munkát pedig a MareNostrum5 szuperszámítógépen végezték, az EuroHPC extreme-scale hozzáférési támogatásának köszönhetően. A modell már az első héten komoly szakmai sikert aratott: több mint 50.000 letöltést regisztráltak a Hugging Face platformon, és a kutatócsoport már egy nagyobb, 20 milliárd paraméteres verzió fejlesztésén dolgozik.
Források:

2.
3.
