EN

EuroBERT: Új fejlesztésű többnyelvű kódoló modellcsalád a nyelvtechnológiában

EuroBERT: Új fejlesztésű többnyelvű kódoló modellcsalád a nyelvtechnológiában
Kép: Freepik - seventyfour

Az EuroBERT, az új többnyelvű kódoló modellcsalád jelentős előrelépést jelent a modern nyelvtechnológiában, amely 15 európai és globális nyelv hatékonyabb feldolgozását biztosítja 8.192 tokenig terjedő szekvenciákkal. 2025. március 10-én mutatták be hivatalosan az EuroBERT modellcsaládot, amelyet 5 billió tokennel képeztek ki, és három méretben (210M, 610M és 2,1B paraméter) áll rendelkezésre. A modell egyesíti a kétirányú kódoló architektúrát a dekóder modellek legújabb innovációival, jelentősen meghaladva a korábbi többnyelvű modelleket a teljesítmény terén.

Az EuroBERT jelentősen felülmúlja a hasonló technológiákat a nyelvi feldolgozási képességek terén. A kutatási eredmények szerint a modellcsalád 18 különböző típusú nyelvi feladatból 10-ben első helyezést ért el a tesztek során. A dokumentumkeresési pontossága különösen kiemelkedő: a MIRACL tesztben 92,9%-os találati arányt mutatott, ami azt jelenti, hogy csaknem minden releváns dokumentumot megtalált a keresési kérésekre. Az MLDR tesztben 66,1%-os, a Wikipedia keresési teszteken pedig 95,8%-os pontosságot ért el. Ezek a számok 5-15%-kal magasabbak, mint a jelenlegi legjobb modelleké. Nicolas Boizard, a vezető kutató szerint az EuroBERT modellek következetesen felülmúlják az alternatívákat a többnyelvű visszakeresés, osztályozás és regressziós feladatok terén, és kimagaslóan teljesítenek kódolási és matematikai feladatokban.

Az EuroBERT különleges képessége, hogy hatékonyan dolgoz fel hosszú szövegeket is. A legnagyobb, 2,1B paraméterű változat a 8.192 token hosszúságú (kb. 15-20 oldalnyi) szövegek feldolgozásakor is mindössze 2%-os teljesítménycsökkenést mutat a rövid szövegekhez képest, míg a versenytársak, mint az XLM-RoBERTa, ugyanezen a teszten 40-50%-os teljesítményvesztést szenvednek el. A kutatók vizsgálatai szerint a kód és matematikai tartalmak 15%-kal javítják a keresési képességeket, a párhuzamos nyelvű szövegek pedig 8-10%-kal növelik mind az osztályozási, mind a keresési pontosságot. Az EuroBERT hatásának jelentőségét növeli, hogy a teljes modellcsaládot nyílt forráskódúként tették elérhetővé a fejlesztők és kutatók számára, beleértve a köztes tanítási állapotokat is.

Források:

1.

Introducing EuroBERT: A High-Performance Multilingual Encoder Model
A Blog post by EuroBERT on Hugging Face

2.

arXiv Logo
EuroBERT: Scaling Multilingual Encoders for European Languages Introducing EuroBERT, a family of multilingual encoders covering European and widely spoken global languages, outperforming existing alternatives across diverse tasks.

3.

EuroBERT: Advanced Multilingual AI Model Breaks New Ground in European Language Processing
EuroBERT: Advanced Multilingual AI Model Breaks New Ground in European Language Processing