A magyar nyelvtechnológiai kutatás jelentős mérföldkőhöz érkezett: egy átfogó vizsgálat kimutatta, hogy a nagyobb korpuszméret nem feltétlenül eredményez jobb teljesítményt a morfológiai elemzésben.
Dömötör Andrea, Indig Balázs és Nemeskey Dávid Márk kutatásukban három különböző méretű magyar nyelvű korpuszt – az ELTE DH gold standard korpuszt (496 060 token), az NYTK-NerKort (1 017 340 token) és a Szeged Treebankot (1 362 505 token) – elemeztek részletesen. Az eredmények a "A méret a lényeg? Morfológiailag annotált korpuszok összehasonlító kiértékelése" című tanulmányban kerültek bemutatásra. A vizsgálat során meglepő eredmények születtek: a HuSpaCy elemző teljesítménye már félmillió tokennél elérte az optimális szintet, és a további méretbeli növekedés nem hozott jelentős javulást. A PurePos elemző esetében még kisebb korpuszméret is elegendőnek bizonyult – még a 120 ezres tokenszámú tesztkorpusszal is 93,8%-os pontosságot ért el a lemmatizálásban. Különösen érdekes, hogy a korpuszok kombinálása nemhogy javított volna, de még rontott is az eredményeken; a NerKor és a Szeged Treebank együttes használata például mindössze 91,8%-os pontosságot eredményezett a lemmatizálásban, szemben az egyedi 98,2%-os és 98,7%-os eredményeikkel.
A kutatás legfontosabb tanulsága, hogy a morfológiai annotálás tanításához nem feltétlenül szükséges óriási tanítókorpusz, sokkal fontosabb az annotációk konzisztenciája. A vizsgálat szerint már 120 ezer tokennyi konzisztens annotáció is elegendő lehet megbízható eredmények eléréséhez, ami jelentősen átformálhatja a jövőbeli korpuszépítési stratégiákat.
Források:
1.
https://rgai.inf.u-szeged.hu/sites/rgai.inf.u-szeged.hu/files/mszny2025%20%281%29.pdf#page=226.11