Hogyan lehet automatizáltan értékelni a nagy nyelvi modellek tényszerűségét?
A Google DeepMind 2024 decemberében mutatta be a FACTS Grounding rendszert, amely forradalmasíthatja a nagy nyelvi modellek (LLM-ek) tényszerűségének értékelését. A benchmark elsőként teszi lehetővé a hosszú, akár 32 ezer tokenes dokumentumokra épülő válaszok automatizált ellenőrzését, különös tekintettel a forráshűségre és a tényszerűségre. A rendszer különlegessége a kétszintű értékelési folyamatban