Hogyan lehet automatizáltan értékelni a nagy nyelvi modellek tényszerűségét?

Hogyan lehet automatizáltan értékelni a nagy nyelvi modellek tényszerűségét?
Forrás: DALL·E 3

A Google DeepMind 2024 decemberében mutatta be a FACTS Grounding rendszert, amely forradalmasíthatja a nagy nyelvi modellek (LLM-ek) tényszerűségének értékelését. A benchmark elsőként teszi lehetővé a hosszú, akár 32 ezer tokenes dokumentumokra épülő válaszok automatizált ellenőrzését, különös tekintettel a forráshűségre és a tényszerűségre.

A rendszer különlegessége a kétszintű értékelési folyamatban és az átfogó tesztkészletben rejlik. A 860 nyilvános és 859 privát teszteset öt kulcsfontosságú területet fed le: orvosi (29%), jogi (22,2%), internet/technológiai (19,2%), pénzügyi (18,1%) és kiskereskedelmi (11,4%) témákat. Az értékelés első fázisában a rendszer kiszűri azokat a válaszokat, amelyek nem felelnek meg a felhasználói kérésnek, majd a második fázisban elemzi a fennmaradó válaszok tényszerűségét a forrásszöveghez viszonyítva. A megbízhatóság érdekében három vezető nagy nyelvi modell - Gemini 1.5 Pro, GPT-4o és Claude 3.5 Sonnet - együttes döntését használják, mivel a kutatók kimutatták, hogy a modellek általában 3,23%-kal kedvezőbben értékelik saját kimeneteiket más modellekéhez képest.

A kezdeti tesztek izgalmas eredményeket hoztak: a Gemini 2.0 Flash Experimental érte el a legjobb teljesítményt 83,6%-os pontszámmal, szorosan követte a Gemini 1.5 Flash (82,9%) és a Gemini 1.5 Pro (80,0%). Figyelemre méltó, hogy a nem megfelelő válaszok kiszűrése után a végső pontszámokban 1-5%-os csökkenés volt tapasztalható, ami jelzi a szigorú értékelési kritériumokat. A benchmark szabadon hozzáférhető a Kaggle platformon (www.kaggle.com/facts-leaderboard), így bármely kutató vagy fejlesztő tesztelheti saját modelljét. A rendszer különösen hasznos lehet olyan területeken, ahol kritikus fontosságú a generált szövegek pontossága és forráshűsége, például az orvosi dokumentációk vagy jogi szövegek automatizált feldolgozásában.

Forrás: FACTS Leaderboard

Források:

@MoritzLaurer on Hugging Face: “FACTS is a great paper from @GoogleDeepMind on measuring the factuality of LLM…”
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
FACTS: A Benchmark for Faithfulness in Text Summarization

DeepMind's research paper on evaluating factual consistency in AI-generated text.

FACTS Grounding: A new benchmark for evaluating the factuality of large language models
Our comprehensive benchmark and online leaderboard offer a much-needed measure of how accurately LLMs ground their responses in provided source material and avoid hallucinations
FACTS Leaderboard | Kaggle
A novel benchmark from Google DeepMind designed to evaluate the factual accuracy and grounding of AI models