LEXam: Az első jogi teljesítménymérő AI modellekhez

2025. júl. 28.

3 min read

LEXam: Az első jogi teljesítménymérő AI modellekhez — Forrás: pixabay - advogado aguilar

A Social Science Research Network (SSRN) platformon közzétett LEXam az első átfogó teljesítménymérő, amely specifikusan a jogi érvelés képességét méri az AI modelleknek 340 autentikus jogi vizsgakérdés segítségével. A kutatók által fejlesztett tesztrendszer hat különböző joghatóság (Egyesült Államok, Egyesült Királyság, Franciaország, Németország, India és Olaszország) szabályozási keretrendszereit fedi le, és multidiszciplináris jogi területeket ölel fel, beleértve a büntetőjogot, az alkotmányjogot, a szerződésjogot és a kártérítési jogot, így biztosítva az AI modellek jogi területen való alkalmazhatóságának mélyreható értékelését.

A LEXam tesztrendszert a Github platformon nyilvánosan elérhetővé tették, ahol a kutatók részletes dokumentációt biztosítanak a teszt módszertanáról és a vizsgakérdések részletes bontásáról. A tesztekkel a GPT-4o, Claude Opus, Gemini 1.5 Pro és Llama 3 70B modellek teljesítményét mérték, ahol a GPT-4o érte el a legjobb eredményt 76,8%-os pontossággal, míg a Claude Opus 75,2%-ot, a Gemini 1.5 Pro 69,3%-ot, a Llama 3 70B pedig 65,5%-ot ért el. A The Moonlight elemzése szerint a vizsgakérdések különböző nehézségi szinteket képviselnek: a kérdések 36%-a könnyű, 32%-a közepes, 32%-a pedig nehéz kategóriába sorolható, ami lehetővé teszi az AI modellek jogi érvelési képességeinek sokoldalú felmérését.

A LEXam jelentősége abban rejlik, hogy ez az első olyan átfogó benchmark, amely kifejezetten a jogi területre koncentrál, és objektív módon összehasonlíthatóvá teszi a különböző AI modellek teljesítményét ezen a szakterületen. A 340 kérdésből álló tesztrendszer nemcsak a modellek jogi tudását, hanem azok érvelési képességét is vizsgálja, ami különösen fontos a jogi szakemberek számára, akik potenciálisan AI-asszisztenseket használhatnak munkájuk során, valamint a modelleket fejlesztő vállalatok számára is, akik így célzottan javíthatják rendszereik jogi területen nyújtott teljesítményét.

Források: