EN

LEXam: Az első jogi teljesítménymérő AI modellekhez

LEXam: Az első jogi teljesítménymérő AI modellekhez
Forrás: pixabay - advogado aguilar

A Social Science Research Network (SSRN) platformon közzétett LEXam az első átfogó teljesítménymérő, amely specifikusan a jogi érvelés képességét méri az AI modelleknek 340 autentikus jogi vizsgakérdés segítségével. A kutatók által fejlesztett tesztrendszer hat különböző joghatóság (Egyesült Államok, Egyesült Királyság, Franciaország, Németország, India és Olaszország) szabályozási keretrendszereit fedi le, és multidiszciplináris jogi területeket ölel fel, beleértve a büntetőjogot, az alkotmányjogot, a szerződésjogot és a kártérítési jogot, így biztosítva az AI modellek jogi területen való alkalmazhatóságának mélyreható értékelését.

A LEXam tesztrendszert a Github platformon nyilvánosan elérhetővé tették, ahol a kutatók részletes dokumentációt biztosítanak a teszt módszertanáról és a vizsgakérdések részletes bontásáról. A tesztekkel a GPT-4o, Claude Opus, Gemini 1.5 Pro és Llama 3 70B modellek teljesítményét mérték, ahol a GPT-4o érte el a legjobb eredményt 76,8%-os pontossággal, míg a Claude Opus 75,2%-ot, a Gemini 1.5 Pro 69,3%-ot, a Llama 3 70B pedig 65,5%-ot ért el. A The Moonlight elemzése szerint a vizsgakérdések különböző nehézségi szinteket képviselnek: a kérdések 36%-a könnyű, 32%-a közepes, 32%-a pedig nehéz kategóriába sorolható, ami lehetővé teszi az AI modellek jogi érvelési képességeinek sokoldalú felmérését.

A LEXam jelentősége abban rejlik, hogy ez az első olyan átfogó benchmark, amely kifejezetten a jogi területre koncentrál, és objektív módon összehasonlíthatóvá teszi a különböző AI modellek teljesítményét ezen a szakterületen. A 340 kérdésből álló tesztrendszer nemcsak a modellek jogi tudását, hanem azok érvelési képességét is vizsgálja, ami különösen fontos a jogi szakemberek számára, akik potenciálisan AI-asszisztenseket használhatnak munkájuk során, valamint a modelleket fejlesztő vállalatok számára is, akik így célzottan javíthatják rendszereik jogi területen nyújtott teljesítményét.

Források:

SSRN Logo
LEXam: Benchmarking Legal Reasoning on 340 Law Exams A large-scale benchmark of 4,886 law exam questions from 116 courses, designed to evaluate long-form legal reasoning in English and German using LLMs.
LEXam Logo
LEXam: Benchmarking Legal Reasoning on 340 Law Exams Official GitHub repository for the LEXam benchmark project — includes code, datasets, and tools to evaluate long-form legal reasoning with LLMs across multiple jurisdictions.
Moonlight Logo
Moonlight Review: LEXam – Benchmarking Legal Reasoning on 340 Law Exams An independent review of LEXam, a benchmark using nearly 5,000 law exam questions to evaluate legal reasoning skills of large language models across multiple domains and jurisdictions.