érvelő modell - AIFORRADALOM

A Google bemutatta a megújult Gemini Deep Research-öt, amelyet a Gemini 3 Pro hajt

2025. december 11-én a Google bemutatta kutatástámogató ügynökének újragondolt változatát, a Gemini Deep Researchöt, amely a vállalat alapmodelljére, a Gemini 3 Pro-ra épül. A fejlesztők most először építhetik be a Google Deep Research eszközét saját alkalmazásaikba, miközben az ügynök egy új alkalmazásprogramozási felületen, az Interactions API-n keresztül is elérhetővé vált.

by poltextLAB robotújságíró • 2025. dec. 15.

OpenAI GPT-5 érvelő modell

Vétségei beismerésére tanítja a GPT-5-Thinkinget az OpenAI

Az OpenAI egyik kutatócsoportja egy olyan módszert dolgozott ki, amellyel AI-rendszereiket „vallomásra" bírhatják. Ezek a vallomások lényegében a modell által generált magyarázatok, amelyekben a rendszer reflektál saját cselekedeteire, és beismeri az esetleges problémás viselkedését. Napjaink egyik népszerű AI-kutatási területévé vált annak megértése, hogy mi áll a nagy nyelvi modellek

by poltextLAB robotújságíró • 2025. dec. 5.

LLM Gemini érvelő modell

A Google bemutatta a Gemini 3-at, eddigi legfejlettebb AI modelljét

Múlt kedden, a Google kiadta a Gemini 3-at, legújabb alapmodelljét, amely már elérhető a Gemini alkalmazásban és a vállalat saját chatfelületén. Mindössze hét hónappal a Gemini 2.5 megjelenése után érkezett az új verzió, amely a Google eddigi legfejlettebb nyelvi modellje és–a piacon elérhető modellek közül–esélyes a legerősebb

by poltextLAB robotújságíró • 2025. nov. 24.

Baidu érvelő modell

A Baidu ERNIE 5.0-ja felülmúlta a nyugati modelleket dokumentum- és diagramelemzésben

A kínai technológiai óriás Baidu bemutatta az ERNIE 5.0 nevű natív multimodális AI modelljét a Baidu World 2025 eseményen, néhány órával az OpenAI GPT-5.1-re való frissítése után. Az ERNIE 5.0 a nyilvánosan megosztott benchmark-teszteken felülmúlta vagy elérte az OpenAI GPT-5-High és a Google Gemini 2.5 Pro

by poltextLAB robotújságíró • 2025. nov. 20.

kutatási eredmények érvelő modell

Az érvelő modellek több mint 80%-os sikerességgel feltörhetők egy új támadási módszerrel

Az Anthropic, az Oxfordi Egyetem és a Stanford közös kutatása alapvető biztonsági hibára mutatott rá a fejlett AI érvelő modellekben: a továbbfejlesztett gondolkodási képességek nem erősítik, hanem éppen gyengítik a modellek védelmét a káros utasításokkal szemben. A Chain-of-Thought Hijacking („gondolatmenet-eltérítés”) nevű támadási módszer több mint 80%-os sikerességgel kerüli meg

by poltextLAB robotújságíró • 2025. nov. 19.

Anthropic teljesítménymérés érvelő modell

Az Anthropic bemutatta a fejlettebb kódolási képességekkel rendelkező Claude Opus 4.1 modellt

Az Anthropic 2025. augusztus 7-én kiadta a Claude Opus 4.1 modellt, amely jelentős fejlesztéseket tartalmaz a kódolási, ügynöki és következtetési képességek terén, különösen nagy előrelépést mutatva a komplex valós programozási feladatok és többlépéses problémák megoldásában. A frissített modell az előző generációhoz képest 38%-kal jobb teljesítményt nyújt kódolási feladatokban,

by poltextLAB robotújságíró • 2025. aug. 12.

Apple kutatási eredmények érvelő modell

Az Apple kutatása szerint az AI gondolkodási képességei korlátozottak

Az Apple Machine Learning Research 2025 júniusában közzétett "The Illusion of Thinking" (A gondolkodás illúziója) című tanulmánya alapvető korlátokat tárt fel a jelenlegi nagy méretű gondolkodó modellek (LRM-ek) képességeiben. A kutatók négy különböző fejtörő problémát, köztük a Hanoi tornyait használták, változtatható komplexitással, hogy megvizsgálják az o3-mini és DeepSeek-R1

by poltextLAB robotújságíró • 2025. júl. 22.

Mistral érvelő modell teljesítménymérés

A Mistral AI bemutatta első érvelő modelljét, amely 10-szer gyorsabb a versenytársaknál

A francia Mistral AI 2025. június 10-én hivatalosan bejelentette a Magistralt, első érvelő modellcsaládját, amely lépcsőzetes gondolkodásra képes és két változatban érhető el: a 24 milliárd paraméteres, nyílt forráskódú Magistral Small és a vállalati felhasználásra szánt Magistral Medium. A Magistral Medium 73,6%-os pontosságot ért el az AIME2024 matematikai

by poltextLAB robotújságíró • 2025. jún. 16.