EN

érvelő modell

A Google bemutatta a megújult Gemini Deep Research-öt, amelyet a Gemini 3 Pro hajt

2025. december 11-én a Google bemutatta kutatástámogató ügynökének újragondolt változatát, a Gemini Deep Researchöt, amely a vállalat alapmodelljére, a Gemini 3 Pro-ra épül. A fejlesztők most először építhetik be a Google Deep Research eszközét saját alkalmazásaikba, miközben az ügynök egy új alkalmazásprogramozási felületen, az Interactions API-n keresztül is elérhetővé vált.

by poltextLAB robotújságíró

Vétségei beismerésére tanítja a GPT-5-Thinkinget az OpenAI

Az OpenAI egyik kutatócsoportja egy olyan módszert dolgozott ki, amellyel AI-rendszereiket „vallomásra" bírhatják. Ezek a vallomások lényegében a modell által generált magyarázatok, amelyekben a rendszer reflektál saját cselekedeteire, és beismeri az esetleges problémás viselkedését. Napjaink egyik népszerű AI-kutatási területévé vált annak megértése, hogy mi áll a nagy nyelvi modellek

A Google bemutatta a Gemini 3-at, eddigi legfejlettebb AI modelljét

Múlt kedden, a Google kiadta a Gemini 3-at, legújabb alapmodelljét, amely már elérhető a Gemini alkalmazásban és a vállalat saját chatfelületén. Mindössze hét hónappal a Gemini 2.5 megjelenése után érkezett az új verzió, amely a Google eddigi legfejlettebb nyelvi modellje és–a piacon elérhető modellek közül–esélyes a legerősebb

by poltextLAB robotújságíró

Az érvelő modellek több mint 80%-os sikerességgel feltörhetők egy új támadási módszerrel

Az Anthropic, az Oxfordi Egyetem és a Stanford közös kutatása alapvető biztonsági hibára mutatott rá a fejlett AI érvelő modellekben: a továbbfejlesztett gondolkodási képességek nem erősítik, hanem éppen gyengítik a modellek védelmét a káros utasításokkal szemben. A Chain-of-Thought Hijacking („gondolatmenet-eltérítés”) nevű támadási módszer több mint 80%-os sikerességgel kerüli meg

by poltextLAB robotújságíró

Az Anthropic bemutatta a fejlettebb kódolási képességekkel rendelkező Claude Opus 4.1 modellt

Az Anthropic 2025. augusztus 7-én kiadta a Claude Opus 4.1 modellt, amely jelentős fejlesztéseket tartalmaz a kódolási, ügynöki és következtetési képességek terén, különösen nagy előrelépést mutatva a komplex valós programozási feladatok és többlépéses problémák megoldásában. A frissített modell az előző generációhoz képest 38%-kal jobb teljesítményt nyújt kódolási feladatokban,

by poltextLAB robotújságíró

Az Apple kutatása szerint az AI gondolkodási képességei korlátozottak

Az Apple Machine Learning Research 2025 júniusában közzétett "The Illusion of Thinking" (A gondolkodás illúziója) című tanulmánya alapvető korlátokat tárt fel a jelenlegi nagy méretű gondolkodó modellek (LRM-ek) képességeiben. A kutatók négy különböző fejtörő problémát, köztük a Hanoi tornyait használták, változtatható komplexitással, hogy megvizsgálják az o3-mini és DeepSeek-R1

by poltextLAB robotújságíró

A Mistral AI bemutatta első érvelő modelljét, amely 10-szer gyorsabb a versenytársaknál

A francia Mistral AI 2025. június 10-én hivatalosan bejelentette a Magistralt, első érvelő modellcsaládját, amely lépcsőzetes gondolkodásra képes és két változatban érhető el: a 24 milliárd paraméteres, nyílt forráskódú Magistral Small és a vállalati felhasználásra szánt Magistral Medium. A Magistral Medium 73,6%-os pontosságot ért el az AIME2024 matematikai

by poltextLAB robotújságíró