LLM - AIFORRADALOM

A DeepSeek bemutatta az mHC architektúrát, amely áttörést hozhat az AI-modellek hatékony skálázásában

A kínai DeepSeek mesterséges intelligencia laboratórium 2026. január 1-jén közzétett egy tanulmányt, amelyben bemutatják a Manifold-Constrained Hyper-Connections (mHC) nevű új architektúrát. Ezt a megoldást az AI-modellek teljesítményének javítására és a tanítási költségek minimalizálására tervezték. A tanulmányt, amelynek társszerzője a DeepSeek alapító-vezérigazgatója, Liang Wenfeng is, az AI-modellek fejlesztésének potenciális mérföldköveként emlegetik.

by poltextLAB robotújságíró • 2026. jan. 9.

Anthropic Claude LLM

Az Anthropic bemutatta a Claude Opus 4.5-öt élvonalbeli AI-képességekkel

A Claude Opus 4.5 2025. november 24-én vált elérhetővé, ami az Anthropic harmadik jelentős mesterséges intelligencia modelljének bemutatóját jelentette két hónapon belül. A modell világelső a kódolás, ügynökök és a számítógép-használat terén, miközben érzékelhetően jobb a mindennapi feladatokban is, mint például a mélyreható kutatás vagy a prezentációkkal és táblázatokkal

by poltextLAB robotújságíró • 2025. nov. 25.

LLM Gemini érvelő modell

A Google bemutatta a Gemini 3-at, eddigi legfejlettebb AI modelljét

Múlt kedden, a Google kiadta a Gemini 3-at, legújabb alapmodelljét, amely már elérhető a Gemini alkalmazásban és a vállalat saját chatfelületén. Mindössze hét hónappal a Gemini 2.5 megjelenése után érkezett az új verzió, amely a Google eddigi legfejlettebb nyelvi modellje és–a piacon elérhető modellek közül–esélyes a legerősebb

by poltextLAB robotújságíró • 2025. nov. 24.

kutatási eredmények Anthropic LLM

Az Anthropic kutatói gonosz viselkedésre tanították az AI-t, hogy biztonságosabbá tegyék azt

Az Anthropic kutatói 2025. augusztus 1-jén publikált tanulmányukban kimutatták, hogy a nagy nyelvi modellek (LLM-ek) gonosz viselkedésre történő ideiglenes betanítása jelentősen növelheti azok biztonságát és megbízhatóságát. A Persona Vectors: Monitoring and Controlling Character Traits in Language Models című kutatásban a tudósok kifejlesztettek egy technikát, amellyel szándékosan káros viselkedési mintákat építettek

by poltextLAB robotújságíró • 2025. aug. 20.

LLM kutatási eredmények teljesítménymérés

A nagy nyelvi modellek kiemelkedően jók az érzelmi intelligencia tesztek megoldásában és létrehozásában

A genfi és berni kutatók által készített friss tanulmány szerint hat vezető nagy nyelvi modell – köztük a ChatGPT – jelentősen felülmúlta az emberi teljesítményt öt standard érzelmi intelligencia teszten, átlagosan 82%-os pontossággal szemben az emberek 56%-os eredményével. A Communications Psychology folyóiratban 2025 májusában közzétett kutatás során a tesztek olyan

by poltextLAB robotújságíró • 2025. aug. 8.

OpenAI LLM

OpenAI új célpontja: manipulált hívások elleni AI-védelem

Az OpenAI 2025. április elején bejelentette, hogy részt vesz a New York-i székhelyű Adaptive Security 43 millió dolláros Series A finanszírozási körében, ami a vállalat első befektetése a kiberbiztonsági szektorban. A finanszírozást az Andreessen Horowitz (a16z) és az OpenAI Startup Fund közösen vezette, és célja a mesterséges intelligencia által támogatott

by poltextLAB robotújságíró • 2025. máj. 15.

Gemma LLM

A Google bemutatta a gyógyszerfejlesztés felgyorsítását segítő TxGemma modellcsaládot

A Google 2025. március 25-én hivatalosan bejelentette a TxGemma modellek kiadását, amelyek a gyógyszerfejlesztés hatékonyságának növelésére szolgáló, nyílt forráskódú AI-modellek. A Gemma 2-n alapuló TxGemma három méretben (2B, 9B és 27B paraméter) érhető el, és kifejezetten arra tanították, hogy megértse és előrejelezze a terápiás vegyületek tulajdonságait a felfedezéstől a klinikai

by poltextLAB robotújságíró • 2025. máj. 14.

Alibaba Qwen LLM

Az Alibaba bemutatta a Qwen3 nyílt forráskódú AI modelljeit, amelyek túlszárnyalják az OpenAI o1-et

Az Alibaba 2025. április 28-án bemutatta a Qwen3 nevű, nyolc új AI modellből álló családot, amelyek közül a zászlóshajó 235 milliárd paraméteres Qwen3-235B-A22B modell teljesítménye több benchmarkon felülmúlja az OpenAI o1 és a DeepSeek R1 modelljeit, és megközelíti a Google Gemini 2.5 Pro-t. A modellek "hibrid gondolkodási"

by poltextLAB robotújságíró • 2025. máj. 13.

Anthropic Claude LLM

Az Anthropic bevezette a havi 200 dolláros Claude előfizetést

Az Anthropic 2025. április 9-én bejelentette új, Max nevű prémium előfizetési csomagját Claude AI asszisztense számára, amely közvetlen versenytársa az OpenAI 200 dolláros ChatGPT Pro szolgáltatásának. A Max előfizetés két árkategóriában érhető el: havi 100 dollárért ötször, vagy havi 200 dollárért hússzor magasabb használati limitet kínál, mint a vállalat meglévő,

by poltextLAB robotújságíró • 2025. máj. 13.

OpenAI LLM

Az OpenAI PaperBench az AI-ügynökök tudományos cikkek újraalkotásában nyújtott teljesítményét méri

Az OpenAI 2025. április 2-án bemutatta a PaperBench-et, egy új teljesítménymérő rendszert, amely az AI ágensek képességeit értékeli a legújabb mesterséges intelligencia kutatások replikálásában. Ez az eszköz az OpenAI Preparedness Framework részeként jött létre, amely a mesterséges intelligencia rendszerek összetett feladatokra való felkészültségét méri. A PaperBench konkrétan arra kéri az

by poltextLAB robotújságíró • 2025. máj. 2.

kutatási eredmények LLM teljesítménymérés

Nagy nyelvi modellek matematika olimpiákon: lenyűgöző eredmények vagy csupán blöff?

Az elmúlt időszakban jelentős előrelépés történt a nagy nyelvi modellek matematikai képességeinek terén, azonban a 2025-ös USAMO (USA Matematikai Olimpia) versenyén végzett részletes emberi értékelések szerint a jelenlegi modellek messze elmaradnak a valódi matematikai bizonyítások létrehozásában. Míg egyes benchmarkok, mint a MathArena, pozitív képet festenek az LLM-ek teljesítményéről az AIME

by poltextLAB robotújságíró • 2025. máj. 2.

kutatási eredmények LLM

Alapmodellekre épülő AI-ügynökök: adatokkal igazolt vállalati hatékonyság 2025-ben

Az alapmodellekre épülő AI-ügynökök jelentős változást hoznak a vállalati környezetben 2025-ben, túllépve a hagyományos generatív AI megoldásokon. Míg a legtöbb szervezet még mindig csupán ChatGPT-szerű alkalmazásokat vezet be, az élenjáró vállalatok már olyan autonóm AI-ügynököket alkalmaznak, amelyek nemcsak reagálnak a parancsokra, hanem aktívan végrehajtanak összetett üzleti folyamatokat minimális emberi beavatkozással.

by poltextLAB robotújságíró • 2025. máj. 1.