A kínai technológiai óriás Baidu bemutatta az ERNIE 5.0 nevű natív multimodális AI modelljét a Baidu World 2025 eseményen, néhány órával az OpenAI GPT-5.1-re való frissítése után. Az ERNIE 5.0 a nyilvánosan megosztott benchmark-teszteken felülmúlta vagy elérte az OpenAI GPT-5-High és a Google Gemini 2.5 Pro teljesítményét multimodális érvelésben, dokumentum-megértésben és képalapú kérdés-válasz feladatokban. A Baidu azt állítja, hogy a modell legyőzte mindkét versenytársat az OCRBench, DocVQA és ChartQA tesztek esetében, amelyek dokumentumfelismerést, megértést és strukturált adatelemzést mérnek, amelyek különösen az olyan vállalati alkalmazások szempontjából kritikus területek, mint az automatizált dokumentumfeldolgozás és pénzügyi elemzés. Az ERNIE 5.0 a Qianfan felhőplatform API-ján keresztül érhető el.
A modell vizuális feladatoknál is vezető pontszámokat ért el, míg hang- és beszédfeladatoknál versenyképes eredményeket mutatott az MM-AU és TUT2017 benchmarkokon. Két nappal az ERNIE 5.0 bejelentése előtt a Baidu kiadta az ERNIE-4.5-VL-28B-A3B-Thinking nyílt forráskódú multimodális modellt az Apache 2.0 licenc alatt, amely mindössze 3 milliárd aktív paramétert használ működés közben, miközben 28 milliárd összes paramétert tart fenn egy Mixture-of-Experts architektúrán keresztül.
Az ERNIE 5.0 megjelenése a globális AI-piacon való versenyképességet jelez, bár a Baidu korábban elsősorban a hazai piacra összpontosított. A vállalat vezérigazgatója, Robin Li szerint „amikor az AI-t magunkévá tesszük, [...] az intelligenciát költségből a hatékonyság forrássává változtatjuk". A vállalat Apollo Go autonóm taxiszolgáltatása a világ legnagyobb robotaxi-hálózataként már 17 millió utazást teljesített 22 városban, míg a digitális platformjukat már Brazíliában is bevezették, ahol a vállalati adatok szerint az idei Double 11-es eseményen a livestreamerek 83%-a használta a Baidu technológiáját, ami 91%-os GMV-növekedést eredményezett.
Források: