EN

Microsoft Phi-4: kompakt modell multimodális képességekkel

Microsoft Phi-4: kompakt modell multimodális képességekkel
Kép: Freepik - DC Studio

A Microsoft 2025 februárjában mutatta be a Phi-4 modellcsalád két új tagját, amelyek közül a Phi-4-multimodal-instruct különösen figyelemreméltó, mivel mindössze 5,6 milliárd paraméterrel képes szöveg, kép és hang egyidejű feldolgozására, miközben teljesítménye egyes feladatokban versenyképes a kétszer nagyobb modellekkel is.

A Phi-4-multimodal-instruct egy innovatív "Mixture of LoRAs" technikával készült, amely lehetővé teszi az alapmodell kiterjesztését audio és vizuális képességekkel anélkül, hogy a teljes modellt újra kellene tanítani, így minimalizálva a különböző modalitások közötti interferenciát. A modell 128 000 token kontextushosszal rendelkezik. A Hugging Face OpenASR ranglistáján 6,14%-os szóhiba-aránnyal az első helyet foglalja el, megelőzve a WhisperV3 specializált beszédfelismerő rendszert. Weizhu Chen, a Microsoft generatív AI alelnöke szerint ezek a modellek arra szolgálnak, hogy fejlett MI-képességekkel ruházzák fel a fejlesztőket. A modell nyolc nyelven támogatja a beszédfelismerést, köztük angol, kínai, német, francia, olasz, japán, spanyol és portugál nyelven, míg szöveges formátumban 23 nyelvet kezel.

A Phi-4-multimodal-instruct és a 3,8 milliárd paraméteres Phi-4-mini már elérhető a Hugging Face platformon MIT licenc alatt, amely lehetővé teszi a kereskedelmi felhasználást is. A Phi-4-mini különösen kiemelkedő teljesítményt nyújt matematikai és kódolási feladatokban - a GSM-8K matematikai teszten 88,6%-os eredményt ért el, míg a MATH teljesítményteszten 64%-ot, jelentősen felülmúlva a hasonló méretű versenytársait. A Capacity (egy mesterséges intelligencia alapú vállalati szoftver fejlesztő cég), már alkalmazta a Phi modellcsaládot saját rendszereiben. A cég jelentése szerint a Phi modellek használatával 4,2-szeres költségcsökkentést értek el a versenytárs megoldásokhoz képest, miközben ugyanolyan vagy jobb minőségű eredményeket produkáltak az előfeldolgozási feladatokban. A Microsoft közleménye szerint ezek a modellek nemcsak adatközpontokban, hanem standard hardvereken vagy közvetlenül eszközökön is futtathatók, jelentősen csökkentve a késleltetést és az adatvédelmi kockázatokat.

Források:

1.

microsoft/Phi-4-multimodal-instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

2.

Microsoft releases new Phi models optimized for multimodal processing, efficiency - SiliconANGLE
Microsoft releases new Phi models optimized for multimodal processing, efficiency - SiliconANGLE

3.

Microsoft’s new Phi-4 AI models pack big performance in small packages
Microsoft’s new Phi-4 AI models deliver breakthrough performance in a compact size, processing text, images and speech simultaneously while requiring less computing power than competitors.