A Microsoft 2025 februárjában mutatta be a Phi-4 modellcsalád két új tagját, amelyek közül a Phi-4-multimodal-instruct különösen figyelemreméltó, mivel mindössze 5,6 milliárd paraméterrel képes szöveg, kép és hang egyidejű feldolgozására, miközben teljesítménye egyes feladatokban versenyképes a kétszer nagyobb modellekkel is.
A Phi-4-multimodal-instruct egy innovatív "Mixture of LoRAs" technikával készült, amely lehetővé teszi az alapmodell kiterjesztését audio és vizuális képességekkel anélkül, hogy a teljes modellt újra kellene tanítani, így minimalizálva a különböző modalitások közötti interferenciát. A modell 128 000 token kontextushosszal rendelkezik. A Hugging Face OpenASR ranglistáján 6,14%-os szóhiba-aránnyal az első helyet foglalja el, megelőzve a WhisperV3 specializált beszédfelismerő rendszert. Weizhu Chen, a Microsoft generatív AI alelnöke szerint ezek a modellek arra szolgálnak, hogy fejlett MI-képességekkel ruházzák fel a fejlesztőket. A modell nyolc nyelven támogatja a beszédfelismerést, köztük angol, kínai, német, francia, olasz, japán, spanyol és portugál nyelven, míg szöveges formátumban 23 nyelvet kezel.
A Phi-4-multimodal-instruct és a 3,8 milliárd paraméteres Phi-4-mini már elérhető a Hugging Face platformon MIT licenc alatt, amely lehetővé teszi a kereskedelmi felhasználást is. A Phi-4-mini különösen kiemelkedő teljesítményt nyújt matematikai és kódolási feladatokban - a GSM-8K matematikai teszten 88,6%-os eredményt ért el, míg a MATH teljesítményteszten 64%-ot, jelentősen felülmúlva a hasonló méretű versenytársait. A Capacity (egy mesterséges intelligencia alapú vállalati szoftver fejlesztő cég), már alkalmazta a Phi modellcsaládot saját rendszereiben. A cég jelentése szerint a Phi modellek használatával 4,2-szeres költségcsökkentést értek el a versenytárs megoldásokhoz képest, miközben ugyanolyan vagy jobb minőségű eredményeket produkáltak az előfeldolgozási feladatokban. A Microsoft közleménye szerint ezek a modellek nemcsak adatközpontokban, hanem standard hardvereken vagy közvetlenül eszközökön is futtathatók, jelentősen csökkentve a késleltetést és az adatvédelmi kockázatokat.
Források:
1.

2.

3.
