
مایکروسافت از مدلهای زبانی کوچک Phi-4-multimodal و Phi-4-mini رونمایی کرد
در دسامبر 2024، مایکروسافت مدل زبان کوچک (SLM) به نام Phi-4 را معرفی کرد که در کلاس خود عملکردی پیشرفته و بینظیر دارد. اکنون، مایکروسافت خانواده Phi-4 را با دو مدل جدید Phi-4-multimodal و Phi-4-mini گسترش میدهد. مدل جدید Phi-4-multimodal به طور همزمان از گفتار، بینایی و متن پشتیبانی میکند، در حالی که Phi-4-mini بر روی وظایف مبتنی بر متن تمرکز دارد.
Phi-4-multimodal یک مدل با 5.6 میلیارد پارامتر است و همچنین نخستین مدل زبان چندرسانهای مایکروسافت به شمار میرود که پردازش گفتار، بینایی و متن را در یک معماری یکپارچه ادغام میکند. در مقایسه با سایر مدلهای پیشرفته موجود، از جمله Gemini 2.0 Flash و Gemini 2.0 Flash Lite گوگل، Phi-4-multimodal در چندین معیار عملکرد بهتری را ارائه میدهد، همانطور که در جدول زیر مشاهده میشود.
در وظایف مرتبط با گفتار، مدل Phi-4-multimodal در مقایسه با مدلهای تخصصی گفتار مانند WhisperV3 و SeamlessM4T-v2-Large در زمینههای شناسایی گفتار خودکار (ASR) و ترجمه گفتار (ST) عملکرد بهتری از خود نشان میدهد. مایکروسافت اعلام کرده است که این مدل با نرخ خطای کلمهای قابل توجه 6.14 درصد در صدر جدول ردهبندی OpenASR در Hugging Face قرار دارد.
در وظایف مرتبط با بینایی، مدل Phi-4-multimodal عملکرد قویای در استدلالهای ریاضی و علمی از خود نشان داده است. در قابلیتهای چندرسانهای رایج، مانند درک اسناد و نمودارها، OCR و استدلال علمی بصری، این مدل جدید با مدلهای محبوبی مانند Gemini-2-Flash-lite-preview و Claude-3.5-Sonnet همسطح یا حتی بهتر عمل میکند.
مدل Phi-4-mini با 3.8 میلیارد پارامتر، در وظایف مبتنی بر متن، از جمله استدلال، ریاضی، برنامهنویسی، پیروی از دستورالعملها و فراخوانی توابع، عملکرد بهتری نسبت به چندین مدل بزرگتر و محبوب LLM دارد. برای تضمین امنیت و ایمنی این مدلهای جدید، مایکروسافت آزمایشهایی را با همکاری کارشناسان امنیت داخلی و خارجی انجام داد و از استراتژیهای طراحی شده توسط تیم قرمز هوش مصنوعی مایکروسافت (AIRT) بهره برد.
مدلهای Phi-4-mini و Phi-4-multimodal میتوانند با بهینهسازی بیشتر با استفاده از ONNX Runtime بر روی دستگاهها اجرا شوند که این امر امکان استفاده از آنها در سناریوهای کمهزینه و با تأخیر کم را فراهم میآورد. مدلهای Phi-4-multimodal و Phi-4-mini هماکنون برای توسعهدهندگان در Azure AI Foundry، Hugging Face و کاتالوگ API NVIDIA در دسترس هستند.