مایکروسافت از مدل‌های زبانی کوچک Phi-4-multimodal و Phi-4-mini رونمایی کرد

اسفند ۹, ۱۴۰۳

0 زمان مطالعه یک دقیقه

در دسامبر 2024، مایکروسافت مدل زبان کوچک (SLM) به نام Phi-4 را معرفی کرد که در کلاس خود عملکردی پیشرفته و بی‌نظیر دارد. اکنون، مایکروسافت خانواده Phi-4 را با دو مدل جدید Phi-4-multimodal و Phi-4-mini گسترش می‌دهد. مدل جدید Phi-4-multimodal به طور همزمان از گفتار، بینایی و متن پشتیبانی می‌کند، در حالی که Phi-4-mini بر روی وظایف مبتنی بر متن تمرکز دارد.

Phi-4-multimodal یک مدل با 5.6 میلیارد پارامتر است و همچنین نخستین مدل زبان چندرسانه‌ای مایکروسافت به شمار می‌رود که پردازش گفتار، بینایی و متن را در یک معماری یکپارچه ادغام می‌کند. در مقایسه با سایر مدل‌های پیشرفته موجود، از جمله Gemini 2.0 Flash و Gemini 2.0 Flash Lite گوگل، Phi-4-multimodal در چندین معیار عملکرد بهتری را ارائه می‌دهد، همان‌طور که در جدول زیر مشاهده می‌شود.

در وظایف مرتبط با گفتار، مدل Phi-4-multimodal در مقایسه با مدل‌های تخصصی گفتار مانند WhisperV3 و SeamlessM4T-v2-Large در زمینه‌های شناسایی گفتار خودکار (ASR) و ترجمه گفتار (ST) عملکرد بهتری از خود نشان می‌دهد. مایکروسافت اعلام کرده است که این مدل با نرخ خطای کلمه‌ای قابل توجه 6.14 درصد در صدر جدول رده‌بندی OpenASR در Hugging Face قرار دارد.

در وظایف مرتبط با بینایی، مدل Phi-4-multimodal عملکرد قوی‌ای در استدلال‌های ریاضی و علمی از خود نشان داده است. در قابلیت‌های چندرسانه‌ای رایج، مانند درک اسناد و نمودارها، OCR و استدلال علمی بصری، این مدل جدید با مدل‌های محبوبی مانند Gemini-2-Flash-lite-preview و Claude-3.5-Sonnet هم‌سطح یا حتی بهتر عمل می‌کند.

مدل Phi-4-mini با 3.8 میلیارد پارامتر، در وظایف مبتنی بر متن، از جمله استدلال، ریاضی، برنامه‌نویسی، پیروی از دستورالعمل‌ها و فراخوانی توابع، عملکرد بهتری نسبت به چندین مدل بزرگ‌تر و محبوب LLM دارد. برای تضمین امنیت و ایمنی این مدل‌های جدید، مایکروسافت آزمایش‌هایی را با همکاری کارشناسان امنیت داخلی و خارجی انجام داد و از استراتژی‌های طراحی شده توسط تیم قرمز هوش مصنوعی مایکروسافت (AIRT) بهره برد.

مدل‌های Phi-4-mini و Phi-4-multimodal می‌توانند با بهینه‌سازی بیشتر با استفاده از ONNX Runtime بر روی دستگاه‌ها اجرا شوند که این امر امکان استفاده از آن‌ها در سناریوهای کم‌هزینه و با تأخیر کم را فراهم می‌آورد. مدل‌های Phi-4-multimodal و Phi-4-mini هم‌اکنون برای توسعه‌دهندگان در Azure AI Foundry، Hugging Face و کاتالوگ API NVIDIA در دسترس هستند.

اسفند ۹, ۱۴۰۳

0 زمان مطالعه یک دقیقه

نمایش بیشتر

مایکروسافت از مدل‌های زبانی کوچک Phi-4-multimodal و Phi-4-mini رونمایی کرد

دیدگاهتان را بنویسید لغو پاسخ

سامسونگ پشتیبانی از +HDR10 را برای نتفلیکس به تلویزیون‌ها و مانیتورهای 2025 می افزاید

سامسونگ از ماشین لباسشویی درب از بالا با توانایی هوش مصنوعی رونمایی کرد

مدیاتک از تراشه Kompanio Utlra 910 رونمایی کرد

گوگل سرانجام قابلیت جستجوی وب را به ابزار NotebookLM اضافه کرد

5 اپلیکیشن خوب برای استفاده همزمان از چت بات های هوش مصنوعی

ویلتروکس لنز جدید AF 50mm F2.0 Air را معرفی کرد

سامسونگ پشتیبانی از +HDR10 را برای نتفلیکس به تلویزیون‌ها و مانیتورهای 2025 می افزاید

سامسونگ از ماشین لباسشویی درب از بالا با توانایی هوش مصنوعی رونمایی کرد

سامسونگ اولین اسپیکر Music Frame را برای همگام کردن با Frame TV معرفی کرد

موتورولا موتو اج X30 و اج S30 رونمایی شدند

نوشته های مشابه

گوگل سرانجام قابلیت جستجوی وب را به ابزار NotebookLM اضافه کرد

5 اپلیکیشن خوب برای استفاده همزمان از چت بات های هوش مصنوعی

ویژگی تولید تصویر ChatGPT رایگان در دسترس کاربران قرار گرفت

معرفی Nova Act: ایجنت هوش مصنوعی آمازون که می‌تواند مرورگر وب را کنترل کند

دیدگاهتان را بنویسید لغو پاسخ

سامسونگ پشتیبانی از +HDR10 را برای نتفلیکس به تلویزیون‌ها و مانیتورهای 2025 می افزاید

سامسونگ از ماشین لباسشویی درب از بالا با توانایی هوش مصنوعی رونمایی کرد

سامسونگ اولین اسپیکر Music Frame را برای همگام کردن با Frame TV معرفی کرد

موتورولا موتو اج X30 و اج S30 رونمایی شدند