هوش مصنوعی

انتشار خانواده مدل های Phi-3.5 مایکروسافت: عملکرد بهتر نسبت به رقبا

امروز مایکروسافت اعلام کرد که مدل‌های جدید خانواده Phi-3.5 شامل Phi-3.5-vision، Phi-3.5-MoE و Phi-3.5-mini را عرضه کرده است. این مدل‌های سبک وزن که بر پایه داده‌های مصنوعی ساخته شده‌اند، وب‌سایت‌های عمومی را فیلتر کرده و از طول زمینه توکن 128K پشتیبانی می‌کنند. تمامی این مدل‌ها هم اکنون با مجوز MIT در Hugging Face قابل دسترسی هستند.

Phi-3.5-MoE: ترکیبی از پیشرفت کارشناسان

Phi-3.5-MoE، به عنوان نخستین مدل از سری Phi که از تکنولوژی Mixture of Experts (MoE) استفاده می‌کند، برجسته است. این مدل، که دارای 16 x 3.8B MoE و تنها 6.6B پارامتر با دو متخصص فعال است، با بهره‌گیری از 512 واحد H100 بر روی 4.9T توکن آموزش دیده است. تیم تحقیقاتی مایکروسافت این مدل را با هدف بهبود عملکرد آن از پایه طراحی کرده است. در معیارهای استاندارد هوش مصنوعی، Phi-3.5-MoE عملکردی بهتر از Llama-3.1 8B، Gemma-2-9B، و Gemini-1.5-Flash داشته و به رهبر کنونی، GPT-4o-mini، نزدیک است.

Phi-3.5-mini: سبک و قدرتمند

مدل Phi-3.5-mini با 3.8 بیلیون پارامتر، از مدل‌های Llama3.1 8B و Mistral 7B پیشی گرفته و حتی با Mistral NeMo 12B رقابت می‌کند. این مدل با استفاده از 512 واحد H100 روی 3.4 تریلیون توکن آموزش دیده است. با تنها 3.8 بیلیون پارامتر فعال، این مدل در انجام کارهای چندزبانه نسبت به LLM‌هایی با تعداد پارامترهای بیشتر، بسیار رقابتی است. علاوه بر این، Phi-3.5-mini اکنون از طول زمینه‌ای به اندازه 128K پشتیبانی می‌کند، در حالی که رقیب اصلی‌اش، سری Gemma-2، فقط تا 8K را پشتیبانی می‌کند.

Phi-3.5-vision: بهبود درک تصویر چند فریم

Phi-3.5-vision یک مدل با 4.2 میلیارد پارامتر است که با استفاده از 256 پردازنده گرافیکی A100 روی 500 میلیارد توکن آموزش دیده است. این مدل حالا قابلیت درک و استدلال بر روی تصاویر چند فریمی را دارد. عملکرد Phi-3.5-vision در معیارهای MMMU (از 40.2 به 43.0)، MMBench (از 80.5 به 81.9) و TextVQA (از 70.9 به 72.0) بهبود یافته است.

  • Phi-3.5-MoE-instruct
  • Phi-3.5-mini-instruct
  • Phi-3.5-vision-instruct

انتظار می‌رود که مایکروسافت تا پایان امروز اطلاعات بیشتری درباره مدل‌های خانواده Phi-3.5 منتشر کند. نسخه Phi-3.5 از مایکروسافت، پیشرفت‌ هایی در عملکرد و توانایی‌های مدل‌های هوش مصنوعی را به ارمغان می‌آورد. با تاکید بر طراحی سبک‌وزن و درک متنوع، مدل‌های Phi-3.5 می‌توانند در کاربردهای متفاوت هوش مصنوعی، مورد استقبال گسترده‌تری قرار گیرند.

نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا