انتشار خانواده مدل های Phi-3.5 مایکروسافت: عملکرد بهتر نسبت به رقبا
امروز مایکروسافت اعلام کرد که مدلهای جدید خانواده Phi-3.5 شامل Phi-3.5-vision، Phi-3.5-MoE و Phi-3.5-mini را عرضه کرده است. این مدلهای سبک وزن که بر پایه دادههای مصنوعی ساخته شدهاند، وبسایتهای عمومی را فیلتر کرده و از طول زمینه توکن 128K پشتیبانی میکنند. تمامی این مدلها هم اکنون با مجوز MIT در Hugging Face قابل دسترسی هستند.
Phi-3.5-MoE: ترکیبی از پیشرفت کارشناسان
Phi-3.5-MoE، به عنوان نخستین مدل از سری Phi که از تکنولوژی Mixture of Experts (MoE) استفاده میکند، برجسته است. این مدل، که دارای 16 x 3.8B MoE و تنها 6.6B پارامتر با دو متخصص فعال است، با بهرهگیری از 512 واحد H100 بر روی 4.9T توکن آموزش دیده است. تیم تحقیقاتی مایکروسافت این مدل را با هدف بهبود عملکرد آن از پایه طراحی کرده است. در معیارهای استاندارد هوش مصنوعی، Phi-3.5-MoE عملکردی بهتر از Llama-3.1 8B، Gemma-2-9B، و Gemini-1.5-Flash داشته و به رهبر کنونی، GPT-4o-mini، نزدیک است.
Phi-3.5-mini: سبک و قدرتمند
مدل Phi-3.5-mini با 3.8 بیلیون پارامتر، از مدلهای Llama3.1 8B و Mistral 7B پیشی گرفته و حتی با Mistral NeMo 12B رقابت میکند. این مدل با استفاده از 512 واحد H100 روی 3.4 تریلیون توکن آموزش دیده است. با تنها 3.8 بیلیون پارامتر فعال، این مدل در انجام کارهای چندزبانه نسبت به LLMهایی با تعداد پارامترهای بیشتر، بسیار رقابتی است. علاوه بر این، Phi-3.5-mini اکنون از طول زمینهای به اندازه 128K پشتیبانی میکند، در حالی که رقیب اصلیاش، سری Gemma-2، فقط تا 8K را پشتیبانی میکند.
Phi-3.5-vision: بهبود درک تصویر چند فریم
Phi-3.5-vision یک مدل با 4.2 میلیارد پارامتر است که با استفاده از 256 پردازنده گرافیکی A100 روی 500 میلیارد توکن آموزش دیده است. این مدل حالا قابلیت درک و استدلال بر روی تصاویر چند فریمی را دارد. عملکرد Phi-3.5-vision در معیارهای MMMU (از 40.2 به 43.0)، MMBench (از 80.5 به 81.9) و TextVQA (از 70.9 به 72.0) بهبود یافته است.
- Phi-3.5-MoE-instruct
- Phi-3.5-mini-instruct
- Phi-3.5-vision-instruct
انتظار میرود که مایکروسافت تا پایان امروز اطلاعات بیشتری درباره مدلهای خانواده Phi-3.5 منتشر کند. نسخه Phi-3.5 از مایکروسافت، پیشرفت هایی در عملکرد و تواناییهای مدلهای هوش مصنوعی را به ارمغان میآورد. با تاکید بر طراحی سبکوزن و درک متنوع، مدلهای Phi-3.5 میتوانند در کاربردهای متفاوت هوش مصنوعی، مورد استقبال گستردهتری قرار گیرند.