![](https://www.istgahit.net/files/2025/02/1738831084_gpt-4o-audio-preview.jpg)
انتشار مدلهای صوتی GPT-4o Mini از سوی Azure برای هوش مصنوعی گفتار بلادرنگ
مایکروسافت اخیراً از معرفی دو مدل جدید به نامهای GPT-4o-Mini-Realtime-Preview و GPT-4o-Mini-Audio-Preview در سرویس Azure OpenAI خبر داده است. این دو مدل جدید به منظور تغییر شکل تعاملات صوتی و تولید محتوای مبتنی بر هوش مصنوعی طراحی شدهاند. مدل GPT-4o-Mini-Realtime-Preview رویکردی نوآورانه برای تعاملات صوتی در زمان واقعی به ارمغان میآورد.
اکنون توسعهدهندگان قادر خواهند بود تا تجربیات مبتنی بر صدا را برای برنامههای خود ایجاد کنند، (از جمله رباتهای چت خدمات مشتری و دستیاران مجازی). این مدل با قابلیتهای پیشرفته صوتی، تعاملات طبیعی و شهودی را ممکن میسازد و زمان پاسخدهی را کاهش میدهد.
مدل GPT-4o-Mini-Audio-Preview نیز به ارائه تعاملات صوتی با کیفیت بالا به هزینهای کمتر از مدلهای صوتی موجود GPT-4o میپردازد. این مدل اقتصادی به کسبوکارها این امکان را میدهد که قابلیتهای صوتی مبتنی بر هوش مصنوعی را در برنامههای خود به کار ببرند (از تحلیل احساسات گرفته تا ایجاد محتوای متنی به صوتی).
API تکمیل چت با مدل GPT-4o-Audio Preview به گونهای طراحی شده که نحوه تعامل کاربران با هوش مصنوعی را از طریق افزودن عناصر صوتی طبیعی بهبود بخشد و عمق بیشتری به برنامههایی ببخشد که نیاز به درک و تولید پاسخهای پیچیده دارند. آلان کارانزا، مدیر ارشد محصول Azure OpenAI، اعلام کرده که این مدلها با API بلادرنگ و API تکمیل چت موجود ادغام خواهند شد تا تجربه یکپارچهای را در خانواده مدلها در سرویس OpenAI Azure فراهم کنند.
کارانزا همچنین اظهار داشت که کاربردهای این مدلهای جدید در صنایع مختلف گسترش یافته است. رباتهای صوتی و دستیاران مجازی به صورت مؤثرتری قادر به پاسخگویی به سوالات خواهند بود و این امر به افزایش رضایت کلی مشتریان منجر میشود. تولیدکنندگان محتوا میتوانند با استفاده از فناوریهای جدید، فرآیندهای خود را در زمینه تولید صدا برای بازیهای ویدئویی، پادکستها و استودیوهای سینما متحول کنند.
او همچنین اشاره کرد که در حوزههای بهداشت و درمان و خدمات حقوقی، این فناوری امکان ترجمه صوتی در زمان واقعی را فراهم کرده و میتواند موانع زبانی را از میان بردارد. مدلهای GPT-4o مرتبط با APIهای Realtime و Chat Completions هر دو از قابلیتهای صوتی و گفتاری پشتیبانی میکنند و هر کدام ویژگیهای منحصر به فردی را برای تجربههای کاربری مبتنی بر هوش مصنوعی ارائه میدهند. مدلهای جدید GPT-4o-Mini-Realtime-Preview و GPT-4o-Mini-Audio-Preview هماکنون در دسترس عموم در پیشنمایش عمومی Azure AI Foundry قرار دارند.