
گوگل مدل صوتی Chirp 3، را به پلتفرم Vertex AI افزود
تاکنون تمرکز اصلی در حوزه هوش مصنوعی مولد بر روی رابطهای مبتنی بر متن بوده است که برای تولید محتواهایی نظیر متن، تصاویر و سایر موارد کاربرد دارند. اما به نظر میرسد موج جدید در این حوزه مربوط به صدا باشد که با سرعتی چشمگیر در حال گسترش است.
در تازهترین پیشرفتها، گوگل اعلام کرده که از هفته آینده Chirp 3، رابط صوتی HD این شرکت، به پلتفرم توسعه Vertex AI اضافه خواهد شد. هفته گذشته، گوگل به طور بیسروصدا خبر داد که Chirp 3 شامل 8 صدای جدید برای 31 زبان خواهد بود. موارد کاربرد این پلتفرم شامل توسعه دستیارهای صوتی، تولید کتابهای صوتی، ایجاد ایجنت های پشتیبانی و صداگذاری برای ویدیوها است.
این خبر در رویدادی که در دفاتر DeepMind گوگل در لندن برگزار شد، منتشر شده است. این خبر، Chirp 3 را در کنار نسخههای جدید پرچمدار مدل زبانی گوگل، Gemini، که در حال آزمایش است، و مدل تولید تصویر Imagen و ابزار تولید ویدیوی گرانقیمت Veo 2، به عنوان بخشی از پلتفرم خود قرار میدهد.
بحثهایی وجود دارد درباره اینکه آیا Chirp 3 میتواند صداهای بهاصطلاح “واقعگرایانه” و “انسانی” را مانند برخی دیگر از پروژههای هوش مصنوعی تولید کند یا خیر. با این حال، همانطور که Demis Hassabis، مدیرعامل DeepMind، تأکید کرد، پیشرفت در این حوزه یک ماراتن است، نه یک سرعت.
گوگل پلتفرم Vertex AI را در سال 2021 بهمنظور ساخت خدمات یادگیری ماشینی در فضای ابری راهاندازی کرد. این اتفاق پیش از آن بود که علاقه گسترده به هوش مصنوعی، بهویژه هوش مصنوعی مولد، با ظهور خدمات GPT OpenAI شروع شود. از آن زمان، گوگل تلاشهای خود را بر Vertex AI متمرکز کرده تا با شرکتهایی مانند مایکروسافت و آمازون، که ابزارهای هوش مصنوعی مولد برای توسعهدهندگان فراهم میکنند، رقابت کند.
این پلتفرم اکنون علاوه بر توسعه Gemini، امکاناتی مانند طبقهبندی دادهها، آموزش مدلها و استفاده از مدلهای پیشرفته برای تولید را ارائه میدهد. سؤال جالب این است که آیا گوگل باغ دیواری محدود خود را برای مدلهایی فراتر از محصولات داخلی خود گسترش خواهد داد یا خیر. شایان ذکر است که گوگل سالهاست روی خدمات صوتی Chirp کار میکند و از این نام در ابتدا بهعنوان رمز تلاشهای رقابتی خود با سرویس Alexa آمازون استفاده میکرد.