هوش مصنوعی گفتاری متن باز متا بیش از 4000 زبان گفتاری را تشخیص می دهد
متا یک مدل زبان هوش مصنوعی ایجاد کرده که (در یک تغییر سرعت تازه) یک کلون ChatGPT نیست. پروژه گفتار انبوه چند زبانه (MMS) این شرکت می تواند بیش از 4000 زبان گفتاری را تشخیص دهد و گفتار (متن به گفتار) را در بیش از 1100 تولید کند. مانند بسیاری از دیگر پروژههای هوش مصنوعی اعلامشده عمومی، متا امروز از MMS منبع باز استفاده میکند تا به حفظ تنوع زبانی کمک کند و محققان را تشویق کند تا بر اساس آن کار کنند.
این شرکت نوشت: “امروز، ما مدلها و کدهای خود را به صورت عمومی به اشتراک میگذاریم تا دیگران در جامعه تحقیقاتی بتوانند بر اساس کار ما کار کنند. ما امیدواریم از طریق این کار کمک کوچکی برای حفظ تنوع زبانی باورنکردنی در جهان داشته باشیم.” تشخیص گفتار و مدلهای تبدیل متن به گفتار معمولاً به آموزش هزاران ساعت صدا با برچسبهای رونویسی همراه نیاز دارند.
متا از یک رویکرد غیر متعارف برای جمع آوری داده های صوتی استفاده کرد: بهره برداری از ضبط های صوتی متون مذهبی ترجمه شده. این شرکت گفت: “ما به متون مذهبی، که به زبانهای مختلف ترجمه شدهاند و ترجمههای آنها بهطور گسترده برای تحقیق ترجمه زبان مبتنی بر متن مورد مطالعه قرار گرفتهاند، روی آوردیم”. این ترجمهها دارای ضبطهای صوتی در دسترس عموم از افرادی است که این متون را به زبانهای مختلف میخوانند. محققان متا با استفاده از ضبطهای بدون برچسب کتاب های مذهبی و متون مشابه، زبانهای موجود این مدل را به بیش از 4000 افزایش دادند.
پس از آموزش یک مدل تراز برای استفاده بیشتر از داده ها، متا از wav2vec 2.0، مدل “یادگیری بازنمایی گفتار خود نظارت” شرکت استفاده کرد، که می تواند بر روی داده های بدون برچسب آموزش دهد. ترکیب منابع داده های نامتعارف و یک مدل گفتاری خود نظارتی منجر به نتایج چشمگیر شد. نتایج ها نشان میدهد که مدلهای گفتار بسیار چندزبانه در مقایسه با مدلهای موجود عملکرد خوبی دارند و 10 برابر بیشتر زبانها را پوشش میدهند. به طور خاص، متا MMS را با Whisper OpenAI مقایسه کرد و فراتر از انتظارات بود.
متا هشدار می دهد که مدل های جدید آن بی نقص نیستند. این شرکت نوشت: “برای مثال، این خطر وجود دارد که مدل گفتار به نوشتار ممکن است کلمات یا عبارات انتخابی را اشتباه تعبیر کند. بسته به خروجی، این می تواند به زبان توهین آمیز و/یا نادرست منجر شود. ما همچنان معتقدیم که همکاری در سراسر جامعه هوش مصنوعی برای توسعه مسئولانه فناوریهای هوش مصنوعی حیاتی است.” اکنون که متا MMS را برای تحقیقات منبع باز منتشر کرده، امیدوار است بتواند روند رو به کاهش فناوری را به 100 زبان یا کمتر که اغلب توسط Big Tech پشتیبانی می شود، معکوس کند.