نرم افزار و اینترنت

هر آنچه باید درباره OpenAI Sora بدانید

سرعت توسعه هوش مصنوعی به سمت نقطه ای فراتر از درک انسان پیش می رود و سیستم متن به ویدیو OpenAI Sora تنها آخرین فناوری هوش مصنوعی است که جهان را شوکه می کند و متوجه می شود که همه چیز زودتر از آنچه انتظار داشت اتفاق می افتد.

OpenAI Sora چیست؟

مانند سایر ابزارهای مولد هوش مصنوعی مانند DALL-E و MidJourney و Sora پیام های متنی را از شما می گیرد و آنها را به یک رسانه بصری تبدیل می کند. با این حال، بر خلاف آن دسته از مولدهای تصویر هوش مصنوعی فوق الذکر، Sora یک کلیپ ویدیویی کامل با حرکت، زوایای مختلف دوربین، جهت و هر چیز دیگری که از یک ویدیوی تولید شده به طور سنتی انتظار دارید، ایجاد می کند.

با نگاهی به نمونه‌های موجود در وب‌سایت Sora، نتایج اغلب از ویدیوی واقعی و حرفه‌ای تولید شده قابل تشخیص نیستند. همه چیز، از فیلم های هواپیماهای بدون سرنشین گران قیمت گرفته تا تولید فیلم های چند میلیون دلاری با بازیگران و جلوه‌های ویژه، آثار تولید شده توسط هوش مصنوعی کامل می‌شود. البته Sora اولین فناوری نیست که این کار را انجام می دهد. تا به حال، برجسته ترین رهبر در این زمینه RunwayML بود که خدمات خود را با پرداخت هزینه به عموم ارائه می داد. با این حال، حتی در بهترین شرایط، ویدیوهای Runway بیشتر شبیه به نسل های اولیه تصاویر ثابت MidJourney هستند. هیچ ثباتی در تصویر وجود ندارد، فیزیک منطقی نیست، و طول کلیپ 16 ثانیه است.

در مقابل، Sora بهترین خروجی را از خود نشان داده و کاملاً پایدار بوده و طول کلیپ ها می تواند تا یک دقیقه باشد. کلیپ‌ها کاملاً فاقد صدا هستند، اما سیستم‌های هوش مصنوعی دیگری نیز وجود دارند که می‌توانند موسیقی، جلوه‌های صوتی و گفتار تولید کنند. بنابراین شک نداریم که این ابزارها می توانند در یک جریان کاری Sora یا در بدترین حالت صداگذاری سنتی و کارهای فولی ادغام شوند. نمی توان اغراق کرد که Sora چه جهشی عظیم را از فیلم ویدیویی کابوس وار هوش مصنوعی یک سال قبل از دموی خود نشان می دهد. Sora احتمالاً کل صنعت ویدیو را از سازندگان فیلم‌های استوک تک نفره تا سطح پروژه‌های کلان بودجه دیزنی و مارول تحت تأثیر قرار می‌دهد.

Sora چگونه کار می کند؟

شرکت OpenAI جزئیاتی از نحوه عملکرد درونی این مدل هوش مصنوعی ارائه نکرده است. با این حال، طبق گفته های برخی کارشناسان، Sora بر اساس همان درس هایی ساخته شده که OpenAI هنگام ایجاد فناوری هایی مانند ChatGPT یا DALL-E استفاده کرده است. Sora نحوه آموزش بر روی نمونه ویدیوها را با تقسیم کردن آن ویدیوها به “پچ ها” که مشابه “توکن‌های” مورد استفاده در مدل آموزشی ChatGPT هستند، ابداع می‌کند. از آنجایی که این توکن‌ها همگی اندازه یکسانی دارند، چیزهایی مانند طول کلیپ، نسبت تصویر و اندازه وضوح برای Sora مهم نیستند.

Sora از همان رویکرد ترانسفورماتور گسترده ای استفاده کرده که GPT را به همراه روش انتشاری که مولدهای تصویر هوش مصنوعی به کار گرفته اند، نیرو می دهد. در طول آموزش، به پچ توکن های پر نویز از یک ویدیو نگاه کرده و سعی می کند، پیش بینی کند که توکن تمیز و بدون نویز چگونه خواهد بود. با مقایسه آن با حقیقت اصلی، مدل “زبان” ویدیو را یاد می‌گیرد. به همین دلیل است که نمونه های وب سایت سورا بسیار معتبر به نظر می رسند.

جدای از این توانایی قابل توجه، Sora برای فریم‌های ویدیویی که روی آنها آموزش دیده، شرح‌های بسیار دقیقی نیز دارد، که بخش بزرگی از این است که چرا می‌تواند ویدیوهایی را که تولید می‌کند بر اساس درخواست‌های متنی تغییر دهد. به نظر می‌رسد توانایی Sora برای شبیه‌سازی دقیق فیزیک در ویدیوها یک ویژگی نوظهور است که صرفاً از آموزش روی میلیون‌ها ویدیو که حاوی حرکت بر اساس فیزیک دنیای واقعی هستند، ناشی می‌شود.

چه زمانی Sora را دریافت خواهید کرد؟

در فوریه 2024، OpenAI Sora در اختیار “تیم‌های قرمز” قرار گرفت که وظیفه آنها آزمایش امنیت و پایداری یک محصول است. OpenAI همچنین از تعدادی از هنرمندان بصری، طراحان و سازندگان فیلم دعوت کرده تا قابلیت‌های تولید ویدیو را آزمایش کنند و بازخورد ارائه کنند. OpenAI می‌گوید: “ما پیشرفت تحقیقات خود را زود به اشتراک می‌گذاریم تا کار با افراد خارج از OpenAI را شروع کنیم و از آنها بازخورد دریافت کنیم و به عموم مردم بفهمیم که چه قابلیت‌های هوش مصنوعی در افق وجود دارد.”

به عبارت دیگر، بقیه ما هنوز نمی توانیم از آن استفاده کنیم. در حال حاضر هیچ نشانه ای مبنی بر اینکه چه زمانی ممکن است Sora در دسترس عموم قرار گیرد، یا چقدر باید برای دسترسی به آن بپردازیم، وجود ندارد. می‌توانیم بر اساس آنچه در ChatGPT رخ داده، حدس‌های تقریبی در مورد زمان‌بندی انجام دهیم. قبل از اینکه چت ربات هوش مصنوعی در نوامبر 2022 برای عموم منتشر شود، یک نسخه به نام InstructGPT در اوایل همان سال وجود داشت. همچنین، DevDay شرکت معمولاً هر سال در ماه نوامبر برگزار می شود.

بنابراین، ممکن است که Sora بتواند از الگوی مشابهی پیروی کند و در زمان مشابهی در سال 2024 برای عموم عرضه شود. اما Sora همچنین به قدرت محاسباتی بسیار بیشتری نسبت به تولید یک تصویر واحد با Dall-E نیاز دارد و این فرآیند نیز طولانی‌تر خواهد بود. بنابراین هنوز دقیقاً مشخص نیست که Sora، که در واقع یک مقاله تحقیقاتی است، چقدر می‌تواند به یک محصول مصرفی مقرون‌به‌صرفه تبدیل شود.

منبع
howtogeek
نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا