هر آنچه باید درباره OpenAI Sora بدانید
سرعت توسعه هوش مصنوعی به سمت نقطه ای فراتر از درک انسان پیش می رود و سیستم متن به ویدیو OpenAI Sora تنها آخرین فناوری هوش مصنوعی است که جهان را شوکه می کند و متوجه می شود که همه چیز زودتر از آنچه انتظار داشت اتفاق می افتد.
OpenAI Sora چیست؟
مانند سایر ابزارهای مولد هوش مصنوعی مانند DALL-E و MidJourney و Sora پیام های متنی را از شما می گیرد و آنها را به یک رسانه بصری تبدیل می کند. با این حال، بر خلاف آن دسته از مولدهای تصویر هوش مصنوعی فوق الذکر، Sora یک کلیپ ویدیویی کامل با حرکت، زوایای مختلف دوربین، جهت و هر چیز دیگری که از یک ویدیوی تولید شده به طور سنتی انتظار دارید، ایجاد می کند.
با نگاهی به نمونههای موجود در وبسایت Sora، نتایج اغلب از ویدیوی واقعی و حرفهای تولید شده قابل تشخیص نیستند. همه چیز، از فیلم های هواپیماهای بدون سرنشین گران قیمت گرفته تا تولید فیلم های چند میلیون دلاری با بازیگران و جلوههای ویژه، آثار تولید شده توسط هوش مصنوعی کامل میشود. البته Sora اولین فناوری نیست که این کار را انجام می دهد. تا به حال، برجسته ترین رهبر در این زمینه RunwayML بود که خدمات خود را با پرداخت هزینه به عموم ارائه می داد. با این حال، حتی در بهترین شرایط، ویدیوهای Runway بیشتر شبیه به نسل های اولیه تصاویر ثابت MidJourney هستند. هیچ ثباتی در تصویر وجود ندارد، فیزیک منطقی نیست، و طول کلیپ 16 ثانیه است.
در مقابل، Sora بهترین خروجی را از خود نشان داده و کاملاً پایدار بوده و طول کلیپ ها می تواند تا یک دقیقه باشد. کلیپها کاملاً فاقد صدا هستند، اما سیستمهای هوش مصنوعی دیگری نیز وجود دارند که میتوانند موسیقی، جلوههای صوتی و گفتار تولید کنند. بنابراین شک نداریم که این ابزارها می توانند در یک جریان کاری Sora یا در بدترین حالت صداگذاری سنتی و کارهای فولی ادغام شوند. نمی توان اغراق کرد که Sora چه جهشی عظیم را از فیلم ویدیویی کابوس وار هوش مصنوعی یک سال قبل از دموی خود نشان می دهد. Sora احتمالاً کل صنعت ویدیو را از سازندگان فیلمهای استوک تک نفره تا سطح پروژههای کلان بودجه دیزنی و مارول تحت تأثیر قرار میدهد.
Sora چگونه کار می کند؟
شرکت OpenAI جزئیاتی از نحوه عملکرد درونی این مدل هوش مصنوعی ارائه نکرده است. با این حال، طبق گفته های برخی کارشناسان، Sora بر اساس همان درس هایی ساخته شده که OpenAI هنگام ایجاد فناوری هایی مانند ChatGPT یا DALL-E استفاده کرده است. Sora نحوه آموزش بر روی نمونه ویدیوها را با تقسیم کردن آن ویدیوها به “پچ ها” که مشابه “توکنهای” مورد استفاده در مدل آموزشی ChatGPT هستند، ابداع میکند. از آنجایی که این توکنها همگی اندازه یکسانی دارند، چیزهایی مانند طول کلیپ، نسبت تصویر و اندازه وضوح برای Sora مهم نیستند.
Sora از همان رویکرد ترانسفورماتور گسترده ای استفاده کرده که GPT را به همراه روش انتشاری که مولدهای تصویر هوش مصنوعی به کار گرفته اند، نیرو می دهد. در طول آموزش، به پچ توکن های پر نویز از یک ویدیو نگاه کرده و سعی می کند، پیش بینی کند که توکن تمیز و بدون نویز چگونه خواهد بود. با مقایسه آن با حقیقت اصلی، مدل “زبان” ویدیو را یاد میگیرد. به همین دلیل است که نمونه های وب سایت سورا بسیار معتبر به نظر می رسند.
جدای از این توانایی قابل توجه، Sora برای فریمهای ویدیویی که روی آنها آموزش دیده، شرحهای بسیار دقیقی نیز دارد، که بخش بزرگی از این است که چرا میتواند ویدیوهایی را که تولید میکند بر اساس درخواستهای متنی تغییر دهد. به نظر میرسد توانایی Sora برای شبیهسازی دقیق فیزیک در ویدیوها یک ویژگی نوظهور است که صرفاً از آموزش روی میلیونها ویدیو که حاوی حرکت بر اساس فیزیک دنیای واقعی هستند، ناشی میشود.
چه زمانی Sora را دریافت خواهید کرد؟
در فوریه 2024، OpenAI Sora در اختیار “تیمهای قرمز” قرار گرفت که وظیفه آنها آزمایش امنیت و پایداری یک محصول است. OpenAI همچنین از تعدادی از هنرمندان بصری، طراحان و سازندگان فیلم دعوت کرده تا قابلیتهای تولید ویدیو را آزمایش کنند و بازخورد ارائه کنند. OpenAI میگوید: “ما پیشرفت تحقیقات خود را زود به اشتراک میگذاریم تا کار با افراد خارج از OpenAI را شروع کنیم و از آنها بازخورد دریافت کنیم و به عموم مردم بفهمیم که چه قابلیتهای هوش مصنوعی در افق وجود دارد.”
به عبارت دیگر، بقیه ما هنوز نمی توانیم از آن استفاده کنیم. در حال حاضر هیچ نشانه ای مبنی بر اینکه چه زمانی ممکن است Sora در دسترس عموم قرار گیرد، یا چقدر باید برای دسترسی به آن بپردازیم، وجود ندارد. میتوانیم بر اساس آنچه در ChatGPT رخ داده، حدسهای تقریبی در مورد زمانبندی انجام دهیم. قبل از اینکه چت ربات هوش مصنوعی در نوامبر 2022 برای عموم منتشر شود، یک نسخه به نام InstructGPT در اوایل همان سال وجود داشت. همچنین، DevDay شرکت معمولاً هر سال در ماه نوامبر برگزار می شود.
بنابراین، ممکن است که Sora بتواند از الگوی مشابهی پیروی کند و در زمان مشابهی در سال 2024 برای عموم عرضه شود. اما Sora همچنین به قدرت محاسباتی بسیار بیشتری نسبت به تولید یک تصویر واحد با Dall-E نیاز دارد و این فرآیند نیز طولانیتر خواهد بود. بنابراین هنوز دقیقاً مشخص نیست که Sora، که در واقع یک مقاله تحقیقاتی است، چقدر میتواند به یک محصول مصرفی مقرونبهصرفه تبدیل شود.