مدل هوش مصنوعی جدید تولید ویدئوی Sora 2 توسط شرکت OpenAI معرفی شد

شرکت OpenAI امروز عرضه مدل جدید هوش مصنوعی تولید ویدئوی Sora 2 را تایید کرد. این مدل قادر به ایجاد…

شرکت OpenAI امروز عرضه مدل جدید هوش مصنوعی تولید ویدئوی Sora 2 را تایید کرد. این مدل قادر به ایجاد هوشمند صدا و الصاق آن به ویدئوی تولید شده است.

شرکت OpenAI همزمان با رونمایی از مدل جدید تولید ویدئوی هوشمند خود، از یک اپلیکیشن مخصوص iOS نیز رونمایی کرد که تنها Sora نام گرفته است. این برنامه به کاربران امکان ایجاد و تدوین ویدئوهای تولید شده توسط هوش مصنوعی را با تصاویر خود یا دوستانشان می‌دهد. این ویژگی جدید که Cameo نام گرفته به گفته این شرکت با تمهیدات امنیتی محافظت می‌شود تا سواستفاده‌گران امکان تولید ویدئوهای تقلبی از افراد شناخته شده یا دارای حق کپی را پیدا نکنند.

مدل هوش مصنوعی تولید ویدئوی Sora 2 آغاز فصل جدیدی برای OpenAI خواهد بود

علاوه بر این، شرکت اعلام کرده که رابط برنامه‌نویسی (API) برای مدل Sora 2 در دست توسعه است. قابلیتی که به توسعه‌دهندگان شخص ثالث اجازه می‌دهد این مدل جدید را در اپلیکیشن‌های ویرایش ویدیو خود ادغام کرده، امکانات حرفه‌ای‌تر و دقیق‌تری را فعال کنند و به‌طور کلی مرزهای تولید ویدیو با هوش مصنوعی را به سمت مسیرهای نوین سوق دهند.

مدل هوش مصنوعی تولید ویدئوی Sora 2 آغاز فصل جدیدی برای OpenAI خواهد بود

همچنین OpenAI تأیید کرده که اپلیکیشن موبایل اندرویدی Sora نیز در حال توسعه است.

کاربران ChatGPT در ایالات متحده و کانادا نخستین کسانی خواهند بود که به مدل جدید و اپلیکیشن آن دسترسی پیدا می‌کنند. با این حال، OpenAI اعلام کرده که قصد دارد طی روزها و هفته‌های آینده این دسترسی را به سایر کشورها نیز گسترش دهد. مدل Sora 2 به‌صورت رایگان و با محدودیت‌های مصرفی برای همه کاربران در دسترس است، در حالی که مشترکان ChatGPT Pro به نسخه باکیفیت‌تر Sora 2 Pro دسترسی خواهند داشت. کاربران ChatGPT Plus مزیتی فراتر از نسخه رایگان دریافت نمی‌کنند.

این رونمایی طی یک پخش زنده در یوتیوب انجام شد که توسط پژوهشگران تیم Sora در OpenAI شامل بیل پیبلز، روهان ساهای و توماس دیمسون میزبانی شد. آن‌ها در این برنامه قابلیت‌های مدل، ویژگی Cameo و نقشه راه ابزارهای آینده را برای مخاطبان تشریح کردند.

گامی رو به جلو در تولید ویدئو با هوش مصنوعی

شاید اکنون به‌سختی بتوان آن را به یاد آورد، اما OpenAI در اوایل سال 2024 با نمایش اولیه مدل ویدیویی Sora، جهان را با واقع‌گرایی خیره‌کننده‌اش شگفت‌زده کرد. با این حال، عرضه عمومی آن به‌صورت تدریجی و محدود به تعداد اندکی از شرکای خلاق انجام شد تا سرانجام در دسامبر 2024 در دسترس عموم قرار گرفت.

تا آن زمان، فضای تولید ویدیوی مبتنی بر هوش مصنوعی به‌طور قابل‌توجهی پیشرفت کرده بود و در ماه‌های بعد نیز با سرعت بیشتری توسعه یافت. استارتاپ‌هایی مانند Runway و Luma و Kling و Higgsfield و دیگر رقبا مدل‌های ویدیویی فوتورئالیستی جدیدی معرفی کردند که بسیاری از آن‌ها از کیفیت بالاتر و قابلیت تولید صوت داخلی برخوردار بودند. ویژگی‌هایی که مدل اولیه Sora فاقد آن بود، تا امروز.

OpenAI از نسخه اولیه Sora به‌عنوان لحظه GPT-1 در حوزه ویدیو یاد می‌کند؛ نقطه‌ای که تولید ویدیو با هوش مصنوعی برای نخستین بار نشانه‌هایی از واقع‌گرایی را نشان داد.

در مقابل، Sora 2 به‌عنوان «لحظه GPT-3.5» توصیف شده است؛ نقطه‌ای که با فیزیک پیشرفته‌تر، واقع‌گرایی بیشتر و قابلیت کنترل دقیق‌تر همراه است.

این مدل قادر است حرکات پیچیده‌ای مانند اجرای ژیمناستیک یا حرکات نمایشی با پدل‌بورد را با رعایت قوانین فیزیکی مانند شتاب و شناوری شبیه‌سازی کند.

برخلاف سیستم‌های قبلی که ممکن بود توپ بسکتبال را به‌صورت ناگهانی داخل حلقه «تلپورت» کنند، Sora 2 واکنش طبیعی توپ در صورت خطا را به‌صورت واقع‌گرایانه نمایش می‌دهد. همچنین هماهنگی گفت‌وگوها، صدای پس‌زمینه و افکت‌های صوتی را به‌گونه‌ای انجام می‌دهد که تجربه‌ای منسجم از تصویر و صدا در سبک‌های مختلف، از فوتورئالیستی تا انیمه، ارائه شود.

یکی از ویژگی‌های برجسته هوش مصنوعی Sora 2 قابلیت «Cameos» است؛ امکانی که به کاربران اجازه می‌دهد پس از یک ضبط کوتاه اولیه برای ثبت چهره و صدا، خود یا دوستانشان را در صحنه‌های تولیدشده وارد کنند.

ارائه‌دهندگان در جریان پخش زنده تأکید کردند که استفاده از قابلیت Cameo کاملاً اختیاری است، با چالش‌های تأیید هویت برای جلوگیری از جعل شخصیت محافظت می‌شود و در هر زمان قابل لغو خواهد بود. در یکی از نمونه‌های ویدیویی Cameo، یکی از پژوهشگران OpenAI در حال تعامل با موجود افسانه‌ای Bigfoot دیده می‌شود.

اپلیکیشن Sora

اپلیکیشن جدید Sora به‌عنوان دروازه اصلی دسترسی به مدل ویدیویی OpenAI معرفی شده است. این اپ به کاربران امکان ساخت و بازسازی ویدیوها، مرور فید شخصی‌سازی‌شده و همکاری اجتماعی را می‌دهد. کاربران می‌توانند با استفاده از قابلیت Cameo خود را وارد ویدیوهای دیگران کنند، آثار ترند را با سبک و دیدگاه خود بازآفرینی کنند و از طریق دستورهای متنی، سبک و لحن محتوا را هدایت کنند.

در مرحله نخست، اپلیکیشن به‌صورت دعوت‌محور عرضه شده تا کاربران بتوانند همراه با دوستان خود به آن بپیوندند. به گفته OpenAI، طراحی فید این اپ با شبکه‌های اجتماعی رایج تفاوت دارد.

به‌جای تمرکز بر افزایش زمان اسکرول، Sora بر کشف ویدیوهایی تأکید دارد که احتمالاً الهام‌بخش خلق محتوا هستند. اولویت نمایش محتوا با افرادی است که کاربر آن‌ها را دنبال می‌کند یا با آن‌ها تعامل دارد، و شخصی‌سازی فید نیز از طریق دستورهای زبان طبیعی قابل تنظیم است.

نسخه iOS اپلیکیشن Sora به‌صورت رایگان عرضه شده و محدودیت‌های مصرفی آن وابسته به ظرفیت پردازشی است. در آینده، OpenAI قصد دارد پلن‌های پولی اختیاری برای تولید ویدیوهای بیشتر در زمان‌های پرترافیک ارائه دهد.

مشترکان ChatGPT Pro نیز به نسخه باکیفیت‌تر «Sora 2 Pro» از طریق وب‌سایت sora.com و در آینده از طریق اپلیکیشن دسترسی خواهند داشت. نسخه اندرویدی این اپ نیز در دست توسعه است.

منبع خبر