هوش مصنوعی Deepfake بایت‌دنس ویدیوهای واقعی از یک عکس ایجاد می‌کند

به‌تازگی یک ویدیوی کوتاه منتشر شده است که توسط  هوش مصنوعی  جدید Deepfake از یک عکس ساخته شده و خیلی…
هوش مصنوعی Deepfake بایت‌دنس ویدیوهای واقعی از یک عکس ایجاد می‌کند

به‌تازگی یک ویدیوی کوتاه منتشر شده است که توسط  هوش مصنوعی  جدید Deepfake از یک عکس ساخته شده و خیلی واقعی به نظر می‌رسد. البته این ویدیو به زبان فرانسوی است و بررسی دقیق آن ممکن است شک و تردید ایجاد کند. اما اگر کسی بدون پیش‌زمینه قبلی آن را ببیند، احتمالاً باور خواهد کرد که یک ویدئوی واقعی است، نه محتوایی که به دست هوش مصنوعی ساخته شده باشد.

هوش مصنوعی Deepfake از راه رسید

این ویدیو حاصل فناوری پیشرفته‌ای است که توسط شرکت چینی ایت‌دنس (مالک تیک‌ تاک) توسعه یافته است. سیستم هوش مصنوعی OmniHuman-1 می‌تواند تنها با داشتن یک تصویر و یک فایل صوتی، چهره‌ی یک فرد را به‌صورت کاملاً واقع‌گرایانه اما جعلی بازسازی کند.

OmniHuman-1 در حال حاضر فقط در قالب یک مقاله تحقیقاتی معرفی شده، اما نمونه‌های ارائه‌شده توسط بایت‌دنس نشان می‌دهند که این مدل از نظر کیفیت و واقع‌گرایی، فراتر از بسیاری از ابزارهای دیپ‌فیک موجود رفته است. برخلاف فناوری‌های مشابه که به دلیل جلوه‌های غیرطبیعی، حس «دره‌ی وهمی» را ایجاد می‌کنند، این مدل با بهبودهای چشمگیر، تصاویری طبیعی‌تر و باورپذیرتر ارائه می‌دهد.

بر اساس گزارش تک‌کرانچ، مدل OmniHuman-1 با بهره‌گیری از 19 هزار ساعت محتوای ویدئویی از منابعی نامشخص آموزش دیده است. این حجم عظیم داده‌ها احتمالاً شامل هر ویدئویی است که بایت‌دنس توانسته در فضای اینترنت و سایر پلتفرم‌ها جمع‌آوری کند. این هوش مصنوعی نه‌تنها قابلیت ویرایش ویدئوهای موجود را دارد، بلکه می‌تواند حرکات بدن افراد را نیز تغییر دهد. خروجی‌های این مدل آن‌قدر واقعی و دقیق هستند که تک‌کرانچ آن را «خیره‌کننده» توصیف کرده است.

در نمونه‌های به نمایش درآمده از OmniHuman-1، زنی که در یک سخنرانی ساختگی TED Talk صحبت می‌کند، به طرز شگفت‌انگیزی طبیعی و واقعی به نظر می‌رسد. در همین حال، نسخه‌ای از آلبرت اینشتین که با استفاده از هوش مصنوعی بازسازی شده، در برابر یک تخته‌سیاه مشغول سخنرانی علمی است.

پژوهشگران ByteDance درباره‌ی این فناوری می‌گویند:

ما چارچوبی پیشرفته برای تولید ویدئوهای واقع‌گرایانه از انسان‌ها توسعه داده‌ایم که OmniHuman نام دارد. این سیستم تنها با استفاده از یک تصویر از فرد و ترکیب سیگنال‌های حرکتی مانند صدا، ویدئو یا هر دوی آن‌ها، می‌تواند ویدئوهای پویایی از افراد ایجاد کند. در OmniHuman، ما یک استراتژی نوآورانه در آموزش ترکیبی را معرفی کرده‌ایم که مبتنی بر شرط‌بندی چندوجهی است. این روش به مدل اجازه می‌دهد تا از مقیاس گسترده داده‌های ترکیبی بهره ببرد و بر چالش کمبود داده‌های باکیفیت، که روش‌های سنتی یادگیری مقصدبه‌مقصد با آن دست‌وپنجه نرم می‌کردند، غلبه کند. OmniHuman نه‌تنها عملکردی فراتر از مدل‌های قبلی ارائه می‌دهد، بلکه قادر است تنها با دریافت سیگنال‌های ورودی ضعیف، به‌ویژه صوت، ویدئوهایی با جلوه‌های انسانی بسیار واقعی ایجاد کند. این مدل از تصاویر در هر نسبت ابعادی، از پرتره گرفته تا نیم‌تنه و تمام‌قد، پشتیبانی می‌کند و در موقعیت‌های مختلف خروجی‌هایی با وضوح بالا و کیفیت طبیعی ارائه می‌دهد.

کاربران OmniHuman-1 می‌توانند با ارائه تصاویر مرجع باکیفیت و وضوح بالا، به نتایج دقیق‌تر و طبیعی‌تری دست یابند. حتی مجموعه‌ای از ویدیوهای نمونه نیز منتشر شده است که نشان می‌دهد شخصیت‌های جعلی دیپ‌فیک هنگام صحبت، از حرکات دست استفاده می‌کنند.

با این حال، پیشرفت فناوری دیپ‌فیک نگرانی‌های جدی در دنیای واقعی ایجاد کرده است. افراد سودجو از ویدئوهای جعلی مبتنی بر هوش مصنوعی برای تأثیرگذاری بر افکار عمومی، به‌ویژه در انتخابات، سوءاستفاده می‌کنند؛ از انتشار حمایت‌های جعلی گرفته تا خدشه‌دار کردن اعتبار رقبای سیاسی.

به‌عنوان نمونه، در ماه فوریه، یک کارمند بخش مالی در جلسه‌ای مجازی با فردی که از طریق دیپ‌فیک جعل هویت کرده بود، فریب خورد و مبلغ 200 میلیون دلار هنگ‌کنگ (معادل 25.6 میلیون دلار) را به کلاهبرداران منتقل کرد.

منبع خبر