- 2025-02-06
- 3 بازدید
- 0 دیدگاه
- هوش مصنوعی
هوش مصنوعی Deepfake بایتدنس ویدیوهای واقعی از یک عکس ایجاد میکند
بهتازگی یک ویدیوی کوتاه منتشر شده است که توسط هوش مصنوعی جدید Deepfake از یک عکس ساخته شده و خیلی واقعی به نظر میرسد. البته این ویدیو به زبان فرانسوی است و بررسی دقیق آن ممکن است شک و تردید ایجاد کند. اما اگر کسی بدون پیشزمینه قبلی آن را ببیند، احتمالاً باور خواهد کرد که یک ویدئوی واقعی است، نه محتوایی که به دست هوش مصنوعی ساخته شده باشد.
هوش مصنوعی Deepfake از راه رسید
این ویدیو حاصل فناوری پیشرفتهای است که توسط شرکت چینی ایتدنس (مالک تیک تاک) توسعه یافته است. سیستم هوش مصنوعی OmniHuman-1 میتواند تنها با داشتن یک تصویر و یک فایل صوتی، چهرهی یک فرد را بهصورت کاملاً واقعگرایانه اما جعلی بازسازی کند.
OmniHuman-1 در حال حاضر فقط در قالب یک مقاله تحقیقاتی معرفی شده، اما نمونههای ارائهشده توسط بایتدنس نشان میدهند که این مدل از نظر کیفیت و واقعگرایی، فراتر از بسیاری از ابزارهای دیپفیک موجود رفته است. برخلاف فناوریهای مشابه که به دلیل جلوههای غیرطبیعی، حس «درهی وهمی» را ایجاد میکنند، این مدل با بهبودهای چشمگیر، تصاویری طبیعیتر و باورپذیرتر ارائه میدهد.
بر اساس گزارش تککرانچ، مدل OmniHuman-1 با بهرهگیری از 19 هزار ساعت محتوای ویدئویی از منابعی نامشخص آموزش دیده است. این حجم عظیم دادهها احتمالاً شامل هر ویدئویی است که بایتدنس توانسته در فضای اینترنت و سایر پلتفرمها جمعآوری کند. این هوش مصنوعی نهتنها قابلیت ویرایش ویدئوهای موجود را دارد، بلکه میتواند حرکات بدن افراد را نیز تغییر دهد. خروجیهای این مدل آنقدر واقعی و دقیق هستند که تککرانچ آن را «خیرهکننده» توصیف کرده است.
در نمونههای به نمایش درآمده از OmniHuman-1، زنی که در یک سخنرانی ساختگی TED Talk صحبت میکند، به طرز شگفتانگیزی طبیعی و واقعی به نظر میرسد. در همین حال، نسخهای از آلبرت اینشتین که با استفاده از هوش مصنوعی بازسازی شده، در برابر یک تختهسیاه مشغول سخنرانی علمی است.
پژوهشگران ByteDance دربارهی این فناوری میگویند:
ما چارچوبی پیشرفته برای تولید ویدئوهای واقعگرایانه از انسانها توسعه دادهایم که OmniHuman نام دارد. این سیستم تنها با استفاده از یک تصویر از فرد و ترکیب سیگنالهای حرکتی مانند صدا، ویدئو یا هر دوی آنها، میتواند ویدئوهای پویایی از افراد ایجاد کند. در OmniHuman، ما یک استراتژی نوآورانه در آموزش ترکیبی را معرفی کردهایم که مبتنی بر شرطبندی چندوجهی است. این روش به مدل اجازه میدهد تا از مقیاس گسترده دادههای ترکیبی بهره ببرد و بر چالش کمبود دادههای باکیفیت، که روشهای سنتی یادگیری مقصدبهمقصد با آن دستوپنجه نرم میکردند، غلبه کند. OmniHuman نهتنها عملکردی فراتر از مدلهای قبلی ارائه میدهد، بلکه قادر است تنها با دریافت سیگنالهای ورودی ضعیف، بهویژه صوت، ویدئوهایی با جلوههای انسانی بسیار واقعی ایجاد کند. این مدل از تصاویر در هر نسبت ابعادی، از پرتره گرفته تا نیمتنه و تمامقد، پشتیبانی میکند و در موقعیتهای مختلف خروجیهایی با وضوح بالا و کیفیت طبیعی ارائه میدهد.
کاربران OmniHuman-1 میتوانند با ارائه تصاویر مرجع باکیفیت و وضوح بالا، به نتایج دقیقتر و طبیعیتری دست یابند. حتی مجموعهای از ویدیوهای نمونه نیز منتشر شده است که نشان میدهد شخصیتهای جعلی دیپفیک هنگام صحبت، از حرکات دست استفاده میکنند.
با این حال، پیشرفت فناوری دیپفیک نگرانیهای جدی در دنیای واقعی ایجاد کرده است. افراد سودجو از ویدئوهای جعلی مبتنی بر هوش مصنوعی برای تأثیرگذاری بر افکار عمومی، بهویژه در انتخابات، سوءاستفاده میکنند؛ از انتشار حمایتهای جعلی گرفته تا خدشهدار کردن اعتبار رقبای سیاسی.
بهعنوان نمونه، در ماه فوریه، یک کارمند بخش مالی در جلسهای مجازی با فردی که از طریق دیپفیک جعل هویت کرده بود، فریب خورد و مبلغ 200 میلیون دلار هنگکنگ (معادل 25.6 میلیون دلار) را به کلاهبرداران منتقل کرد.
ارسال دیدگاه