مدل هوش مصنوعی جدید گوگل Gemini 2.5 Computer Use معرفی شد

به اشتراک‌گذاری گوگل نسخه پیش‌نمایشی از مدل هوش مصنوعی جدید خود با نام Gemini 2.5…


گوگل جمینای اکنون می‌تواند وظایف زمان‌بندی شده را مدیریت کند


به اشتراک‌گذاری

گوگل نسخه پیش‌نمایشی از مدل هوش مصنوعی جدید خود با نام Gemini 2.5 Computer Use را معرفی کرده که برای ناوبری و تعامل با وب از طریق مرورگر طراحی شده و به عامل‌های هوش مصنوعی اجازه می‌دهد درون رابط‌هایی که مخصوص کاربران انسانی ساخته شده‌اند (نه ربات‌ها) به انجام کار بپردازند.

ویژگی‌های مدل هوش مصنوعی جدید گوگل

به گفته گوگل، این مدل با استفاده از «توانایی درک بصری و استدلالی» درخواست کاربر را تحلیل کرده و وظایفی مانند پر کردن و ارسال فرم‌ها را به صورت خودکار انجام می‌دهد.

این فناوری می‌تواند برای آزمایش رابط‌های کاربری (UI Testing) یا کار در محیط‌هایی به‌کار رود که برای انسان طراحی شده‌اند و فاقد API یا اتصال مستقیم نرم‌افزاری هستند. نسخه‌های پیشین این مدل پیش‌تر در قابلیت‌های عامل‌محور حالت AI Mode و پروژه تحقیقاتی Project Mariner مورد استفاده قرار گرفته بودند؛ پروژه‌ای که به عامل‌های هوش مصنوعی اجازه می‌دهد در محیط مرورگر به‌طور مستقل وظایفی مانند افزودن اقلام به سبد خرید بر اساس فهرست مواد اولیه را انجام دهند.

اعلام این خبر از سوی گوگل تنها یک روز پس از معرفی اپلیکیشن‌های جدید ChatGPT در مراسم سالانه Dev Day توسط شرکت OpenAI صورت گرفته است. گوگل در حالی تمرکز خود را بر توسعه قابلیت‌های عامل‌محور ادامه می‌دهد که OpenAI نیز توجه خود را بر ویژگی ChatGPT Agent معطوف کرده که می‌تواند وظایف پیچیده را به نیابت از کاربر تکمیل کند. از سوی دیگر، شرکت آنتروپیک نیز سال گذشته نسخه‌ای از مدل هوش مصنوعی Claude را همراه با قابلیت “computer use” منتشر کرده بود.

گوگل چند ویدیوی نمایشی از ابزار جدید خود منتشر کرده که عملکرد مدل در استفاده از رایانه را نشان می‌دهند و یادآور شده است که این ویدیوها با سرعت سه برابر نمایش داده می‌شوند. گوگل در بیانیه خود اعلام کرده است «مدل جدید در چندین بنچمارک وب و موبایل عملکردی بهتر از رقبای پیشرو دارد.» برخلاف ابزارهای ChatGPT Agent و مدل computer use آنتروپیک، مدل جدید گوگل تنها به مرورگر دسترسی دارد و نه به کل محیط سیستم‌عامل. گوگل تأکید کرده که این مدل هنوز برای کنترل در سطح سیستم‌عامل دسکتاپ بهینه‌سازی نشده و در حال حاضر از 13 عملکرد پشتیبانی می‌کند، از جمله باز کردن مرورگر وب، تایپ متن و انجام عملیات کشیدن و رها کردن.

مدل Gemini 2.5 Computer Use از طریق Google AI Studio و Vertex AI در دسترس توسعه‌دهندگان قرار دارد. همچنین نسخه نمایشی آن در پلتفرم Browserbase ارائه شده است؛ جایی که کاربران می‌توانند مشاهده کنند این مدل چگونه وظایفی مانند «اجرای بازی 2048» یا «مرور سایت Hacker News برای بحث‌های داغ» را به‌صورت خودکار انجام می‌دهد.



منبع خبر