علی‌بابا هوش مصنوعی Qwen3-Max را با یک تریلیون پارامتر معرفی کرد فارنت

علی‌بابا به‌تازگی مدل هوش مصنوعی جدید Qwen3-Max را معرفی کرده که توجه بسیاری را به خود جلب کرده است. این…

علی‌بابا به‌تازگی مدل هوش مصنوعی جدید Qwen3-Max را معرفی کرده که توجه بسیاری را به خود جلب کرده است. این مدل پیام روشنی به OpenAI، گوگل و آنتروپیک می‌فرستد که «ما هم برای رقابت آماده‌ایم». مدل زبانی بزرگ علی‌بابای چینی از 1 تریلیون پارامتر برخوردار است و با استفاده از 36 تریلیون توکن آموزش دیده است.

ویژگی‌های هوش مصنوعی Qwen3-Max

آنچه بیش از همه نگاه‌ها را به خود معطوف کرده، جهش عظیم در ابعاد این مدل است، چراکه بیش از 1 تریلیون پارامتر دارد و با استفاده از 36 تریلیون توکن آموزش دیده است. این ارقام آن را مستقیماً در کنار مدل‌های GPT-5، جمینای 2.5 پرو و کلود اوپوس 4 قرار می‌دهد. اما نکته مهم اینجاست که این رشد صرفاً برای نمایش قدرت عددی نیست.

Qwen3-Max

علی‌بابا از معماری Mixture-of-Experts (MoE) استفاده کرده است که می‌توان آن را شبیه تیمی بسیار متخصص دانست که تنها در زمان نیاز، اعضای مربوطه وارد عمل می‌شوند. به جای آنکه تمام شبکه عظیم یک تریلیون‌ پارامتری در هر بار اجرا فعال گردد، تنها بخشی از آن فعال می‌شود. این روش بسیار کارآمدتر از صرفاً افزایش توان محاسباتی است.

یکی از دستاوردهای چشمگیر در این روند، پیاده‌سازی مفهومی با عنوان “global-batch load balancing loss” است که ثبات آموزش را تضمین می‌کند. نتیجه این کار آن بود که منحنی کاهش خطا در کل فرآیند آموزش بدون هیچ جهش ناگهانی، بدون نیاز به توقف و آغاز دوباره و بدون جابه‌جایی میان‌دوره‌ای داده‌ها کاملاً یکنواخت باقی ماند. هر کسی که تجربه آموزش مدل‌های عظیم را دارد می‌داند چنین چیزی تا چه اندازه نادر است.

پیشرفت‌های بهره‌وری

در زمینه بهره‌وری نیز دستاوردهای مهمی به ثبت رسیده است. برای شتاب‌بخشیدن به روند آموزش، علی‌بابا راهکار PAI-FlashMoE را توسعه داده که نوعی استراتژی بهینه‌سازی خط لوله موازی چندمرحله‌ای به شمار می‌رود. نتیجه آن دستیابی به 30 درصد بهبود در توان عملیاتی آموزش در مقایسه با Qwen2.5-Max-Base بود. این ارتقا، کوچک نیست و می‌تواند تفاوتی معادل چندین ماه و چندین هفته در زمان آموزش ایجاد کند.

برای پردازش متون بسیار طولانی، رویکردی موسوم به ChunkFlow طراحی شده که بازدهی آن سه برابر سریع‌تر از شیوه‌های سنتی موازی‌سازی توالی است. این فناوری امکان مدیریت پنجره متنی با اندازه 1 میلیون توکن را فراهم می‌کند که آن را هم‌رده با کلود اوپوس 3 و جمینای 1.5 پرو قرار می‌دهد.

از نظر قابلیت اطمینان نیز ابزارهایی با نام SanityCheck و EasyCheckpoint توسعه یافته‌اند که زمان ازکارافتادگی ناشی از خرابی سخت‌افزار را به یک‌پنجم میزان تجربه‌شده در Qwen2.5-Max کاهش داده‌اند. در مقیاس خوشه‌های محاسباتی عظیم، چنین سطحی از مهندسی اعتمادپذیری اهمیت حیاتی دارد.

عملکرد قابل‌توجه Qwen3-Max

نسخه کاربردی این مدل که با نام Qwen3-Max-Instruct عرضه شده، عملکرد تحسین‌برانگیزی از خود نشان داده است. در جدول رتبه‌بندی LMArena توانست جایگاه سوم کلی را به دست آورد و حتی از GPT-5-Chat پیشی بگیرد. در حوزه برنامه‌نویسی واقعی، امتیاز 69.6 در آزمون SWE-Bench Verified را کسب کرد؛ معیاری که توانایی حل مسائل واقعی گیت‌هاب و چالش‌های کدنویسی را می‌سنجد. این امتیاز بالاتر از دیپ‌سیک V3.1 بوده و با کلود اوپوس 4 قابل‌مقایسه است. همچنین در آزمون Tau2-Bench که توانایی استفاده از APIها و ابزارهای خارجی را می‌سنجد، به امتیاز 74.8 دست یافت؛ رقمی که فراتر از کلود اوپوس 4 و دیپ‌سیک V3.1 قرار دارد.

علی‌بابا هوش مصنوعی Qwen3-Max را با یک تریلیون پارامتر برای رقابت با ChatGPT معرفی کردعلی‌بابا هوش مصنوعی Qwen3-Max را با یک تریلیون پارامتر برای رقابت با ChatGPT معرفی کرد

اما نکته شگفت‌آورتر این است که نسخه‌ای دیگر با نام Qwen3-Max-Thinking در حال آموزش است که تمرکز آن بر استدلال و استنتاج است. این مدل در آزمایش‌های اولیه که شامل استفاده از ابزارها و پردازش موازی در مرحله استنتاج بود، موفق شد در دو آزمون بسیار دشوار ریاضی AIME 25 و HMMT امتیاز کامل 100 درصد را کسب کند. این نسخه دارای یک مفسر کد درونی بوده و تمرکز آن بر حل مسائل پیچیده منطقی است.

علی‌بابا هوش مصنوعی Qwen3-Max را با یک تریلیون پارامتر برای رقابت با ChatGPT معرفی کردعلی‌بابا هوش مصنوعی Qwen3-Max را با یک تریلیون پارامتر برای رقابت با ChatGPT معرفی کرد

چندزبانه و چندحالته

اگرچه نسخه عمومی فعلی، بیشتر بر استدلال و کدنویسی متمرکز است، Qwen3-Max توانایی بالایی در پردازش چندزبانه، به‌ویژه در زبان‌های انگلیسی و چینی دارد. پیشرفت‌های چشمگیری در پیروی از دستورالعمل‌ها، استدلال ریاضی، وظایف علمی و کاهش توهمات نسبت به نسخه‌های پیشین مشاهده شده است. این مدل در حوزه‌هایی که برای استفاده واقعی اهمیت دارند ارتقاهای محسوسی یافته است که عبارتند از منطق دقیق‌تر، ریاضیات قابل اعتمادتر، استدلال علمی قوی‌تر و پاسخ‌های پایدارتر.

نحوه دسترسی به هوش مصنوعی Qwen3-Max

کاربران عادی می‌توانند هم‌اکنون از Qwen3-Max-Instruct از طریق اپلیکیشن Qwen (اندروید و iOS) و وب‌سایت رسمی استفاده کنند. برنامه به صورت پیش‌فرض از Qwen3-Max بهره می‌برد، اما امکان تغییر دستی برای مقایسه با نسخه‌های دیگر وجود دارد. توسعه‌دهندگان نیز می‌توانند با دسترسی API از طریق Model Studio در علی‌بابا کلود، این مدل را به طور مستقیم در ابزارها، خدمات یا برنامه‌های خود ادغام کنند.

تصویر بزرگتر از هوش مصنوعی علی‌بابا

آنچه اهمیت دارد این است که علی‌بابا صرفاً به دنبال رقابت عددی نیست، بلکه در حوزه‌هایی چون پردازش متن‌های طولانی، بهره‌وری آموزشی و مهندسی اعتمادپذیری گام‌های نوآورانه برداشته است. جزئیات فنی نشان می‌دهد که با نوآوری واقعی مواجه‌ایم نه صرفاً بزرگ‌سازی مدل‌های موجود.

نسخه آینده Qwen3-Max-Thinking که بر استدلال و یکپارچگی با ابزارها متمرکز خواهد بود، نشان می‌دهد هدف علی‌بابا تنها ساخت یک چت‌بات پیشرفته نیست، بلکه تلاشی در راستای ایجاد یک عامل مستقل واقعی است.

آیا باید اهمیت بدهیم؟

برای کاربران عادی این مدل گزینه‌ای تازه در سطح جهانی است، به‌ویژه اگر نیاز به پردازش متن‌های بسیار طولانی یا توانایی‌های چندزبانه داشته باشند. برای توسعه‌دهندگان، قابلیت‌های فنی و دسترسی API ارزش بررسی جدی در مقایسه با ابزارهای کنونی را دارد. برای علاقه‌مندان به پیشرفت‌های هوش مصنوعی نیز این رویداد یک نقطه عطف است، چراکه اکنون چندین سازمان توانایی ساخت و استقرار مدل‌های تریلیون‌پارامتری با رویکردها و قابلیت‌های متفاوت را دارند.

چشم‌انداز هوش مصنوعی به طرز چشمگیری رقابتی‌تر و هیجان‌انگیزتر شده است. همزمان، اخبار دیگری از توسعه یک ویروس طراحی‌شده توسط هوش مصنوعی برای هدف‌گیری باکتری‌ها و نگرانی‌های امنیتی مرتبط حکایت دارند. همچنین هواوی سامانه‌های قدرتمند Atlas 950 و 960 SuperPoDs را معرفی کرده تا به چالشی برای انویدیا بدل شود.

منبع خبر