آمازون: باگ اتوماسیون عامل قطعی گسترده AWS بود

به اشتراک‌گذاری آمازون گزارشی درباره قطعی گسترده‌ AWS منتشر کرده که در تاریخ 20 اکتبر…


قطعی AWS آمازون 


به اشتراک‌گذاری

آمازون گزارشی درباره قطعی گسترده‌ AWS منتشر کرده که در تاریخ 20 اکتبر (28 مهر) باعث از کار افتادن تعداد زیادی از وب‌سایت‌ها، سرویس‌ها، اپلیکیشن‌ها و بازی‌ها شد. این مشکل از یک باگ در نرم‌افزار اتوماسیون DynamoDB آغاز شد؛ همان سیستمی که مشتریان AWS برای ذخیره داده‌های خود از آن استفاده می‌کنند. این باگ سپس زنجیره‌ای از اختلال‌ها را در سایر سیستم‌هایی که به این نرم‌افزار وابسته بودند ایجاد کرد.

جزئیات دلیل قطعی گسترده AWS آمازون

آمازون در توضیح خود اعلام کرده است که DynamoDB صدها هزار رکورد DNS را مدیریت می‌کند و به گونه‌ای طراحی شده که هرگونه خطایی را به طور خودکار شناسایی و اصلاح کند. اما در تاریخ 20 اکتبر، سیستم مدیریت DNS در DynamoDB با خطایی مواجه شد که باعث شد رکوردهای DNS مربوط به مراکز داده آمازون در ویرجینیای شمالی خالی بمانند. در حالت عادی، DynamoDB باید می‌توانست این مشکل را به طور خودکار برطرف کند، اما در این مورد خاص، سیستم نتوانست به وظیفه خود عمل کند و تیم مهندسی آمازون مجبور شد به صورت دستی وارد عمل شود و خطا را اصلاح کند.

در مدت زمان بروز این مشکل، تمام سیستم‌هایی که نیاز داشتند به DynamoDB متصل شوند با شکست در برقراری ارتباط DNS مواجه شدند. به همین دلیل، بسیاری از مشتریان سرویس‌های ابری آمازون نیز دچار اختلال شدند. کاربران در سراسر جهان گزارش دادند که حس می‌کردند نیمی از اینترنت از کار افتاده است.

فهرست سرویس‌ها و وب‌سایت‌هایی که تحت تأثیر این قطعی قرار گرفتند بسیار گسترده است و شامل خود آمازون، دستگاه‌های الکسا، بانک Bank of America، اپلیکیشن‌های Snapchat و Canva و Reddit و Apple Music و Apple TV و Lyft و Duolingo، بازی Fortnite، سرویس‌های Disney+ و Venmo و Doordash و Hulu و PlayStation و حتی شرکت Eight Sleep می‌شود؛ شرکتی که تخت‌خواب‌های هوشمندش از طریق اینترنت به سرورهای مرکزی متصل می‌شوند تا دما و زاویه تخت را تنظیم کنند. برخی از این سرویس‌ها کند شدند و برخی دیگر کاملاً از دسترس خارج شدند.

آمازون در بیانیه رسمی خود اعلام کرد:

ما بابت تأثیری که این اتفاق بر مشتریان‌مان گذاشت عذرخواهی می‌کنیم. اگرچه سابقه عملکرد ما در ارائه خدمات با بالاترین سطح پایداری و در دسترس بودن بسیار قوی است، اما به خوبی می‌دانیم سرویس‌های ما تا چه اندازه برای مشتریان‌مان، اپلیکیشن‌های آن‌ها، کاربران نهایی و کسب‌وکارشان حیاتی است. ما کاملاً آگاهیم که این رخداد برای بسیاری از مشتریان تأثیر قابل‌توجهی داشته است. از این اتفاق درس خواهیم گرفت و هر کاری لازم باشد انجام می‌دهیم تا در آینده، میزان پایداری خدمات خود را حتی از این هم بیشتر کنیم.

وب سرویس آمازون یکی از بزرگ‌ترین ارائه‌دهندگان سرور در دنیا است و در کنار گوگل و کلادفلر قرار می‌گیرد. شما هم در روزهای قطعی AWS تجربه‌ای از کندی یا اختلال در اتصال به وبسایت‌ها و سرویس‌های مختلف را داشتید؟



منبع خبر