بازگشت AWS پس از بزرگترین اختلال سال؛ اینترنت جهانی برای ساعتها فلج شد

اختلال گسترده در سرویس ابری آمازون (AWS) روز دوشنبه میلیونها کاربر و هزاران کسبوکار را در سراسر جهان از اسنپچت و ردیت تا زوم و سرویسیهای مالی مختل کرد؛ اختلالی که ریشه آن در مرکز داده پرحاشیه US-EAST-1 بود. آمازون میگوید خدمات اکنون بازیابی شده، اما آثار آن تا چند ساعت آینده ادامه خواهد داشت.
به گزارش برندسازی به نقل از رویترز، با این حال، آمازون (NASDAQ: AMZN) گفت برخی از سرویسهای AWS هنوز با انباشت پیامها روبهرو هستند که پردازش آنها چند ساعت طول خواهد کشید.
AWS که میزبان اپلیکیشنها و فرایندهای محاسباتی برای شرکتها در سراسر جهان است، در این اختلال موجب شد کارمندان از لندن تا توکیو از دسترسی به سامانهها بازبمانند و فعالیتهای روزمرهای مانند پرداخت هزینه آرایشگاه یا تغییر بلیت پرواز متوقف شود. کاربران در بعدازظهر دوشنبه نیز همچنان از بروز مشکلاتی در استفاده از سرویسهایی مانند کیف پول دیجیتال ونمو (Venmo) و پلتفرم تماس تصویری زوم (Zoom) شکایت داشتند.
این حادثه، بزرگترین اختلال اینترنتی از زمان خرابی گسترده نرمافزار CrowdStrike در سال گذشته محسوب میشود که بیمارستانها، بانکها و فرودگاهها را فلج کرد و بار دیگر آسیبپذیری شدید زیرساختهای دیجیتال جهان را آشکار ساخت.
این دستکم سومین بار در پنج سال گذشته است که خوشه شمالی ویرجینیا (US-EAST-1) متعلق به AWS موجب یک فروپاشی بزرگ اینترنتی شده است. آمازون به پرسش خبرنگاران درباره علت تکرار اختلال در این مرکز داده پاسخی نداد. به گفته کارشناسان، مشکل از سامانه نام دامنه (DNS) ناشی شده بود که باعث شد اپلیکیشنها نتوانند آدرس صحیح پایگاه داده DynamoDB را بیابند — سرویسی که برای ذخیره دادههای کاربران و اطلاعات حیاتی مورد استفاده قرار میگیرد.
علت اصلی: نقص در سامانه پایش سلامت شبکه
AWS در بیانیهای اعلام کرد ریشه این اختلال، نقص در یکی از زیرسامانههایی بود که وضعیت سلامت توازندهندههای بار شبکه (Load Balancers) را پایش میکند — بخشهایی که ترافیک اینترنتی را بین چند سرور تقسیم میکنند.
این مشکل از درون شبکه داخلی سرویس EC2 (Elastic Compute Cloud) منشأ گرفت — یکی از اجزای اصلی AWS که ظرفیت ابری را به صورت درخواستی در اختیار کاربران قرار میدهد.
آمازون حوالی ساعت ۳ بعدازظهر به وقت محلی (۲۲:۰۰ به وقت گرینویچ) اعلام کرد:
«تمام سرویسهای AWS به حالت عادی بازگشتهاند. با این حال، برخی از خدمات مانند AWS Config، Redshift و Connect هنوز در حال پردازش پیامهای انباشتهشده هستند و طی چند ساعت آینده بهطور کامل بازیابی میشوند.»
کن بیرمن، استاد علوم کامپیوتر دانشگاه کرنل، گفت توسعهدهندگان نرمافزار باید تحمل خطا (Fault Tolerance) بهتری برای برنامههای خود بسازند. او افزود AWS ابزارهایی برای محافظت از اپلیکیشنها در برابر چنین مشکلاتی ارائه میدهد، اما بسیاری از شرکتها در مرحله طراحی برای کاهش هزینهها از این گامها صرفنظر میکنند.
او گفت: «وقتی شرکتها برای کاهش هزینهها از مراحل حیاتی امنیتی صرفنظر میکنند و بعداً یادشان میرود آن مرحله را انجام ندادهاند، طبیعی است که در زمان اختلال، همینها بیشترین آسیب را ببینند.»
مرکز داده معروف به اختلالهای مکرر
AWS اعلام کرد این قطعی از مرکز US-EAST-1 در ایالت ویرجینیا آغاز شده — قدیمیترین و بزرگترین مرکز خدمات وب این شرکت که پیشتر در سالهای ۲۰۲۰ و ۲۰۲۱ نیز دچار قطعی شده بود.
در مستندات AWS آمده است که این منطقه به طور پیشفرض برای بسیاری از خدمات AWS استفاده میشود، از اینرو خرابی در آن تأثیر بسیار گستردهای دارد.
زیرساختهای شکننده جهانی
کارشناسان و پژوهشگران میگویند این رویداد بار دیگر نشان میدهد که چقدر زندگی دیجیتال ما به چند شرکت محدود ابری وابسته است و تنها یک نقص فنی میتواند زندگی روزمره میلیونها نفر را مختل کند.
جیک مور، مشاور جهانی امنیت سایبری در شرکت ESET اروپا، گفت:
«این حادثه یک بار دیگر نشان داد که زیرساختهای دیجیتال ما چقدر شکننده هستند و تا چه اندازه به چند ارائهدهنده بزرگ متکیایم.»
در بریتانیا، وبسایت بانک لویدز (Lloyds Bank)، بانک اسکاتلند (Bank of Scotland) و شرکتهای مخابراتی ودافون (Vodafone) و BT همگی دچار مشکل شدند. وبسایت اداره مالیات و گمرک بریتانیا (HMRC) نیز از دسترس خارج شد.
نیشانت ساستری، مدیر تحقیقات علوم کامپیوتر در دانشگاه ساری، گفت:
«دلیل اصلی بروز چنین اختلالی این است که اکثر شرکتهای بزرگ تنها به یک سرویس تکیه کردهاند.»
شرکت اوکلا (Ookla)، مالک وبسایت Downdetector، اعلام کرد بیش از ۴ میلیون کاربر گزارش بروز مشکل ثبت کردهاند.
رایان گریفین، رئیس بخش امنیت سایبری در شرکت بیمه McGill and Partners، گفت:
«برای شرکتهای بزرگ، چند ساعت از کار افتادن خدمات ابری میتواند به معنای میلیونها دلار زیان مالی و کاهش بهرهوری باشد.»
با وجود این بحران، بازار سهام واکنشی منفی نشان نداد و سهام آمازون در والاستریت ۱.۶٪ رشد کرد و به ۲۱۶.۴۸ دلار رسید.
از اسنپچت تا ونمو: اپلیکیشنهای بزرگ از کار افتادند
اوکلا اعلام کرد دستکم ۱۰۰۰ شرکت تحت تأثیر این اختلال قرار گرفتهاند.
اپهایی مانند ردیت، روبلاکس، اسنپچت و دولینگو از جمله خدماتی بودند که دچار مشکل شدند. همچنین استارتاپ هوش مصنوعی Perplexity، صرافی رمزارز Coinbase و اپلیکیشن معاملاتی Robinhood نیز دچار قطعی شدند و علت را به AWS نسبت دادند.
حتی خدمات خود آمازون از جمله وبسایت خرید، Prime Video و دستیار صوتی Alexa نیز برای مدتی از دسترس خارج شدند.
در دنیای بازی نیز Fortnite، Clash Royale و Clash of Clans با اختلال مواجه شدند و اپلیکیشن حملونقل Lyft در آمریکا نیز موقتاً از کار افتاد.
مریدیت ویتاکر، رئیس پیامرسان سیگنال (Signal)، در پستی در X تأیید کرد این اپ نیز تحت تأثیر قرار گرفته است. با این حال، ایلان ماسک گفت پلتفرم X (توییتر سابق) بدون مشکل به کار خود ادامه داده است.
