今年の2月末から3月にかけて代表的なパブリッククラウドであるAWSとAzureで大規模な障害が発生しました。まずは、今回、どのような障害が発生したのかを紹介している記事をみながら、パブリッククラウドではどのような障害がどの程度の頻度では発生しているかをみていきます。
その後に、それらの障害発生への対処の仕方やクラウド利用の考え方について紹介している記事をみていきます。

 

Azure東日本リージョンでまたも大規模障害、3月だけで2度目

Azureの3月の3回の大規模障害の最後となる、3月31日の障害についての報告している、ITProの速報記事です。
3月31日の障害は、午後10時50分ころに発生、4月1日の午前6時までには復旧ということで、7時間ほどにわたり、Azure Storageおよびそれを利用するサービスが機能不全となっています。Azure仮想マシン、Webサイト構築/Webアプリケーションサーバーの「Azure App Service Web Apps」、データバックアップの「Azure Backup」、リレーショナルデータベースの「SQL Database」など。

Amazon S3が一時ダウン、米国東部リージョンで大規模障害。

米国でのAWSの障害を報告しているPublickeyの速報記事です。2月28日、米国東部リージョンにおいて、Amazon S3の障害が大規模に発生。通常運用に戻るのに約3時間かかり、Slackのファイル共有やSlideShareのスライドのダウンロードなどに影響を与えたとのこと。

 

クラウド不安を払拭するためにやるべき対策

AWSの大規模障害が起きた後の、3月にTechTargetのクラウドコーナで取り上げた記事です。
キーとなるメッセージを一覧とすると下記のようになります。

・特定のS3リージョンに対する自分たちの依存状況について誰もが検証する必要がある

・組織はリスク耐性を見極める必要がある。もし障害が起きた場合、どの程度の時間であれば、ビジネスに支障を来すことなく吸収できるのかを見極めることが必要

・クラウドの1つのリージョンのみに依存しないアプリケーションを構築するのはひとつの手段。ただし、システムが複雑になりコストが増す面がある

・念頭に置くべきこととして、S3の障害はそれほど頻繁には発生しない。AWSのサービスが始まってからの10年で、ダウンしたのはわずか数回にとどまる。大規模な障害はまれであり、しかしまれには発生するものへの対応策としてはどのようにするべきかを検討するのが必要

 

「止められないならクラウドは使うな」アーキテクト2人の意見が一致

ITPro Activeのクラウド障害に関する座談会記事。
ユーザーは、クラウドサービスの信頼性をどのように捉え、どう対処したらよいのか。AWSに精通したアーキテクトの草分けで、ユーザーとパートナーを代表する2人を招いて座談会を開き、考えを聞いたものです。

クラウドで障害が起こるのは、例えるなら電車が止まったり、停電が起きたりといったことと同じ感覚をもっているとのこと。

停止させたくないシステムをクラウドで稼働させるのはそもそも無理があり、アーキテクチャーの構成や運用の仕方によって、ダウンタイムを短くすることはできるが、一般にコストが高くつくので、基本的に停止させたくないシステムはやはりクラウドではないと思うとのこと。

そもそもAWSも「クラウドは障害で停止することがある」といっており、意図せず停止することがあるというリスクを許容できるか。これが、クラウドを使うかどうかを判断するポイントとのことです。