会員限定
2012/07/30 掲載

Amazonクラウドで起きたデータセンター障害、その背景には何があったのか？

Instagramなどのサービスにも影響

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

災害対策（DR）・事業継続（BCP）

|

タグをもっとみる

米国で6月29日の夜に発生したAmazonクラウドのトラブルは、InstagramやFlipboard、Netflixなど有名なサービスにも影響を与えました。国内のサービスでもいくつか影響を受けたところがあったようです。Amazonクラウドがこの障害について詳しく報告した「Summary of the AWS Service Event in the US East Region」のポイントを追っていきましょう。

執筆：Publickey 新野淳一

　米国で6月29日の夜に発生したAmazonクラウドのトラブルは、InstagramやFlipboard、Netflixなど有名なサービスにも影響を与えました。国内のサービスでもいくつか影響を受けたところがあったようです。

Summary of the AWS Service Event in the US East Region

　今回のトラブルの発端は電源障害でした。嵐によって一時的に電源に障害が発生し、UPSに切り替わったもののUPSが電力を使い果たした結果、一部のデータセンターが稼働を停止しました。

　この電源障害による直接の影響は全体の数％だったものの、これが引き金となって仮想マシンの「EC2」、ストレージの「EBS」、ロードバランシングの「ELB」、データベースサービスの「RDS」などにおいてソフトウェアや運用まわりでの問題が相次いで発生。一部で複数のアベイラビリティゾーンに影響する障害へと発展しました。

　今回は複数のアベイラビリティゾーンに影響があり、その上6月中旬にも電源まわりのトラブルが発生したばかり。今回の障害は同社にとって痛恨の出来事といっていいでしょう。

　一方で、「Summary of the AWS Service Event in the US East Region」として7月2日に公開された今回の報告は非常に詳細かつ長文で、障害の原因から経過と結果まであらゆる点を自分たちは徹底的に調査し把握し、対策していくのだ、という同社の意地のようなものを感じます。

　一般にシステム構築案件などで大規模なトラブルが発生すると、その解析には数週間以上かかることも珍しくありません。しかも複数のベンダがからんだシステムであれば、あちこちからエンジニアが集まって問題を切り分ける難しさがあり、またベンダごとの責任の押し付け合いなどさまざまなことが起こります。

　しかしAmazonクラウドは、データセンターからインフラ、ソフトウェアまでのすべてを自社で構築し運用しているからこそ、トラブル時にもすべてを把握し、即座に調査報告と対策が打てるのだという自負と底力を、Amazonクラウドの報告書から読み取ることができます。

　その報告書、非常に膨大な内容の中から、ポイントになる点を追っていきましょう。

　　　次ページ >>　　そのとき、Amazonのデータセンターに何が起こったのか？

Amazonクラウドで起きたデータセンター障害、その背景には何があったのか？

なぜ安否確認がうまくいかない？高まる自然災害リスクで備えたい「日常対策」

AI予測が「高精度」とは言い切れない納得理由、台風10号に学ぶ「予測情報の生かし方」

1兆円企業「たのめーる」の大塚商会が、いま「防災DX」に本気で取り組む納得背景

関連コンテンツ

「このままでは見殺しだ」能登地震から半年、無策で進まない復興と被災地の現実

半導体装置SCREENのBCPが評価されるワケ、超実践「使えるBCP」の作り方

全国が大注目「大分県の防災DX」、日本在住なら知っておきたい「自分の街」の安全性

人気のタグ