- 会員限定
- 2012/07/30 掲載
Amazonクラウドで起きたデータセンター障害、その背景には何があったのか?
Instagramなどのサービスにも影響
今回のトラブルの発端は電源障害でした。嵐によって一時的に電源に障害が発生し、UPSに切り替わったもののUPSが電力を使い果たした結果、一部のデータセンターが稼働を停止しました。
この電源障害による直接の影響は全体の数%だったものの、これが引き金となって仮想マシンの「EC2」、ストレージの「EBS」、ロードバランシングの「ELB」、データベースサービスの「RDS」などにおいてソフトウェアや運用まわりでの問題が相次いで発生。一部で複数のアベイラビリティゾーンに影響する障害へと発展しました。
今回は複数のアベイラビリティゾーンに影響があり、その上6月中旬にも電源まわりのトラブルが発生したばかり。今回の障害は同社にとって痛恨の出来事といっていいでしょう。
一方で、「Summary of the AWS Service Event in the US East Region」として7月2日に公開された今回の報告は非常に詳細かつ長文で、障害の原因から経過と結果まであらゆる点を自分たちは徹底的に調査し把握し、対策していくのだ、という同社の意地のようなものを感じます。
一般にシステム構築案件などで大規模なトラブルが発生すると、その解析には数週間以上かかることも珍しくありません。しかも複数のベンダがからんだシステムであれば、あちこちからエンジニアが集まって問題を切り分ける難しさがあり、またベンダごとの責任の押し付け合いなどさまざまなことが起こります。
しかしAmazonクラウドは、データセンターからインフラ、ソフトウェアまでのすべてを自社で構築し運用しているからこそ、トラブル時にもすべてを把握し、即座に調査報告と対策が打てるのだという自負と底力を、Amazonクラウドの報告書から読み取ることができます。
その報告書、非常に膨大な内容の中から、ポイントになる点を追っていきましょう。
次ページ >> そのとき、Amazonのデータセンターに何が起こったのか?
関連コンテンツ
PR
PR
PR