会員限定
2017/03/10 掲載

Amazon S3がダウン！なにが障害をここまで大きくしたのか？ AWSの報告を読み解く

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

災害対策（DR）・事業継続（BCP）

|

タグをもっとみる

AWSの米国東部リージョン（US-EAST-1、バージニア北部）において2月28日に発生したAmazon S3の障害の原因と対策などについて、AWSが報告を公開しました。

Summary of the Amazon S3 Service Disruption in the Northern Virginia (US-EAST-1) Region

　Amazon S3がダウンした直接の原因は、Amazon S3課金システムのデバッグ作業中に入力したコマンドのミスによって多数のサーバが削除されたことでした。また、それによって引き起こされたサブシステムの再起動に時間がかかったことが、障害を長引かせる要因になっています。

　この記事ではAWSの報告内容を整理し、発生した出来事を時系列でみたあと、障害の背景にあった技術的な要因と対策を紹介します。

コマンドの入力ミスで多数のサーバを削除、復帰にも長時間かかる

　そもそもの障害の発端は、Amazon S3課金システムの処理速度が想定よりも遅くなっていたため、Amazon S3チームがデバッグ作業を行っていたことでした。

・2月28日午前9時37分（太平洋標準時）

関連記事

▲ 閉じる ▼ すべて表示

　デバッグ作業において、Amazon S3課金プロセスを実行する一部のサブシステムに対して、少数のサーバを削除するコマンド群（原文では「playbook」と表記されているため、AnsibleのPlaybook、あるいは同様に一連のコマンドを記したスクリプトファイルと思われる）を実行。

　このとき入力されたコマンドの1つに間違いがあり、Amazon S3のメタデータを管理していた「インデックスサブシステム」と、オブジェクトを保存する位置を指定する「配置サブシステム」のサーバ群の大半が削除されてしまいます。

（新野注：原文は「one of the inputs to the command was entered incorrectly」とあり、playbookの内容を間違えたのか、あるいはそれを実行するためのコマンドを間違えたのかは判然としません）

　サブシステムはある程度の障害に対する自動回復の能力を備えていましたが、その限界を超えて多数のサーバが削除されてしまったため、それぞれ完全な再起動（フルリスタート）が必要となります。

　そこで再起動が実行されました。この2つのサブシステムが完全に復帰するまでAmazon S3の処理が停止。同一リージョン内にはAmazon S3のストレージサービスに依存して稼働するほかのサービス、例えばAmazon EC2、Amazon EBS、AWS Lambdaなど多数のサービスにも影響が出ました。

　この再起動とその後の整合性確認の処理には予想以上に時間がかかってしまい、障害が長引く要因となってしまいました。

・12時26分

　約3時間後、インデックスサブシステムが十分な能力を発揮するまでに復帰。そこから約50分後の13時18分には完全に正常状態へ復帰。

・13時54分

　配置サブシステムも復帰。この時点でようやくAmazon S3が通常動作へ復帰し、影響を受けていたそのほかのサービスも復帰を開始しました。

なにが障害をここまで大きくしたのか？

この続きは
会員限定（完全無料）です

ここから先は「ビジネス+IT」会員に登録された方のみ、ご覧いただけます。

今すぐ登録(無料)

今すぐビジネス＋IT会員に
ご登録ください。

すべて無料！今日から使える、
仕事に役立つ情報満載！

ここでしか見られない

2万本超のオリジナル記事・動画・資料が見放題！
完全無料

登録料・月額料なし、完全無料で使い放題！
トレンドを聞いて学ぶ

年間1000本超の厳選セミナーに参加し放題！
興味関心のみ厳選

トピック（タグ）をフォローして自動収集！

完全無料　
ビジネス+IT会員のメリットとは？

評価する

いいね！でぜひ著者を応援してください

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

共有する

Amazon S3がダウン！なにが障害をここまで大きくしたのか？ AWSの報告を読み解く

コマンドの入力ミスで多数のサーバを削除、復帰にも長時間かかる

なにが障害をここまで大きくしたのか？

なぜ安否確認がうまくいかない？高まる自然災害リスクで備えたい「日常対策」

AI予測が「高精度」とは言い切れない納得理由、台風10号に学ぶ「予測情報の生かし方」

1兆円企業「たのめーる」の大塚商会が、いま「防災DX」に本気で取り組む納得背景

関連コンテンツ

「このままでは見殺しだ」能登地震から半年、無策で進まない復興と被災地の現実

半導体装置SCREENのBCPが評価されるワケ、超実践「使えるBCP」の作り方

全国が大注目「大分県の防災DX」、日本在住なら知っておきたい「自分の街」の安全性

人気のタグ

Amazon S3がダウン！ なにが障害をここまで大きくしたのか？ AWSの報告を読み解く

コマンドの入力ミスで多数のサーバを削除、復帰にも長時間かかる

なにが障害をここまで大きくしたのか？

なぜ安否確認がうまくいかない？高まる自然災害リスクで備えたい「日常対策」

AI予測が「高精度」とは言い切れない納得理由、台風10号に学ぶ「予測情報の生かし方」

1兆円企業「たのめーる」の大塚商会が、いま「防災DX」に本気で取り組む納得背景

関連コンテンツ

「このままでは見殺しだ」能登地震から半年、無策で進まない復興と被災地の現実

半導体装置SCREENのBCPが評価されるワケ、超実践「使えるBCP」の作り方

全国が大注目「大分県の防災DX」、日本在住なら知っておきたい「自分の街」の安全性

人気のタグ

Amazon S3がダウン！なにが障害をここまで大きくしたのか？ AWSの報告を読み解く