- 会員限定
- 2018/12/19 掲載
AzureやOffice 365にログインできない…マイクロソフト、多要素認証の障害を「2度」も
約1週間で2回ダウン
一度目の障害は11月19日午前4時(世界協定時。日本時間の19日午後1時39分)から、午後6時38分(日本時間20日午前3時38分)までと、ほぼ一日の営業時間全体で止まっており、二度目は11月27日午後2時20分(日本時間午後11時20分)から午後5時39分(日本時間翌28日午前2時39分)まで約3時間、止まっていました。
それぞれの原因は異なっており、マイクロソフトは「Azure Status History」のページで二度の障害についての原因と対策を報告しています。
なぜ多要素認証という重要なシステムで障害が発生したのか、そしてどのような対策が行われたのか。同社の報告から概要を見ていきます。
システムアップデート後、トラフィック増大が引き金になってバグが発生。
11月19日の一度目の障害の遠因となったのが、13日から16日にかけての内部システムのアップデートでした。ここで潜り込んだバグが、数日後の19日になって、あるデータセンターでのトラフィックが閾値を超えたタイミングで以下の障害を次々に引き起こすことになったのです。1)多要素認証システムの負荷が一定以上に高まると、多要素認証システムのフロントエンドからキャッシュサービスへのアクセスに対する遅延が発生した
2)この遅延が多要素認証システムのバックエンドサーバを再利用する際に競合状態を作り出し、それがさらに全体の遅延を引き起こした
3)上記の遅延が障害検知システムにもおよび、障害の検知そのものができなくなっていた
それでもなんとか障害に気づいた多要素認証システムの担当チームは、遅延が遅延を呼んで障害を起こしているシステムをなんとか立て直そうとシステムの一部に変更を加えます。
対策するはずが火に油をそそぐ結果に
残念ながらそれは火に油を注ぐような逆効果になったと、次のように報告されています。【次ページ】 およそ1週間後、多要素認証システムは再び障害を起こす
関連コンテンツ
PR
PR
PR