- 会員限定
- 2022/07/14 掲載
pixivや原神につながらず「インターネットが壊れた?」 CDNクラウドフレアの障害
障害の背景事情と概要
今日のインターネットサービスにおいて、一定の規模以上になれば負荷分散は必須だ。CDN(コンテンツデリバリネットワーク)は、オンラインゲームや動画配信など大容量のデジタルコンテンツを扱うサービスにおいて、高速かつ安定的にコンテンツ配信する上で欠かせないソリューションとなっている。CDNは、世界中からのアクセスに対して大量の応答(データ)を返す必要があり、ロードバランシングやクラウド機能による柔軟なサーバ増減(Elastic Service)に対応しなければならない。もちろん、CDN自体、十分なトラフィックに耐える回線やネットワーク機器(キャリアグレードのサーバ・ルータ・スイッチ)を用意し、多重化やFT(耐障害性)構成などで単純な障害や並のDDoS攻撃をいなすほどのリソースを持っている。
今回発生した障害(Outage)の原因は、クラウドフレアの発表によれば「BGPのポリシー変更に伴う設定が、新しいアーキテクチャのルーター群でうまく機能しなかった」ということのようだ。ISPやCDNは、前述したようにそれぞれがサービスの信頼性・安定性維持のため、独自のネットワークアーキテクチャやローカルアプリケーションを導入することがある。
クラウドフレアの場合、「Multi-Colo PoP(MCP)」という独自のメッシュ型ネットワークを構築し、ルータ群の冗長性や耐障害性、さらにメンテナンス時の効率アップ(負荷低減)している。ただし、この新しいアーキテクチャはトラフィックビジーなデータセンターを中心に展開しているものだという。
アムステルダム、アトランタ、アッシュバーン、シカゴ、フランクフルト、ロンドン、ロスアンゼルス、マドリッド、マンチェスター、マイアミ、ミラノ、ムンバイ、ニューアーク、大阪、サンパウロ、サンノゼ、シンガポール、シドニー、東京
障害を引き起こした原因は?
BGPとはボーダーゲートウェイプロトコルの略で、大企業、大手ISP、CDNらが割り当てを受けているASというIPアドレスの管理ブロック内で、ルータ同士が隣接ルーターや経路情報、障害情報、設定情報などをやりとりするプロトコルである。インターネットでは、LANセグメントやWANセグメント、ASなどの管理ブロックを「プレフィックス」という表現で管理する。発表によると、BGPのポリシー変更に伴うプレフィックスの取り下げ(withdrawn)要求(BGPの用語ではアドバタイズ:広告という)が、MCPが適用された世界中の19の主要データセンターで間違ってアドバタイズされ、その復帰に時間がかかった。
通常、withdrawnがアドバタイズされても、正しいアドレスプレフィックスもアドバタイズされ、正しい設定情報がルータ群に伝播されるが、その間のキャッシュの使い方や更新タイミングは管理者の設定、ネットワークの設計アーキテクチャによる。クラウドフレアの発表資料に、不幸なwithdrawnアドバタイズの連鎖を引き起こした原因までは書かれていない。
【次ページ】インターネットが持つ潜在的な危険性
関連コンテンツ
PR
PR
PR