• 会員限定
  • 2010/06/10 掲載

サイレント障害とは何か?従来の障害検知手法で発見できない問題

発生の仕組みと対処方法について解説

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
会員になると、いいね!でマイページに保存できます。
システムの運用監視では、障害の迅速な検知と対処は重要な問題である。通常は、さまざまな監視ツールを利用して、サーバやルータなどの機器の死活監視やCPUの使用率、ネットワークトラフィックの状態などの監視を行うのが通例だ。しかし、このような監視手法では発見できない障害=サイレント障害というものが存在する。サイレント障害の正体と、その対処方法について見ていくことにしよう。
執筆:池田 冬彦

システム障害はどのように検知するか?

画像
図1 ICMPやTCPコネクションの実行などを用いた監視方法
画像
図2 SNMP(MIB)による機器監視の仕組み
 システム運用において、障害を速やかに検知して問題を特定し、できるだけ早期に修復することは非常に重要なテーマだ。特に、システムが大規模、かつ、複雑になればなるほど、障害の検知や問題の特定は難しくなる。このため、さまざまな監視ツールを導入し、システムが正常に稼働しているかどうかを常時監視するのが通例だろう。まず、サイレント障害を解説する前に、通常の運用監視の手法をおさらいしておこう。

 システム監視については、ネットワークの疎通状況やサーバのハードウェア/ソフトウェアの稼働状況、サーバやパフォーマンスの性能監視など、その適用範囲は広い。たとえば、ネットワークやサーバの稼働状況の監視方法については、最も基本的(初歩的)なものに「ICMP」(ping、tracerouteなど)というプロトコルを使った方法がある(図1)。

 「ping」「traceroute」コマンドを実行すれば、接続先に至るネットワーク経路の疎通状況や、通信の遅延状況、ルータやサーバの物理的な稼働状況(死活監視)などがわかる。また、サーバに対してテストの接続要求(TCPコネクション要求)を実行したり、サービスへの疑似的な実行を行って、サーバ上のサービスが正常に稼働しているかを監視することができる。

 さらには、「SNMP」というネットワーク監視のプロトコル上で、「MIB」という性能監視のためのプロトコルを使い、サーバやルータのCPUの使用率や空きメモリ、回線利用率などの検査を定期的に行い、パフォーマンスを監視する手法も利用されている(図2)。

 これらの手法を用いたシステム監視システムではアラート(警告通知)を表示するため、一定の値を「しきい値」として設定し、事前に設定したしきい値を上回る、あるいは、下回った場合にアラートを通知するようになっている。このようなシステム障害への対処方法によって、問題が発生した時に、アラートが通知されることで障害を検知し、その原因を特定して問題を修復するというのが、一般的なアプローチ方法だ。

【次ページ】サイレント障害とは?
関連タグ タグをフォローすると最新情報が表示されます

関連コンテンツ

あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

  • 記事閲覧数の制限なし

  • [お気に入り]ボタンでの記事取り置き

  • タグフォロー

  • おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう!

詳細はこちら 詳細情報の入力へ進む
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます