クラウドマネージドサービスにおける障害一次対応の自動化

クラウド利用者が行うべき障害一次対応の課題


クラウドシステムの高可用性と耐障害性の設計では、障害が発生することを前提として複数のアベイラビリティゾーンを横断して仮想サーバーを冗長化するなどの予防策であるベストプラクティスを採用することを検討します。しかし仮想サーバーで障害を検知した時に、その仮想サーバーを自動再起動するといったクラウドベンダーが提供する仕組みだけでは十分ではないケースがあります。たとえば次の条件において業務システムの部分障害またはサービス停止が発生した場合には、業務システムを復旧するために追加のオペレーションが必要になる場合があります。

  • 仮想サーバーのコンピュートリソースである仮想マシン(VMインスタンス)が正常稼働していても、OSやアプリケーションレイヤーで障害が発生している場合
  • オートスケールに対応していないソフトウェアを利用するため、クラウドサービスのベストプラクティスである水平分散型の高可用性アーキテクチャを採用できない場合
  • 業務システムを構成する複数の要素に起動順序などの依存関係があり、システムの復旧手順が複雑な場合

仮想マシン(VMインスタンス)を再起動させる操作や自動再起動の仕組みが提供されてるクラウドサービスであっても、その実装方法や操作手順はクラウドサービス毎に異なるため、異なる複数のクラウドを導入する際には、業務システム設計と運用に時間とコストがかかります。

クラウドマネージドサービスの障害一次対応の特長


クラウドの運用において、業務システムを監視して障害を検知した場合は、運用担当者が障害イベントに対応する定型手順書に従って、障害一次対応を実施するプロセスが基本的ですが、クラウドマネージドサービスでは、障害一次対応を自動的に実行する運用プランも用意しています。障害一次対応を自動化することによる運用コスト低減が目的ですが、その他にも以下の特長があります。

  • 異なる複数のクラウドをひとつの共通化された方式で監視
  • 障害一次対応は、検知した障害イベント別に異なるプロセスを実行可能
  • 仮想マシン(VMインスタンス)だけではなく、コンテナやPaaSなどのクラウドサービスも障害一次対応の対象

監視の共通化や障害一次対応の対象範囲を拡大するなどによって、運用の効率化、省力化を実現して運用コストを低減します。

自動化による障害一次対応のプロセス例

クラウドマネージドサービスで自動化された障害一次対応は、次のプロセスで実行します。

(1)監視

仮想サーバーの他、コンテナやPaaSなどのクラウドサービス、業務システムのURLも監視します。

(2)障害一次対応

監視で障害を検知した場合は、障害イベントに対応したプロセスで復旧を試みます。

復旧処理は、例えば以下の複数タスクを順番に実行するためのスクリプトを起動します。

  • タスク例1.仮想サーバー、コンテナ、サービスプロセスの再起動
  • タスク例2.クラウドサービスやアプリケーションを復旧させるAPIの呼び出し
  • タスク例3.メール通知によるエスカレーション

(3) プロセス実行結果の確認

障害を検知した時または障害一次対応を実行した時に、状態または復旧処理の結果をメールでお知らせします。

(1) 監視
(2) 障害一次対応
(3)プロセス実行結果の確認

導入メリット


高可用性アーキテクチャなどのベストプラクティスを採用することが難しい条件でも、障害検知やマネージドサービスが提供する自動化プロセスの仕組みを使って複数のタスクを組み合わたスクリプトとして復旧処理を実装できるため、業務システムの運用設計にかかる時間とコストを低減できます。また、障害イベントに対応した異なるプロセスで復旧を試みることや単一障害点がある業務システムについても自動復旧を試みる運用をすることができ、サービス継続性を高めることが可能です。

  • 本内容は予告なく変更する場合があります。
  • Amazon Web Services、“Powered by Amazon Web Services”ロゴ、その他のAWSサービスは、米国その他の諸国における、Amazon.com, Inc.またはその関連会社の商標です。
  • Microsoft、Azure、Windows、Windows Serverは、米国Microsoft Corporationの米国およびその他の国における登録商標または商標です。
  • IBM、IBMロゴおよびibm.comは、世界の多くの国で登録されたInternational Business Machines Corporationの商標です。他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。現時点でのIBMの商標リストについては http://www.ibm.com/legal/copytrade.shtmlをご覧ください。
  • SoftLayerはSoftLayer, Inc., an IBM Companyの商標です。
  • OTRSはOTRS AGの登録商標です。
  • MIRACLE ZBXは、ミラクル・リナックス株式会社の登録商標です。
  • OracleとJavaは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。
  • TREND MICROは、トレンドマイクロ株式会社の登録商標です。
  • Google および Google Cloud Platform は、Google LLC の登録商標もしくは商標です。
  • VMware、VMware ESXi™ 、VMware Horizon® 、VMware NSX® 、VMware vCenter®、VMware vSAN™ 、VMware vSphere®は米国およびその他の地域におけるBroadcom Inc. の登録商標または商標です。
  • Nutanix、Nutanixのロゴ、その他のNutanix製品および機能名は、米国およびその他の国におけるNutanix, Inc.の登録商標または商標です。
  • Cloudflare、Cloudflareロゴ、Cloudflare Workersは、米国およびその他の法域におけるCloudflare, Inc.の商標およびまたは登録商標です。
  • その他記載の会社名、製品名は、それぞれの会社の商標または登録商標である可能性があります。