注:本記事は(2022年5月4日)に公開された(Business Continuity in the Cloud Era: 5-Step Disaster Recovery Plan)を翻訳して公開したものです。

事業継続は重要な課題です。事業運営は、データへのアクセスとデータから得られるインサイトに依存していますが、予測不能な事象の急増に伴い、その保証がさらに困難な状況となっています。人為的なミス、停電、天候の変化から大規模なハードウェアの故障まで、あらゆるものが「災害」となり、企業のコンピューティング能力、顧客、従業員へのサービス提供能力を停止させる恐れがあります。 

クラウドに移行するデータワークロードが増え続けていることを受けて、古いプレイブックは見直す必要があります。従来のバックアップと復旧の計画は、クラウド時代に合わせて修正する必要があります。災害は、企業の準備の有無にかかわらず発生するため、テストと調整を経た確実な戦略を事前に策定することが不可欠です。 

災害復旧と事業継続計画に反映させるための5つのステップを、それぞれ実行可能なベストプラクティスとパラメーターを併せて以下に紹介します。

ステップ1:潜在的なリスクタイプを明らかにする

まず、自社で起こりうる失敗を理解することが不可欠です。時間をかけて、すべての組織で最も一般的なリスクを評価し、どこに時間と労力をかけるのがベストかを確認します。 

最も一般的な障害の種類は、人為的ミス、単一インスタンス障害、ゾーン障害、リージョン障害、マルチリージョン障害の5つです。これらの多くは、アベイラビリティゾーン、ビルトインの冗長性、クロスクラウドのレプリケーションによって改善することが可能です。 

組織における潜在的なリスクと課題を評価したら、次はプライマリとセカンダリストレージのリージョンを選択します。プライマリとセカンダリのリージョンを同期させることはレプリケーションと呼ばれ、あらゆるレベルの障害リスクを軽減します。リージョンを選択する際には、以下のパラメーターを検討してください。

  • 単一のクラウドかマルチクラウドか戦略を決定する。
  • 災害の影響が両方に及ばないよう、十分離れたリージョンを選択する。
  • どのようなデータを保存しているか、リージョン規制が適用されるかどうかを検討する。
  • より安価なリージョンとクラウドプロバイダー間で消費を移動することを検討する。
  • リージョン的フットプリントを活用し、リージョンごとに最適なクラウドプロバイダーを利用する。
ステップ2:さまざまなリスクの影響と対応策を検討する

組織にとっての潜在的なリスクを整理したら、それらがビジネスに与える影響を評価し、データの途絶に適時対応するための計画を作成する必要があります。まず、停電がそれぞれのステークホルダーに及ぼすビジネス上の影響を定量化することから始めましょう。その際、売上日報が遅れたり、在庫ダッシュボードが予定通りに更新されないとどうなるか、重要なアプリケーションや顧客向けアプリケーションをサポートしているのはどのデータか、といった点を検討します。

ビジネスユースケースを重要度によってランク付けする手順が重要です。目標リカバリ時間(RTO)、目標リカバリポイント(RPO)、粒度の観点から、各ケースをどのように比較すればよいでしょうか。この演習は、各障害シナリオに対応する事業継続計画を構築するのに役立ちます。

このアプローチによって、どのような対策を採るべきか、フェイルオーバーを開始する前にアプリケーションチームにどのように通知すればよいか、どの依存システムをアクティブにする必要があるか、これらの回答を関係者と共有し計画を修正するにはどうすればよいかといった点が決まります。

最後に、災害復旧訓練を頻繁に行い、エンドツーエンドのフェイルオーバー計画の最も弱い部分を特定するようにしてください。思い込みによる行動は失敗の原因となります。

ステップ3:ルール、役割、責任を定める

災害時には、誰がデータにアクセスでき、どのデータを誰が利用できるかを決定する明確な階層化が重要となります。災害が発生する前に、どのデータベースを保護するか、どのリージョンをプライマリバックアップセンターとして機能させるか、また、あるレベルのデータにアクセスできない場合に誰がそのガバナンスの決定を下すかについて、マッピングしておくことが重要です。

同じことが、継続的リカバリやフェイルオーバーにも当てはまります。認証ツールは、このような難局で活用できる有効な手段であり、最も成功した事業継続計画では、あらゆる形態の認証がサポートされています。当該時にアクセスや権限を維持するには、次の4つの手順に従ってください。

  • アカウント間で一貫した役割別アクセス制御を維持する
  • アカウント間でデータマスキングのポリシーの一貫性と同期を維持する。
  • リソースの割り当てを維持し、レプリカ間の消費を管理する。
  • ポイントインタイムの一貫性を確立する。
ステップ4:事業継続のための真のコスト範囲を評価する

事業継続のための予算を立てるのは、簡単ではありません。まず、停電時に最低限必要なもの、つまりRPOを設定することが先決です。コストの主要因は、レプリケートするデータベース数とレプリケーション頻度の2つです。

どうしても運用を継続しなければならない機能とチームはどれか、一定期間なくても大丈夫な機能とチームがあるか、どれだけのデータをどれだけの期間失っても構わないと言えるか、といった点を検討する必要があります。

予算編成の判断材料としては、業界の潜在的な脆弱性の調査、どのデータが最も重要であるかの判断、停電時のコストを測定するための実環境テストの実施なども有効です。

ステップ5:危機管理計画を確実に遂行する方法を模索する

事業継続は、単に災害に備えるだけでなく、データの共有、コラボレーション、インサイトによって性能を高める手段でもあります。 

リカバリシステムには、企業が必要とするまで眠っているものもありますが、それ以上の機能を持つものも増えています。中には、リカバリを利用するかどうかにかかわらず、明確なROIを持つ価値創造型アセットとして機能し得るシステムもあります。また、サイロを解消しようとしている企業は、これらのシステムを利用してペタバイト級のデータを迅速に移動し、段階的な同期を維持することができます。

リカバリシステムでは、単なる復旧だけでなくもっと多くの点で利用できるということを覚えておいてください。最適な事業継続計画を構築するための詳細な手順、図、ベストプラクティスについては、How to Build a Successful Business Continuity Strategy in the Cloud in 5 Steps(クラウドで成功する事業継続戦略を5つのステップで構築する方法)を参照してください。