DTCC、SnowflakeのSnowgridテクノロジーとAWSでデータレジリエンシーを実現

自然災害、地域のネットワークや停電、サイバー攻撃や侵害、ユーザーエラー(これに限りません)による中断は、「起こるかどうか」という問題ではなく、「いつかは起こる可能性がある」ことから、事業継続性はグローバル企業にとっての最優先事項であることに変わりはありません。
ビジネス継続性の必要性を示す事例として、米国議会で金融市場にとってシステム上重要なインフラ(SIFMU)として指定されているDepository Trust & Clearing Corporation(DTCC)のような企業は、特に説得力があります。なぜなら、DTCCのような組織に混乱や障害が発生した場合、金融市場が不安定になることが認識されているためです。そのため、DTCCは世界で最も効率的でレジリエンスの高い、ポストトレード金融市場インフラストラクチャの提供に取り組んでいます。Snowflake on AWSは、私たちのビジネスレジリエンスのイニシアチブを支援し、運用効率と確信をもってディザスタリカバリの要件を満たし、規模を拡大することを可能にします。
SnowflakeとAWSの話を進める前に、DTCCについてもう少し詳しくご紹介します。DTCCでは、米国の証券取引の大半を決済しており、米国債で1日あたり4.5兆ドル、不動産担保証券(MBS)で月間平均8.35兆ドルに上ります。証券取引の決済や内部レポートの実行には事業継続性が不可欠です。そのため、DTCCのIT戦略は、セキュリティ、レジリエンス、安定性という3つの基本の柱に基づいています。
Snowgridであらゆる要素にレジリエンシーを組み込む
TCCでは、証券決済であれ、アプリケーションのモダナイゼーションへの取り組み方を含めた顧客のデータアナリティクス能力の提供であれ、レジリエンスの概念が私たちのあらゆるイニシアチブに組み込まれています。各アプリケーションには、ランブックと呼ばれるディザスタリカバリ計画があり、フェイルオーバーとフェイルバックのスキーマ、ディザスタリカバリにおける2つの主な基準の目標が詳細に記述されています。
- 目標復旧時点(RPO):データの損失が発生した場合に、復旧を期待できるデータ復旧の範囲
- 目標復旧時間(RTO):障害発生時にアプリケーションが利用できないことを許容できる最大時間
リスクとデータのアナリティクスのために2020年6月にSnowflake on AWSを実装して以来、弊社ではインシデントの発生がゼロになっています。このレジリエンシーの成功の理由の一つは、SnowflakeのSnowgrid機能にあります。お客様はSnowgridを使用して、複数のリージョンやクラウドにまたがるデータをレプリケーションできます。この結果、レジリエンシーが向上し、ビジネスの中断が最小化します。
Snowgridのテクノロジーを使用して、事業継続性のためのディザスタリカバリ演習を15回以上実施しています。Snowflakeインスタンスは、15種類のアプリケーションで1日あたり70万件以上のクエリを処理し、400人以上のユーザーをサポートしています。また、Snowflakeのアカウントレプリケーション機能を使用することで、データロスをほぼゼロに抑え、上記のRTOをほぼゼロにすることができました。
Snowflakeに組み込みまれた冗長性は、DTCCにとって大きなメリットです。すべての重要なサービスに対して3重の冗長性を提供し、クエリで失敗した部分については自動的に再試行します。ゾーンレベルでは、SnowflakeはAWSの可用性ゾーンを使用し、クロスリージョンのレプリケーションとフェイルオーバーも提供しています。これにより、データロスをほぼゼロ、復旧時間をほぼゼロという事業継続性の目標を達成できました。SnowflakeのTime Travel機能を利用すれば、最大90日前までの削除済みデータをクエリで検索、取得できます。さらに、フェイルセーフ機能は、Time Travelの保持期間が終了した後も追加で7日間のリカバリ期間を提供します。
Snowgridのアカウントレプリケーション機能では、各アカウントに1つまたは複数のフェイルオーバーグループを設定できるため、アプリを事業ごとに分離できます。これにより、ディザスタリカバリプロセス設計の柔軟性が大幅に向上します。たとえば、独自の接続URLを維持したままアプリをフェイルオーバーできるため、アプリと接続は一緒にフェイルオーバーできます(同時にフェイルバックすることもできます)。また、アプリどうしが互いに影響し合うことなく、個別にローテーションすることもできます。
一貫性、スピード、コラボレーション、コスト削減のメリットを享受
私たちは常に、RTOをゼロにすることを目指しています。Snowflakeは、マルチクラウドサポート、オンデマンドのスケーラビリティ、SOC 1とSOC 2のコンプライアンス、レプリケーション、フェイルオーバーなど、多くの主要機能を通じてこの取り組みをサポートしています。過去9か月以上にわたって、レジリエンシー(カオス)テスト、ストレステスト、P99ラグテストを実施しました。Snowflakeのレプリケーションは徹底的なテストを経て、良好な成果を得たと実感しています。
DTCCでは、Snowgridのレプリケーションとフェイルオーバーのメリットとして、一貫性、スピード、コスト削減などが挙げられています。
一貫性
プライマリアカウントとセカンダリアカウント、クラウドプロバイダーの間で同期が自動化されるため、手動での移行タスクが不要になり、運用効率が向上します。各アプリケーションには、グローバルなディザスタリカバリ(DR)プロセスに対応したランブックが一つだけ存在します。これは、レプリケーションの管理と実行を一元化するコードベースが一つであることを意味します。米国とEUで同じコードベースとプロセスを使用できるため、労力を節減できます。
スピード
アプリケーションは、DR対応、テスト、ランブック(DR計画の詳細)の装備を3日以内に完了します。シンプルで洗練された設計により、DRでSnowflakeをすぐに利用できます。
コスト削減
Snowflakeのレプリケーションでコストを抑えられます。以前のオンプレミスのレプリケーションソリューションは、ハードウェアとライセンスのコストを倍増させる必要があったため、コストが倍増しました。
Snowflakeではコンピュートとストレージが分離されているため、高度に圧縮されたマイクロパーティションがレプリケートされ、レプリケーションサイトのストレージ効率とデータ鮮度が向上します。コンピュートリソースをほぼ瞬時にスピンアップできる能力と相まって、必要なときにのみコンピュートの料金を支払うという、迅速な復旧を実現しています。データの二重ロードと転送(ETL)が不要になったことで、約30%の節減を実現しました。
事業継続性を成功に導く4つのヒント
DTCCはSnowflakeチームとのパートナーシップにより、プライベートプレビュー中に常に緊密にフィードバックループが発生し、新機能を試す機会を得られました。この連携により、クロスドメインID管理システム(SCIM)のプロビジョニングやユーザーレプリケーションといった、複雑な課題の解決を実現しました。
事業継続性イニシアチブに着手(または継続)する際には、基盤としてSnowflakeを強く推奨し、以下のアドバイスをご提案させてください。
- 自社のアセットを把握し、アプリケーションごとに許容される損失やダウンタイム(発生する場合)を特定します。
- 常にテストを行い、エッジケースを探します。
- 自動化が非常に重要です。ミッションクリティカルなアプリケーションに必要なスケーラビリティと効率性を実現する唯一の方法です。
- 継続的に効果を測定し、継続的な改善を実施します。
DTCCでは、IT戦略を設計当初からレジリエンスを念頭に置いたものにすることに私たちは注力しています。
SnowflakeのSnowgridクロスクラウド機能により、私たちのアーキテクチャのセキュリティ面と運用面がカバーされるため、ユーザー体験の最適化とビジネス価値の付加に注力できます。
Snowgridについて、詳しくはOperate at Global Scale with Snowgridソリューション概要をご確認ください。

