DTCC가 Snowflake Snowgrid와 AWS를 활용해 데이터 복원력을 구현한 방법

자연재해, 지역 네트워크 및 전력 장애, 사이버 공격과 침해, 사용자 오류 등으로 인한 중단은 이제 ‘발생 여부’의 문제가 아니라 ‘발생 시점’의 문제입니다. 이러한 환경에서 글로벌 기업에게 비즈니스 연속성은 여전히 최우선 과제로 남아 있습니다.
비즈니스 연속성의 중요성은 시스템적으로 중요한 금융시장 핵심 인프라(Systemically Important Financial Market Utility, SIFMU)로 지정된 DTCC(The Depository Trust & Clearing Corporation)와 같은 기관에서 더욱 명확히 드러납니다. SIFMU 지위는 해당 조직의 중단이나 실패가 금융 시장 전체의 안정성을 위협할 수 있음을 전제로 미국 의회가 제정한 제도입니다. 이런 이유에서 DTCC는 세계 최고 수준의 효율적이고 복원력이 뛰어난 포스트 트레이드 금융 시장 인프라를 제공하는 데 주력하고 있습니다. AWS 기반의 Snowflake는 비즈니스 복원력 이니셔티브를 뒷받침하며 운영 효율성과 신뢰를 기반으로 재해 복구 요구 사항을 충족하고 확장할 수 있도록 합니다.
Snowflake와 AWS의 이야기를 본격적으로 살펴보기 전에, 해당 사안의 중요성을 이해할 수 있도록 DTCC가 어떤 조직인지 먼저 살펴보겠습니다. DTCC는 미국 증권 거래 결제의 대부분을 담당하고 있으며, 하루 평균 4조 5천억 달러 규모의 미국 국채와 월평균 8조 3,500억 달러 규모의 주택저당증권(MBS)을 처리하고 있습니다. 결국 증권 거래 결제부터 내부 보고서 운영에 이르기까지 비즈니스 연속성이 필수 요건인 만큼 IT 전략은 보안, 복원력, 안정성이라는 세 가지 근간 위에서 설계되어 있습니다.
Snowgrid로 모든 요소에 복원력 구축
DTCC에서는 증권 청산 업무부터 고객이 데이터 분석을 수행할 수 있도록 지원하는 영역, 그리고 애플리케이션을 현대화하는 방식에 이르기까지 모든 이니셔티브 전반에 복원력 개념을 내재화하고 있습니다. 각 애플리케이션에는 재해 복구 계획이 마련되어 있으며, 여기에는 장애 조치와 장애 복구 스키마를 상세히 설명하고 재해 복구의 두 가지 핵심 기준에 대한 목표를 정의한 이른바 ‘런북(runbook)’이 포함됩니다.
- 복구 지점 목표(RPO): 데이터 손실이 발생했을 때 기대하는 데이터 복구 범위
- 복구 시간 목표(RTO): 재해 발생 시 애플리케이션을 사용할 수 없는 상태를 허용할 수 있는 최대 시간
2020년 6월 리스크 및 데이터 분석을 위해 AWS 상에서 Snowflake를 구현한 이후로, DTCC에서는 단 한 건의 사고도 발생하지 않았습니다. 이러한 복원력 성과를 달성할 수 있었던 주요 요인 중 하나는 Snowflake의 Snowgrid 기능 덕분입니다. Snowgrid는 리전과 클라우드 전반에 걸쳐 데이터를 복제할 수 있도록 지원하여, 더 높은 복원력을 확보하고 비즈니스 중단을 최소화합니다.
DTCC는 비즈니스 연속성을 위해 Snowgrid 기술을 활용한 재해 복구 훈련을 최소 15회 이상 수행했습니다. Snowflake 인스턴스는 15개 애플리케이션에서 400명 이상의 사용자를 지원하며, 하루 70만 건이 넘는 쿼리를 처리하고 있습니다. 또한 Snowflake의 계정 복제 기능을 활용해 데이터 손실을 거의 제로에 가깝게 줄이고 RTO 또한 사실상 제로에 가깝게 실현했습니다.
Snowflake에 기본으로 내장된 중복성은 DTCC에 큰 이점을 제공하며, 모든 핵심 서비스에 삼중 중복 구조가 적용되며 쿼리 처리 중 실패한 부분에 대해서는 자동 재시도가 수행됩니다. 가용 영역(AZ) 수준에서 Snowflake는 AWS의 가용 영역을 활용하고 크로스 리전 복제와 장애 조치를 제공함으로써 데이터 손실을 거의 제로에 가깝게 줄였으며, 복구 시간 목표(RTO) 역시 사실상 제로 수준으로 달성해 비즈니스 연속성 확보에 기여했습니다. Snowflake의 Time Travel 기능을 사용하면 최대 90일 동안 삭제된 데이터를 쿼리하고 검색할 수 있으며, 페일 세이프(Fail-Safe) 기능을 통해 Time Travel 보존 기간이 종료된 이후에도 7일 동안 추가로 데이터를 보호할 수 있습니다.
Snowgrid의 계정 복제 기능을 통해 각 계정에 하나 이상의 장애 조치 그룹을 설정할 수 있어, 사업 부문별로 앱을 분리할 수 있습니다. 이를 통해 재해 복구 프로세스 설계에서 높은 유연성을 확보할 수 있었으며, 애플리케이션이 자체 연결 URL을 그대로 유지한 상태에서 장애 조치를 수행할 수 있습니다. 이에 따라 애플리케이션과 연결이 함께 장애 조치되며, 필요 시 함께 장애 복구하는 것도 가능합니다. 이를 통해 각 애플리케이션을 서로 영향 없이 독립적으로 전환할 수 있게 됩니다.
성과 극대화: 일관성, 속도, 협업 및 비용 절감
DTCC는 항상 RTO 제로 달성을 목표로 합니다. Snowflake는 멀티 클라우드 지원, 온디맨드 확장성, SOC 1 및 SOC 2 규정 준수, 복제 및 장애 조치 등 다양한 핵심 기능을 통해 이러한 목표를 지원합니다. 지난 9개월 이상 동안 복원력(카오스) 테스트, 스트레스 테스트, P99 지연 테스트를 수행했으며, Snowflake 복제 기능을 철저히 검증한 결과 매우 긍정적인 성과를 확인했습니다.
DTCC에서는 Snowgrid의 복제와 장애 조치를 통해 일관성, 속도, 비용 절감이라는 이점을 확보하고 있습니다.
일관성
기본 계정과 보조 계정, 그리고 클라우드 공급자 전반에 걸친 자동 동기화를 통해 수동 마이그레이션 작업이 제거되어 운영 효율성이 향상됩니다. 각 애플리케이션에는 전 세계 공통으로 적용되는 하나의 재해 복구(DR) 프로세스용 런북이 있으며 이를 통해 복제를 중앙에서 관리하고 실행할 수 있는 단일 코드베이스를 유지합니다. 미국과 유럽에서 동일한 코드 베이스와 프로세스를 사용할 수 있어 운영 효율성을 높일 수 있습니다.
속도
애플리케이션은 3일 이내에 재해 복구를 적용하고 테스트를 완료하며, 재해 복구 계획이 담긴 런북까지 준비할 수 있습니다. 설계의 단순성과 정교함 덕분에 Snowflake를 활용한 재해 복구(DR) 작업을 빠르게 수행할 수 있습니다.
비용 절감
Snowflake 복제는 비용 효율적입니다. 기존 온프레미스 복제 솔루션은 하드웨어와 라이선스를 이중으로 구축해야 했기 때문에 비용이 두 배로 증가했습니다.
Snowflake는 컴퓨팅과 스토리지를 분리하는 구조를 기반으로 고도로 압축된 마이크로 파티션을 복제하고 이를 통해 복제 환경에서 스토리지 효율성과 데이터 최신성을 개선합니다. 필요한 시점에 컴퓨팅 리소스를 즉시 활성화할 수 있어 빠르게 복구할 수 있으며 사용한 만큼만 비용을 지불하는 방식으로 운영합니다. 데이터를 중복 로드 및 전송하는 ETL 작업을 수행할 필요가 없어지면서 약 30% 수준의 비용 절감 효과를 얻을 수 있었습니다.
비즈니스 연속성을 강화하는 네 가지 핵심 팁
DTCC는 Snowflake 팀과의 파트너십을 통해 긴밀하고 지속적인 피드백 루프를 유지하며 PrPr 단계에서 새로운 기능을 직접 테스트할 수 있는 기회를 얻고 있습니다. 긴밀한 협업을 통해 SCIM(System for Cross-domain Identity Management) 프로비저닝과 사용자 복제 등 복잡한 핵심 과제들을 구현할 수 있게 되었습니다.
각자의 비즈니스 연속성 이니셔티브를 추진하거나 이미 진행 중인 노력을 이어가는 과정에서 Snowflake를 기반으로 삼을 것을 강력히 권장하며 다음과 같은 조언을 제시합니다.
- 조직의 자산을 정확히 이해하고 각 애플리케이션별로 허용 가능한 데이터 손실이나 가동 중지 시간이 무엇인지(있다면) 반드시 식별해야 합니다.
- 지속적인 테스트로 엣지 케이스까지 철저히 점검하세요.
- 자동화는 선택이 아니라 필수입니다. 미션 크리티컬 애플리케이션에 요구되는 확장성과 효율성을 확보할 수 있는 유일한 해법이기 때문입니다.
- 지속적인 개선을 위해 계속 측정하세요.
DTCC는 처음부터 복원력을 고려해 IT 전략을 설계해 왔다는 점을 자부합니다.
Snowflake와 Snowgrid의 크로스 클라우드 기능을 통해 아키텍처 전반의 보안과 운영 요구 사항을 충족할 수 있었으며, 그 결과 사용자 경험 최적화와 비즈니스 가치 증대에 리소스를 집중할 수 있었습니다.
Snowgrid가 궁금하신가요? Operate at Global Scale With Snowgrid 솔루션 개요에서 그 내용을 확인하세요.

