참고: 이 내용은 2022. 6. 2에 게시된 컨텐츠(Leveling Up Our SLA Commitments)에서 번역되었습니다.

요약

Snowflake는 당사 서비스 수준 협약(SLA)에 99.99%의 목표를 추가합니다. 당사의 데이터에 따르면 99.9%를 목표로 하는 기존 SLA 고객에게 사실 더 나은 것으로 밝혀졌으므로, 해당 SLA 역시 유지합니다. 이러한 변화의 목표는 아주 복잡한 주제에서 혼동을 일으킬 수 있는 잠재 요인을 제거하여 당사의 SLA를 경쟁사와 더욱 쉽게 비교할 수 있도록 하며, 필요한 곳에 자금을 지원하기 위해서입니다.

배경 상황

Snowflake의 지원 정책은 고객에 대한 SLA를 정의합니다. 변호사만 마음에 들어 할 법한 이 문서는 당사 제품에 대해 측정하기에 좋으면서도 모호하지 않은 기준을 제공하며, 고객마다 이러한 기준으로 신뢰할 수 있는 평가를 받을 수 있습니다. 이는 높은 수준에서 99.9%의 시간 동안 1% 이하의 쿼리 오류율로 정의됩니다. 이러한 조치는 거의 항상 안정적인 서비스 제공을 보장하지만 한 달 동안 최대 43분의 중단 가능성이 있다는 것을 인정합니다.

또 다른 데이터 웨어하우스는 99.99%에 달하는 시간에 10% 이하의 오류율이라는 다른 매개변수로 SLA를 제공합니다. 이러한 조치는 항상 상대적으로 높은 백그라운드 오류 비율(최대 10%)을 허용하지만, 서비스가 완전히 중단되는 시간은 한 달에 약 4분으로 제한합니다.

SLA 위반 상황이 일어나면 두 경우에서 전부 사용자에게 사용 크레딧이 제공됩니다. 당사는 Snowflake가 제공하는 고객 서비스의 안정성을 측정하고 이러한 여러 SLA 기준의 영향을 계산할 수 있는 몇 년 전의 데이터를 보유하고 있습니다. 경험에 비추어 봤을 때 당사는 99.99%의 10% 오류율을 이용한 사용자에 비해 기존의 1% 오류 계산을 이용한 사용자에게 더 많은 크레딧을 제공하며, 당사는 이것이 고객께서 실제로 원하시는 사항인 모든 쿼리의 성공을 추구하는 더 엄격한 척도라고 믿습니다. 

새로운 SLA

2022년 6월부터 Snowflake는 다음의 가장 까다로운 두 가지 기준에 따라 SLA 쿼리를 성공적으로 실행할 것을 약속합니다.

  • 99.9%에 달하는 시간 동안 오류율 1% 미만
  • 99.99%에 달하는 시간 동안 오류율 10% 미만

이러한 조치는 기본적으로 이제 당사가 매우 높은 오류 비율을 보인 4분~43분 사이의 대규모 서비스 중단 1회에 대해서는 수 개월간 고객에게 크레딧을 제공할 예정임을 뜻합니다. 이 정도의 중단 상황은 Snowflake에서 흔히 벌어지는 일이 아닙니다. 당사 데이터에 따르면 특정 달의 99.99% SLA에 대해 오류율 10%를 허용하는 조치를 적용하는 것만으로도 고객의 SLA 크레딧이 40% 감소하게 됩니다. 두 SLA의 장점을 전부 적용함으로써 고객께서는 크레딧 발행 수가 약 24% 증가하는 것을 볼 수 있습니다. 현재 거의 모든 중단 상황이 기존 SLA에 포함되어 있기 때문에 이러한 조치는 불균형합니다. 이러한 변경 조치는 서비스 중단을 방지하는 것의 중요성을 인식하고 당사가 계속해서 우수한 서비스를 제공할 수 있도록 당사의 인센티브를 고객의 인센티브와 맞추는 것입니다.

신뢰성 엔지니어를 위한 기술적 세부 사항

이러한 산업 표준 SLA 기준은 사용자의 경험을 제대로 측정하지 못합니다. 기본 SLI(서비스 수준 지표)는 쿼리 실행에 중점을 두므로 클라이언트 라이브러리 동작부터 올바른 결과 제공에 이르기까지 실제 사용자 워크플로의 여러 중대한 구성 요소를 놓칩니다. 또한 이러한 측정 방식은 암암리에 사용자의 Snowflake 도달 및 인증 여부에 의존합니다.

당사는 현재 추가 가용성 자원을 모니터링하며 이를 내부 SLO(서비스 수준 목표)에 통합합니다. 당사는 SLO 위반 시 그 이유를 이해하기 위해 엄격한 내부 엔지니어링 사후 검토를 진행하며 이러한 위반이 사용자에게 영향을 미칠 경우 해당 문제의 근본적인 원인을 알아내기 위해 진행한 외부 버전의 분석을 게시합니다. 당사는 Snowflake 배치를 통해 이러한 사후 검토 데이터를 종합하며 이에 해당하는 ‘가용성’ 데이터를 당사의 커뮤니티 사이트에 올립니다. 이러한 종합 척도가 SLA 크레딧으로 곧바로 변환되지는 않지만, 이는 시간의 흐름에 따라 증가하는 안정성에 대한 인사이트를 제공해 줍니다.