참고: 이 내용은 2021.10.13 에 게시된 컨텐츠(Benchmarking Snowflake Versus Spark with LTI Mosaic Decisions)에서 번역되었습니다.

오늘날, 조직에는 더 빠르고, 더 나은 품질을 갖추고, 비즈니스 역학에 대해 더 높은 탄력성을 지닌 데이터 및 분석 통찰력이 필요합니다. 데이터 및 분석 리더가 데이터 관리를 위한 민첩하고 협력적인 프레임워크를 위해 DataOps로 눈을 돌리고 있는 것은 당연합니다.    

Gartner®는 DataOps를 ‘조직 전반에 걸쳐 데이터 관리자와 데이터 소비자 간 데이터 흐름의 커뮤니케이션, 통합 및 자동화를 개선하는 데 초점을 맞춘 협력적인 데이터 관리 관행’이라고 정의합니다.1 오늘날 기업은 확장 가능하고 비용 효율적이며 관리하기 쉬운 DataOps 플랫폼 및 솔루션을 구현하려고 합니다. LTI Mosaic Decisions은 그러한 플랫폼 중 하나로, 기업이 수집된 데이터를 사용하고, 데이터 제품의 독립적인 수명 주기를 개발하며, 실행 가능한 통찰력을 생성할 수 있는 기반을 구축할 수 있도록 합니다. 

빠르게 큰 규모로 이뤄지는 데이터 처리는 모든 DataOps 플랫폼의 핵심입니다. 데이터 처리 엔진에 대한 다양한 선택지를 고려해 볼 때, 각 옵션을 철저히 평가하여 귀하의 비즈니스 목표에 가장 잘 부합하는 옵션을 선택할 필요가 있습니다. LTI는 기업이 고유한 요구사항에 가장 효과적인 데이터 처리 엔진을 선택할 수 있도록 하기 위해 최근 Snowflake와 Apache Spark라는 두 가지 인기 있는 선택지의 기능을 비교하는 상세한 연구를 수행했습니다.2 이 비교 연구에서 LTI는 LTI의 Mosaic Decisions를 DataOps 플랫폼으로 사용했습니다. 이 연구는 다음과 같은 다양한 매개 변수에 대한 몇 가지 흥미로운 통찰력을 드러냈습니다.

  • 성능: Snowflake는 일반적으로 Apache Spark 분석 엔진의 200%에 달하는 데이터 처리 용량을 제공합니다. 성능과 TCO 측면에서 Snowflake는 ETL 사이클 전반에 걸쳐 Spark를 훨씬 능가하는 빠른 실행 속도를 자랑합니다. Snowflake의 다른 기능이 귀하의 비즈니스 요구에 부합한다고 가정하면, Snowflake는 Mosaic Decisions와 통합되고 함께 사용할 수 있는 자연스럽고 선호되는 선택지입니다. 
  • 민첩성: Snowflake는 진정한 SaaS 솔루션이기 때문에 간단하게 시작할 수 있습니다. 즉, 설치, 구성 및 관리에 어떤 하드웨어나 소프트웨어도 필요하지 않으며 심지어 구성요소에 대한 유지 보수 작업도 처리할 수 있습니다. 한편, Spark는 분석 전문가를 위해 개발된 기술로 최신 기술에 그다지 능숙하지 않은 사용자에게는 어려울 수 있습니다. 또한 Spark 클러스터에서 실행되는 데이터 파이프라인은 실행을 시작하는 데 약 5분이 소요되어 전체 처리가 지연되는 반면 Snowflake에서는 모든 데이터 실행이 즉시 시작되었습니다.
  • 안정성: Spark를 사용할 때 메모리 또는 디버깅 및 근본 원인 분석(RCA)을 수행하기 어려운 기타 문제로 인한 일부 작업 실패가 관찰되었습니다. 반면 Snowflake 실행 시에는 작업 실패가 단 한 건도 등록되지 않았습니다.
  • 사용 편의성: 조직은 확장 가능하고 비용 효율적이며 관리하기 쉬운 데이터 솔루션에 대한 전략적 투자를 지원하는 것이 필수적이라는 것을 깨달았습니다. Spark에서 성능을 추출하기 위해서는 많은 매개 변수를 구성해야 하는 반면 Snowflake의 경우 모든 것을 바로 사용할 수 있습니다. 
  • 동시성: 동시 사용자가 너무 많으면 필연적으로 사용자 요구에 맞게 시스템을 확장해야 합니다, 여기에서 Spark 대화형 클러스터와 Snowflake 가상 웨어하우스 모두 자동 크기 조정 기능을 제공합니다. 그러나 Spark 클러스터가 100명 이상의 동시 사용자를 관리하는 데 어려움을 겪는 반면 Snowflake는 25%의 리소스만 사용해도 3배 더 뛰어난 성능을 발휘했습니다.

관찰, 통찰력 및 권장 사항

LTI Mosaic Decisions와 Snowflake의 조합은 각 제품의 기능을 활용하고 보완하므로 기업에는 윈-윈 솔루션입니다. LTI Mosaic Decisions는 Snowflake의 플랫폼에 대한 즉각적인 지원과 함께 제공되며 Mosaic Decisions의 아키텍처는 높은 확장성과 성능을 활용하여 Snowflake의 아키텍처를 최대한 활용합니다. 따라서 Snowflake의 고성능 지향 아키텍처가 충분히 활용됩니다. 

Mosaic Decisions는 Snowflake에 대한 클라우드 네이티브 푸시다운 데이터 변환을 지원합니다. 이를 통해 Snowflake에 이미 저장되어 있는 절차를 활용할 수 있을 뿐만 아니라 Snowpark와 같은 새로운 제품 및 서비스와 쉽게 통합될 수 있도록 향후 요구 사항을 지원할 수도 있습니다. Mosaic Decisions에는 Snowflake의 쉬운 구성을 위해 기본적으로 내장된 기능이 있으며, 어떤 Snowflake 웨어하우스 실행이든 쉽게 관리할 수 있도록 특별히 제작된 애플리케이션이 있습니다. 또한 Snowflake 워크로드를 쉽게 생성할 수 있는 드래그 앤 드롭 기능도 제공합니다. 

요약하면, LTI의 Mosaic Decisions 플랫폼은 Snowflake와 Spark를 모두 지원하지만 Snowflake와 Mosaic Decisions의 조합은 솔루션 구현 시간과 ROI 모두에 최적화된 DataOps 플랫폼을 만들어냅니다. 이 블로그의 기반이 된 연구에 대해 자세히 알아보려면 LTI 백서 최적화된 DataOps를 위한 Snowflake 대 Spark 벤치마킹을 읽어보세요.


1 Gartner IT Glossary, ‘DataOps’, 2021년 9월 1일[https://www.gartner.com/en/information-technology/glossary/dataops]. GARTNER는 미국 및 국제적으로 Gartner, Inc. 및/또는 그 계열사의 등록 상표 및 서비스표이며 허가를 받아 여기에서 사용됩니다.

2 lti.co/CyTwFD4