엔진을 데이터로 가져오다...3개 글로벌 기업의 레이크하우스 분석과 AI 구현 사례

지금은 과거 그 어느 때보다 더 많은 데이터에 접근할 수 있게 되었지만 엔터프라이즈 환경에서 신뢰할 수 있는 분석과 AI를 대규모로 제공하는 일은 오히려 더 어려워졌습니다. 데이터 레이크가 비즈니스 크리티컬 분석과 의사 결정을 위한 공유 기반으로 자리 잡으면서, 안정성, 동시성 및 비용 예측 가능성과 관련된 과제가 빠르게 부각되고 있습니다.
지금까지는 개방형 테이블과 데이터 형식이 이러한 과제의 일부를 해결해왔습니다. Apache Iceberg와 같은 형식은 데이터 저장 및 접근 방식을 표준화함으로써, 조직이 데이터를 보다 효과적으로 통제할 수 있도록 지원하고 여러 엔진 간 상호 운용 가능한 분석을 위한 기반을 마련합니다. 하지만 개방성만으로는 분석 문제를 해결할 수 없습니다.
데이터가 여러 클라우드, 카탈로그 및 도구에 걸쳐 분산됨에 따라, 많은 팀들은 여전히 비즈니스 기대 수준에 부합하는 분석을 제공하는 데 어려움을 겪고 있습니다. 성능 튜닝, 운영 오버헤드, 단편화된 보안 모델은 많은 경우 원시 데이터와 신뢰할 수 있는 인사이트 사이를 가로막는 장벽으로 작용합니다.
이에 따라 점점 더 많은 조직이 효율성을 중심에 두고 분석 아키텍처를 재고하고 있습니다. 도구를 데이터가 있는 곳으로 가져오려는 동기는, 개방형 스토리지에 단일하고 거버넌스가 적용된 데이터 사본을 유지함으로써 팀이 데이터 이동이나 복제 대신 가치 창출에 집중할 수 있도록 하는 데서 비롯됩니다.
바로 이러한 맥락에서 새로운 접근 방식이 구체화되고 있습니다. Apache Iceberg와 같은 개방형 테이블 형식에 기반을 두고, Delta와 같은 추가 형식을 지원하는 Snowflake는 비즈니스 크리티컬 워크로드를 위해 설계된 강력한 분석 엔진을 데이터가 있는 위치로 직접 가져옵니다. 데이터를 또 다른 시스템으로 마이그레이션하는 대신, 팀은 성능, 안전성, 그리고 비용 예측 가능성을 희생할 필요 없이, 데이터가 위치한 곳에서 그대로 작업할 수 있습니다.
이 접근 방식은 개념적으로도 흥미롭지만, 실제 적용 사례에서 그 진가가 더욱 분명해집니다. 이 글에서는 BMW Group, Indeed, WHOOP 등 세 고객사가 이 접근 방식을 적용하여 전체 데이터 자산에서 분석과 AI를 구현하고, 개방형 데이터 아키텍처를 측정 가능한 비즈니스 성과로 전환한 사례를 소개합니다.
비전에서 검증으로
Indeed 사례: 셀프서비스 데이터 액세스 확장과 함께 43% 비용 절감 실현
Indeed는 전사 차원의 미션 크리티컬 보고, 분석 및 실험을 지원하는 52페타바이트 데이터 레이크를 운영합니다. 셀프서비스 액세스(i.e., Apache Iceberg™ 테이블을 읽고 쓸 수 있는 기능)에 대한 수요가 증가함에 따라, 데이터 엔지니어링 팀은 병목 현상 없이 분석을 확장할 수 있는 방법이 필요했습니다.
Indeed는 데이터 레이크를 Hive-ORC에서 Apache Iceberg로 전환함으로써 개방형 데이터 전략에 부합하는 ‘한 번 저장하고 어디서나 활용하는(write once, read anywhere)’ 접근 방식을 채택했습니다. Snowflake는 Horizon Catalog를 통해 컬럼 수준 보안 및 마스킹을 포함한 보안 및 거버넌스 제어를 유지하면서 분석가가 분석가가 Iceberg 테이블을 직접 읽고 쓸 수 있도록 지원합니다.
Indeed는 내부 테스트를 통해,Iceberg 테이블에서 Snowflake를 사용할 경우 동일 환경에서 평가한 다른 분석 엔진에 비해 쿼리 비용이 43%~74% 낮아지는 것을 확인했습니다. 이러한 개방형 형식, 거버넌스 기반 액세스, 고성능 분석의 조합은 확장 가능한 레이크하우스 환경에서 실험, 제품 분석, 인사이트 도출을 가속화할 수 있도록 지원합니다.
Indeed는 Snowflake의 Apache Iceberg 네이티브 지원을 통해, 대규모 데이터 레이크를 거버넌스 기반의 셀프서비스 분석 플랫폼으로 전환했습니다.
WHOOP 사례: 실시간 건강 인사이트 지원 및 컴퓨팅 시간 대폭 단축
WHOOP는 웨어러블 디바이스에서 매일 수십억 개의 생체 신호를 분석하여 회원 인사이트, 제품 혁신 및 비즈니스 예측을 지원합니다. 회사가 성장함에 따라 민감한 건강 정보를 강력한 거버넌스 아래 유지하면서도 시스템 간에 데이터를 통합할 수 있는 방법이 필요했습니다.
WHOOP는 Snowflake에 데이터를 통합하고 Apache Iceberg를 활용함으로써 Horizon Catalog를 통해 보안을 유지하면서 데이터 액세스 및 관리를 단순화했습니다. 그 결과, 새로운 AI/ML 재무 예측 모델이 3배 더 빠르게 실행되고 있으며, 운영 복잡성 감소를 통해 매일 20시간의 컴퓨팅 시간을 절감하고 있습니다.
WHOOP는 Snowflake를 통해 더 빠른 재무 예측과 회원 맞춤형 경험을 구현함으로써 분석과 AI를 경쟁 우위로 전환하고 있습니다.
BMW Group 사례: 1만 명 이상 사용자에게 글로벌 인사이트 제공하며 효율성 25% 개선
BMW Group은 Cloud Data Hub를 통해 대규모 글로벌 데이터 환경을 운영하여, 제조, 서비스, 공급망 및 지속 가능성 등 다양한 사용 사례의 데이터를 통합합니다. 이 플랫폼은 15개 비즈니스 도메인에 걸쳐 6,000개 이상의 데이터 세트를 포함하고 있으며, 월 10,000명 이상의 사용자에게 서비스를 제공합니다. 이에 따라 유연성과 일관된 거버넌스가 동시에 요구됩니다.
이러한 베스트 오브 브리드 아키텍처를 지원하기 위해 BMW는 Apache Iceberg와 AWS 네이티브 도구를 활용해 분산된 개방형 데이터를 관리하고, 빠르고 안정적인 분석이 필요한 영역에 Snowflake를 통합했습니다. Snowflake는 BMW의 기존 데이터 자산에 고성능 컴퓨팅을 제공하여 기존 시스템을 변경하거나 불필요하게 데이터를 복제하지 않고도 복잡한 운영 분석을 가능하게 합니다.
그리고 이 접근 방식은 측정 가능한 성과를 가져왔습니다.
BMW는 특정 서비스 데이터 워크로드에서 평균 25% 비용 절감을 달성했으며, 60개 이상의 데이터 활용 사례를 Snowflake에서 프로덕션 환경으로 전환했습니다. 이를 통해 팀은 지역 및 워크로드 전반에서 일관된 거버넌스를 유지하면서 더 빠르게 인사이트에 접근할 수 있게 되었습니다.
복잡성에서 명확성으로
BMW Group, Indeed, WHOOP는 각기 다른 과제를 안고 있었지만, 이들의 사례에는 공통된 패턴이 존재합니다. 세 조직 모두 아키텍처 효율성을 유지하기 위해 도구를 데이터가 있는 곳으로 가져오는 전략을 선택했으며, 단일하고 개방적이며 거버넌스가 적용된 기반을 유지하는 데 중점을 두었습니다. Apache Iceberg와 같은 개방형 테이블 형식으로의 전환은 이를 가능하게 하여, 대규모 데이터 관리를 위한 구조, 일관성 그리고 상호운용성을 제공합니다. 그리고 Snowflake는 그동안 부족했던 요소를 보완했습니다. 즉, 개방형 데이터 위에서 직접 실행할 수 있고, 사용량이 증가하더라도 동시성과 비용 관리 기능을 지원하는 신뢰성 높은 분석 및 AI 엔진을 제공한 것입니다.
이들 조직은 여러 엔진과 거버넌스 계층을 결합하는 대신, 기존 Snowflake 환경에서 진행 중인 작업을 보완할 수 있도록 Snowflake를 데이터가 위치한 곳으로 가져왔습니다. 또한 데이터 자산 전반에 걸쳐 통합된 강력한 분석 엔진을 적용해 개방형 데이터를 이동하거나 복제하지 않고, Snowflake에 저장된 데이터와 함께 직접 처리했습니다. 그 결과, 데이터 플랫폼을 재설계하지 않고도 더 빠르게 움직이고, 운영을 단순화하며, 신뢰할 수 있는 분석 및 AI를 제공할 수 있게 됐습니다.
이들 사례에서는 세 가지 핵심 아키텍처 원칙이 공통적으로 나타납니다:
데이터를 있는 그대로 활용: Iceberg, Delta 테이블, Parquet 파일 등 데이터가 위치한 곳에서 이동하거나 복제하지 않고 직접 작업합니다.
대규모 환경에서도 고성능 제공: 사용량이 증가하더라도 속도와 성능의 안전성, 예측 가능성을 유지하면서 동시 다발적인 비즈니스 크리티컬 워크로드를 지원합니다.
분석과 AI의 통합: 데이터 위치와 관계없이 하나의 분석 플랫폼으로 전사적 의사 결정을 가속화합니다.
Snowflake는 이들 조직의 오픈 아키텍처를 대체한 것이 아닙니다. 오히려 개방성과 운영 안정성 사이에서 선택해야 했던 트레이드오프를 제거함으로써 이들이 필요로 하던 성능과 신뢰성을 데이터가 있는 곳에 더했습니다. WHOOP의 SLA 준수를 지원했고, BMW의 비용을 절감했으며, Indeed 데이터 팀의 영향력을 확대했습니다.
아래 기능들은 데이터 위치를 변경하지 않고도 오픈 데이터에 프로덕션급 분석 엔진을 어떻게 적용할 수 있는지 보여줍니다.
기능 |
기능 설명 |
비즈니스 임팩트 |
Iceberg 테이블에서의 읽기/쓰기/관리 기능 |
물리적 위치나 카탈로그 소스에 관계없이 모든 Iceberg 데이터 자산에 대한 운영 및 수명 주기 관리를 중앙 집중화함 |
데이터가 위치한 곳에서 직접 분석함으로써 인사이트 도출을 가속화하고 비용을 절감하며, 전사 차원의 일관된 글로벌 보안 및 성능을 가능하게 함 |
자동 최적화 |
파일 크기, 파티션 및 쿼리를 백그라운드에서 지속적으로 튜닝함 |
쿼리 속도를 향상시키고 총소유비용을 자동으로 절감함 |
비즈니스 연속성 및 복제 |
핵심 Iceberg 테이블에 대한 크로스 리전 장애 조치를 제공함 |
가동 시간을 유지하고 비즈니스 연속성을 보호함 |
Snowflake Cortex AI 및 Snowpark |
데이터가 저장된 위치에서 ML 추론과 데이터 앱을 직접 실행함 |
가공 전 데이터에서 실행 가능한 인사이트까지의 사이클을 단축함 |
시맨틱 뷰 |
비즈니스 지표와 엔터티 관계를 중앙에서 정의 및 저장하여 AI 에이전트, BI 대시보드 및 SQL 쿼리에 일관된 로직을 제공함 |
가공 전 데이터와 비즈니스 컨텍스트 간의 간극을 해소하고, 정확한 LLM 응답과 전 도구에 걸쳐 거버넌스 기반 통합 인사이트를 지원함 |
데이터 위치에 구애받지 않고 분석과 AI를 더 간단하게 실행하는 방법
조직들이 아키텍처 효율성을 모색하는 가운데, 하나의 공감대가 형성되고 있습니다. 즉, 데이터를 시스템 간에 이동시키기보다, 거버넌스가 적용된 단일 데이터 사본을 유지하고, 그 위로 분석 및 AI 엔진을 가져와야 한다는 것입니다. Snowflake는 해당 데이터를 신뢰할 수 있는 분석 및 AI로 전환하는 통합 엔진과 세계적 수준의 플랫폼을 제공합니다. BMW, Indeed, WHOOP의 사례는 각기 다른 산업에서 더 빠른 의사 결정, 강화된 거버넌스 제어, 그리고 효율적인 운영을 어떻게 실현할 수 있는지 보여줍니다.
데이터는 이미 준비가 되어 있습니다. 이제는 그 데이터를 활용할 차례입니다.
