AI 시대, 데이터 주도권 확보하기

개방형 레이크하우스의 핵심 개념은 거버넌스를 유지하면서 모든 엔진에서 액세스할 수 있는 단일 데이터 사본이지만, 이 구상은 오랫동안 ‘독점적 종속성’에 가로막혀 왔습니다. Apache Iceberg™는 데이터 상호운용성에 대한 초기 해법으로 부상했지만, 현재 요구사항을 충족하는 데 오픈 포맷만으로는 한계가 있습니다.

AI 시대에는 데이터 사일로, 거버넌스 단절, 시맨틱 분절이 혁신에 부담으로 작용합니다. 팀이 데이터가 존재하는 위치에서 바로 활용하지 못하면 결국 데이터를 이동해야 하며, 그 결과 비용이 증가하고 AI가 필요로 하는 풍부한 시맨틱 맥락이 결여된 노이즈 데이터가 늘어납니다. 결국 AI 이니셔티브는 시작하기도 전에 추진력을 잃게 됩니다.

Snowflake는 완전한 상호운용성이 현실이 되는 미래를 만들어가고 있습니다. 데이터, 거버넌스, 시맨틱 상호운용성 전반에서 커뮤니티와 협력함으로써 고객이 데이터 사일로와 다층적 분절을 근본적으로 해소할 수 있도록 합니다.

그 결과, 사용자는 자신의 데이터에 대한 주도권을 갖게 됩니다. 거버넌스 통제와 시맨틱 컨텍스트를 유지하면서, 단일 논리적 데이터 사본을 기반으로 어떤 작업을 어디에서 어떻게 안전하게 수행할지 결정할 수 있습니다.

데이터 주도권 확보를 위한 아키텍처 설계

하지만 데이터 주도권은 단일 공급업체나, 또는 단순한 데이터 상호운용성만으로는 달성할 수 없습니다. 아키텍처의 각 계층에서 상호운용성이 필요합니다. 이 비전을 실현하려면 솔루션은 널리 인정받는 오픈 및 커뮤니티 중심 이니셔티브를 기반으로, 공급업체에 종속되지 않는 상호운용성을 최우선으로 고려해야 합니다.

데이터 상호운용성

엔진과 무관하게 사용자가 데이터에 대한 주도권을 갖는 출발점은 공통 테이블 형식입니다. 다양한 플랫폼 전반에서의 광범위한 네이티브 지원과 활성화된 커뮤니티 생태계를 기반으로, Iceberg는 해당 요건을 충족하는 포맷입니다. 최근 커뮤니티는 Iceberg v3라는 중요한 이정표에 도달했습니다. Iceberg v3는 기존 기능을 기반으로 반정형 데이터, 변경 데이터 캡처(CDC) 등 주요 사용 사례까지 데이터 상호운용성을 확장합니다.

오늘 샌프란시스코 Iceberg Summit 현장에서, v3 기능에 대한 지원 범위를 한층 확장하며 곧 정식 출시(GA)됨을 발표하게 되어 매우 기쁘게 생각합니다.

Iceberg v3 지원 사용 사례

v3 기능을 폭넓게 지원하면서 고객 데이터는 그 어느 때보다 다양한 엔진에서 활용할 수 있습니다. 고객은 Snowflake의 Horizon Catalog 또는 기타 카탈로그로 관리되는 Snowflake for Apache Iceberg 테이블을 통해 다음과 같은 사용 사례를 구현할 수 있습니다.

  • VARIANT 데이터 타입: Iceberg 테이블 내 반정형 데이터를 지원하며, 이를 분해해 활용할 수 있어 구조화된 성능과 반정형 데이터의 유연성을 동시에 제공합니다.
  • 행 계보: 여러 엔진에 걸쳐 변경 사항을 추적해 행 수준 CDC를 구현합니다.
  • 삭제 벡터: 행 수준 삭제를 더 높은 성능으로 처리할 수 있도록 지원하며, position delete 파일과 관련된 유지 관리 부담을 완화합니다.
  • 나노초 정밀 타임스탬프: 고빈도 금융, 이벤트 텔레메트리, 사물 인터넷(IoT) 데이터에서 요구되는 높은 정밀도의 타임스탬프를 지원합니다.
  • 지리공간 타입: 기하학 정보를 네이티브로 저장하고 이를 기반으로 프루닝을 수행합니다.

pg_lake로 트랜잭션 사일로 해소

모든 데이터 세트가 분석 레이크에서 시작하는 것은 아닙니다. 기업의 핵심 데이터 상당수는 Postgres와 같은 트랜잭션 데이터베이스에 저장되어 있습니다. 그동안 트랜잭션과 분석이라는 두 세계는 서로 분리된 사일로로 존재해 왔습니다. 이를 연결하기 위해 팀은 데이터를 이동시키는 파이프라인으로 두 환경을 이어야 했습니다.

이 간극을 메우기 위해 Snowflake는 pg_lake를 개발하고 오픈소스로 공개했습니다. 이 확장 기능은 Postgres를 표준 데이터베이스에서 데이터 레이크하우스 기능의 일부로 전환합니다. pg_lake는 데이터베이스에 두 가지 새로운 역량을 제공합니다.

  • 데이터를 이동하지 않고 제자리에서 바로 쿼리할 수 있습니다. 복잡한 로드 과정 없이 Postgres에서 데이터 레이크의 Parquet 및 CSV 파일을 직접 읽을 수 있습니다.
  • Postgres 자체를 관리 계층으로 사용하여 Iceberg 테이블을 네이티브로 관리할 수 있습니다.

이제 트랜잭션 데이터와 분석 데이터는 동일한 오픈 표준을 기반으로 함께 작동합니다.

거버넌스 이동성: Apache Polaris™

거버넌스 제어와 보안 액세스는 데이터가 이동하는 모든 환경에서 일관되게 적용되어야 합니다. 이러한 이유로 2년 전 Snowflake는 Iceberg 카탈로그를 오픈소스로 공개하고 기부했으며, 현재 Apache Polaris로 발전했습니다. 또한 커뮤니티와 협력해 이 오픈소스 카탈로그가 Apache Software Foundation의 Top-Level Project로 자리 잡도록 기여해 왔습니다. Snowflake의 목표는 자사 또는 타 플랫폼의 세분화된 액세스 제어가 어떤 엔진, 어떤 컴퓨팅 환경에서도 일관되고 고성능으로 적용되도록 하여, 고객이 보안과 상호운용 가능한 레이크하우스의 유연성 사이에서 선택을 강요받지 않도록 하는 환경을 구축하는 것입니다.

그동안 권한 관리는 데이터베이스 엔진에 하드코딩되어 왔으며, 이로 인해 고객은 정책 정의와 정책 실행이라는 두 가지 수준에서 묶여 있었습니다. 그러나 문제는 고객이 이러한 엔진이 규칙을 집행하는 것을 신뢰하지 않는 데 있는 것이 아닙니다. 고객은 이를 지금까지도 계속 신뢰해 왔습니다. 실제로 문제의 핵심은 세분화된 액세스 제어(FGAC)를 구현하려면 컴퓨팅이 해당 규칙을 이해하고 실행할 수 있어야 한다는 점입니다.

Snowflake는 Apache Polaris로 이 순환을 끊고 있습니다. Policy Exchange, Governance Federation, Read Restriction API에 대한 표준을 개발함으로써 플랫폼 전반에서 정책을 교환할 수 있는 표준화된 방식과 정책 실행을 관리하기 위한 신뢰 메커니즘을 구축하고 있습니다. Read Restriction API를 활용하면 플랫폼은 사전 평가된 액세스 규칙을 공유하고, 다운스트림 엔진이 이를 그대로 직접 집행할 수 있습니다. 이를 통해 거버넌스가 데이터와 함께 실제로 이동하도록 보장하며, 데이터 물리화에 따른 불필요한 ‘컴퓨팅 부담’을 제거해 어떤 엔진에서도 일관된 정책 집행을 가능하게 합니다.

목표는 단순합니다. 세분화된 보안 및 거버넌스 제어는 Snowflake Horizon을 포함한 모든 지원 카탈로그에서, 서버 측 물리화나 성능 저하 없이 모든 엔진에 걸쳐 일관되게 적용되어야 합니다.

시맨틱 컨텍스트: OSI 기반 AI 그라운딩 구현

비즈니스 로직이 독점적 사일로에 갇혀 있으면 AI 에이전트는 토큰을 낭비하고 의미를 ‘추측’하게 됩니다. 이를 해결하기 위해 Snowflake는 Open Semantic Interchange(OSI)를 구축하고 있습니다. 이는 메트릭, 차원, 관계를 정의하는 공급업체 중립 사양으로, 시맨틱 컨텍스트를 Iceberg 자체만큼 개방적이고 상호운용 가능하게 만듭니다. 첫 번째 OSI 사양은 Apache 2 라이선스로 이미 공개되었으며, Salesforce, dbt Labs, Databricks를 포함한 35개 이상의 업계 리더가 함께하고 있습니다. 또한 재단 주도의 중립적 거버넌스로 전환하겠다는 약속을 담고 있습니다.

Snowflake 고객은 지금 바로 Horizon Catalog의 시맨틱 뷰로 시작할 수 있으며, 이를 통해 Snowflake Cortex AI와 에이전트형 애플리케이션이 정확하게 추론하는 데 필요한 거버넌스가 적용된 ‘단일 데이터 기준’을 제공받습니다. 또한 OSI가 업계 전반에서 표준화하고 있는 동일한 기반 구조 위에서 구축할 수 있습니다.

더 개방적으로

사용자 데이터에 대한 주도권을 여는 것은 Snowflake 엔지니어링 문화의 근본적인 전환을 의미합니다. Snowflake는 더 이상 오픈소스의 단순한 소비자가 아닙니다. Snowflake는 커뮤니티와 함께 구축하고 있습니다. 이러한 변화는 커뮤니티와 협력해 데이터 주도권을 모두에게 현실로 만드는 데 기여했다는 점에서 자부심을 갖고 있습니다.

  • 9,000건 이상의 기여: 지난 2년 동안 Snowflake 엔지니어들은 오픈소스 프로젝트에 수천 건의 커밋과 풀 리퀘스트를 작성했습니다.
  • 운영 투명성: Snowflake는 공개된 환경에서 개발을 진행하며 Iceberg의 collation과 같은 제안을 제출해 공개 피드백을 수렴하고 커뮤니티를 통해 합의를 구축하고 있습니다.
  • Iceberg v4: Snowflake는 이미 차세대 영역에서도 활발히 협업하고 있으며, single-file commit/adaptive metadata tree를 포함한 핵심 메타데이터 구조 재설계를 통해 스트리밍 워크로드의 지연 시간을 최소화하고 있습니다. 또한 Parquet manifest 지원과 인덱싱 개선 작업도 병행하고 있습니다.

미래는 모두의 것

진정한 오픈 데이터 상호운용성이 현실이 되려면 우리 모두가 각자의 역할을 해야 합니다. 결국 이는 공동의 책임입니다. 이는 ‘독점적 종속성’을 넘어서는 것을 의미합니다. AI 시대가 바로 이를 요구하기 때문입니다.

어떤 단일 공급업체도 데이터 사일로와 파편화를 혼자서 해결할 수는 없습니다. 이를 위해서는 사용자, 공급업체, 조직이 공동의 목표를 향해 함께 움직이는 다양한 커뮤니티가 필요합니다. 그래야만 전 세계 데이터 팀이 오픈소스의 약속, 즉 데이터에 대한 주도권을 실제로 확보할 수 있습니다.

Iceberg Summit에 참석하셨다면 PR 작성과 스펙 제안 리뷰를 수행하는 Snowflake 엔지니어들을 직접 만나보세요. 모든 작업은 공개되어 있으며 누구에게나 열려 있습니다. 데이터에 대한 주도권을 사용자가 갖는 미래는 모두의 것입니다.

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Where Data Does More

  • 30일 무료 평가판
  • 신용카드 불필요
  • 언제든지 취소 가능