Data for Breakfast 서울 - 3월 19일 (목)

데이터와 에이전틱 인텔리전스로 비즈니스 가치를 실현하세요!

데이터 메시: 정의 및 원칙

데이터 메시는 조직이 데이터 중심으로 전환하면서 겪는 여러 문제점을 해소하는 조직 차원의 분산형 데이터 접근 방식입니다. 

  • 개요
  • 데이터 메시란?
  • 데이터 메시 접근 방식의 4가지 핵심 원칙
  • 리소스

개요

오늘날 조직들은 점점 더 많은 수의 소스에서 더 방대한 양의 데이터를 생성하고 있습니다. 여러 조직이 데이터에서 더 많은 가치를 더 신속하게 확보하고자 노력하면서, 변화에 대응하는 데 어려움을 겪고 있습니다. 최근 몇 년 동안 등장한 한 가지 해결책은 데이터 메시입니다. 데이터 메시는 조직 차원의 분산형 데이터 접근 방식으로, 조직이 데이터 중심으로 전환하면서 겪는 여러 문제점을 해소합니다. 

이 페이지에서는 데이터 메시의 정의와 함께, 데이터 메시 접근 방식을 통해 셀프서비스 데이터 프로그램을 대규모로 구현할 때 직면하는 여러 장애물을 어떻게 해결할 수 있는지 자세히 살펴봅니다.

데이터 메시란?

데이터 메시는 데이터 관리를 위한 도메인 중심의 셀프서비스 설계에 중점을 둡니다. 또한, 이는 데이터 팀 구성에 새로운 접근 방식을 제시하여, 데이터 웨어하우스 및 데이터 레이크와 같은 중앙 집중식 데이터 아키텍처 확장 시에 발생하는 주요 과제를 해결합니다.

데이터 메시에서 각 팀은 특정 비즈니스 도메인 내에서 데이터를 적극적으로 관리합니다. 이뿐만 아니라, 조직 전체 소비자들에게 데이터 제품을 제공하는 파이프라인을 구축하고 유지 관리합니다. 각 도메인 데이터 팀은 자체 데이터의 사용, 저장, 변환 및 출력을 독립적으로 처리합니다. 이러한 자율성은 모든 도메인과 데이터 제품에서 일관된 상호운용성과 데이터 표준을 보장하는 보편적인 거버넌스 기준을 전제로 합니다.

데이터 메시 접근 방식의 4가지 핵심 원칙

데이터 메시 접근 방식은 중요한 패러다임 전환을 나타냅니다. 이를 성공적으로 구현하려면 다음 네 가지 핵심 원칙이 필수적입니다. 

1. 도메인 중심 소유권: 이전에는 중앙 집중식 데이터 웨어하우스 아키텍처가 데이터 웨어하우스 팀에 데이터 소유권을 부여했습니다. 하지만 데이터 메시에서는 데이터 소유권을 도메인 팀으로 이전합니다. 이제 도메인 팀은 데이터 수집, 정제, 변환, 관리, 거버넌스 적용을 통해 데이터 제품을 완성하며, 필요에 따라 다른 팀과 쉽게 공유할 수 있습니다. 이와 같은 구조가 효과적인 이유는, 해당 비즈니스 영역의 데이터를 가장 깊이 이해하고 있는 도메인 팀이 가장 효율적으로 관리할 수 있기 때문입니다. 도메인 팀에 데이터 소유권을 부여함으로써 결과적으로 조직의 데이터 민첩성이 향상합니다.

2. 제품형 데이터: 조직은 데이터를 ‘제품’으로, 데이터 사용자를 ‘고객’으로 간주하여, 보다 사용자 중심적이고 가치에 기반한 데이터 관리 접근 방식을 취해야 합니다. 그리고 도메인 팀은 제품 개발뿐만 아니라 정확성, 최신성 및 고품질을 보장하기 위해 해당 제품을 유지 관리해야 합니다. 

3. 셀프서비스 인프라: 성공적인 데이터 메시 접근 방식은 공유 플랫폼과 사용자 친화적인 도구를 기반으로 합니다. 이에 따라 데이터 인프라에 대한 기술 지식이 없는 사용자도 쉽게 접근할 수 있습니다. 도메인 팀은 데이터 제품을 독립적으로 구축하고 유지 관리해야 합니다. 셀프서비스 인프라가 없으면 도메인 팀은 제한된 인프라 자원에 의존해야 하며, 자체 데이터를 실제로 소유할 수 있는 도구가 부족해집니다.

기존의 프레임워크 대비 데이터 메시가 더 효과적으로 확장 가능한 이유는, 중앙 집중식 데이터 엔지니어링 팀이 모든 도메인 지식을 보유할 필요가 없기 때문입니다. 담당 분야의 전문 지식은 도메인 팀이 제공합니다. 이러한 분산형 접근 방식은 신속한 확장을 촉진하며, 실행 가능한 데이터에 빠르게 액세스할 수 있도록 돕습니다.

4. 연합 거버넌스: 분산형 데이터 메시 접근 방식에서도 일관된 액세스 제어 및 데이터 보호를 유지하는 것은 여전히 매우 중요합니다. 기존의 중앙 집중식 접근 방식에서는 데이터 품질에 대한 책임은 데이터 웨어하우스 팀에게 있었으나, 해당 팀은 소스 팀만큼 특정 데이터에 익숙하지 않기 때문에 문제가 발생합니다. 하지만 분산형 데이터 메시로 전환하면 고품질 데이터의 유지 관리 책임을 해당 데이터에 가장 익숙한 팀에 부여할 수 있고, 이는 곧 데이터 품질 향상으로 이어집니다.

연합 거버넌스는 각 도메인이 자체 데이터 제품에 적용하는 메타데이터 및 문서화 표준을 정립합니다. 또한, 거버넌스는 서로 다른 도메인의 데이터 제품을 원활하게 통합합니다. 여기서 가장 중요한 점은, 글로벌 거버넌스 정책을 준수하는 동시에, 도메인 팀이 데이터 제품을 생성하고 공유할 때 해당 정책을 자율적으로 해석하고 구현할 수 있는 재량권 사이의 균형을 맞추는 것입니다.