데이터 메시에 관한 시각: Roche Diagnostics와의 Q&A

참고: 이 내용은 2022. 3. 24에 게시된 컨텐츠(Data Mesh Perspectives: A Q&A with Roche Diagnostics)에서 번역되었습니다.

디지털 혁신은 데이터의 극적인 증가를 주도하고 있으며, 특히 의료 산업에 지대한 영향을 미치고 있습니다. 웨어러블 기기 및 원격 의료에서부터 처방전 리필과 환자 결과에 이르기까지 환자, 파트너, 실험실, 서비스 제공업체, 기타 이해 관계자가 사용할 수 있게 수집되는 생명 과학 데이터의 양은 폭발적으로 증가하고 있습니다. 기업들이 AI를 적용하면서 연구 개발, 제조, 유통 공정 등의 공정들은 더욱더 자동화 및 지능화되고 있습니다. 코로나19의 전 세계적인 대유행은 지난 2년간 신속 정확한 스크리닝, 테스트, 모니터링에 특히 중점을 둔 진단의 중요성을 부각시켰습니다. 이 모든 것이 엄청난 양의 데이터와, 해당 데이터에 대한 엄청난 수요를 만들어 냅니다.

그렇다면 조직은 데이터 팀들이 확장하고 비즈니스에 실질적인 가치를 지속적으로 제공할 수 있도록 어떻게 데이터 중복, 처리 병목 현상, 액세스가 불가능한 리소스의 함정을 피할까요? 제약 및 생명 과학 분야의 거대 기업인 Roche의 사업부인 Roche Diagnostics의 경우, 새로운 접근 방식을 통해 해답을 찾았습니다. 바로 데이터 메시입니다.

데이터 메시 아키텍처는 데이터 확장과 관련된 장벽을 제거하고 조직 전체에 걸쳐 사용자들이 데이터를 사용할 수 있도록 하는 것을 목표로 합니다. 이것은 단순한 기술 솔루션에 불과한 것이 아닙니다. 또한 데이터를 자산으로 여기고 복잡성의 부담을 지지 않고 도메인 팀에 공개하기 위해서는 문화의 혁신적인 변화가 필요합니다. (이전 블로그에서 데이터 메시에 대해 자세히 알아보십시오.)

Roche Diagnostics의 BI 및 분석 책임자인 Omar Khawaja와 그의 팀은 셀프 서비스 데이터 및 분석 인프라 기능을 포함한 데이터 메시를 구현하기 위한 여정 중에 있습니다. 우리는 Omar Khawaja와 Roche Diagnostics의 데이터 관리 및 아키텍처 책임자인 Paul Rankin과 함께 그들이 데이터 메시에 어떻게 관심을 갖게 되었는지, 데이터 메시가 왜 Roche에 의미가 있는지, 프레임워크에서의 Snowflake의 역할이 무엇인지, 그리고 그들이 그 과정에서 배운 교훈은 무엇인지에 대해 대화를 나눴습니다.

어떤 계기로 데이터 메시에 관심을 갖게 되셨습니까?

Omar Khawaja: Roche Diagnostics에 합류했을 때 저의 첫 번째 성과물은 BI 및 분석 전략이었습니다. 전략적 우선 순위의 한 부분은 우리의 기술 및 아키텍처 환경을 현대화하는 것이었고 지금도 그렇습니다. 우리는 모든 전통적인 접근 방식을 시도해 봤지만 계속해서 데이터의 진정한 가치를 실현하지 못하거나 제한적인 성공만을 거두었습니다. 그래서 저는 이 전략을 실행하는 방법에 대해, 또 탈중앙적이고 권한을 분산시키는 Roche의 문화에 적합하면서 확장 가능한 방식으로 문제를 해결하는 방법에 대해 다시 생각해 보게 되었습니다.

Khawaja는 데이터 메시 방법론을 개척한 Zhamak Dehghani와 그녀의 Thoughtworks 팀에 연락을 취했습니다. Zhamak와 Thoughtworks 팀과의 대화는 Roche 전반에 걸친 웨비나로 전환되어 엄청난 관심을 받았습니다. 거기에서 그들은 첫 번째 구현을 해냈고, 데이터 메시 프레임워크를 구축하고 체계적인 방식으로 팀을 합류시키는 방법을 배웠습니다.

Khawaja: 2021년 2월에 우리는 초기에 거둔 성공을 기반으로 데이터 메시 프로그램의 기초를 적절히 구축했고, 이때 우리는 문제 해결 방법에 대해 보다 전체론적인 접근 방식을 취하게 되었습니다. 2021년 5월에는 하나의 도메인으로 시작했는데 현재는 여러 제품 팀이 작업하고 플랫폼을 사용하는 6개 이상의 도메인이 이미 등록되어 있습니다.

Roche용 데이터 메시를 선택한 이유는 무엇인가요? 조직의 성공을 위해 어떤 변화를 이뤄 내셨습니까?

Khawaja: 저는 많은 기업에서 사람들이 데이터의 양을 어떻게 늘리는지 직접 봤습니다. Roche에서도 그랬고요. 우리에게는 대시보드를 만드는 분석가뿐만 아니라 비즈니스 및 IT 팀 내의 데이터 과학자와 데이터 엔지니어들도 있습니다. 바로 그 덕분에 제품 중심의 사고가 시작되었고, 지금까지 대다수의 팀이 앞을 향해 나아갈 수 있는 좋은 길이 열렸습니다.

Paul Rankin: [여기] 사람들은 이제 데이터 제품에 대해 생각하기 시작했습니다. 6개월 전, 1년 전만 해도 모두들 대시보드와 데이터 세트에 대해 생각하고 있었습니다. 데이터 레이크가 제공하는 것들이죠. 데이터 메시 방법론의 구현에 대해 생각하기 이전에 우선 데이터 제품에 대한 데이터 중심적 성숙도와 이해 수준을 높여야 합니다.

데이터 메시의 설계 및 기술에 관해 지침이 되는 어떤 원칙이 있으십니까?

Khawaja: 데이터 메시의 4가지 원칙이 있습니다. 저는 그 4가지 원칙을 데이터의 정신, 마음, 영혼, 몸이라고 부릅니다. 첫 번째 원칙은 ‘영혼’인데, 도메인 주도 설계를 말합니다.

데이터 메시의 ‘마음’은 ‘제품으로서의 데이터’ 원칙입니다. 이는 제품에 관한 사고보다는 프로젝트에 관한 사고에 많은 변화를 가져옵니다. 이것은 하나의 팀으로 일하고, DevOps/DataOps의 개념을 실현시키는 현대적인 방식이죠. 이러한 방식은 무언가를 함께 만들고, 데이터에 대한 소유권을 갖고, 데이터가 다른 사람의 책임이라고 생각하지 않게 합니다. 바로 그것이 우리에게 꼭 필요한 사고방식의 가장 큰 변화죠. 그리고 이 지점에서 우리는 고객들과 최종 사용자를 위한 가치 창출에 초점을 맞춥니다.

세 번째는 셀프 서비스 데이터 분석 인프라인데요, 저는 데이터 메시의 ‘몸’이라고 부릅니다. 마치 골격과도 같죠. 이 부분에서 우리는 기능의 관점에서 플랫폼을 개발하고, 그러한 기능을 지원하는 기술을 연결시키는 아주 다른 접근 방식을 취했습니다. Snowflake는 툴 체인의 생태계와 함께 그러한 여러 기능들을 수행합니다.

마지막으로 또 한 가지 중요한 점은 탈중앙화가 이 정도로 이루어졌을 때, 거버넌스가 필요하다는 것입니다. 이것이 데이터 메시의 ‘정신’입니다. 각각의 데이터 도메인은 가능한 많은 자동화에 의해 이루어진 연합과 컴퓨팅 지침 덕분에 솔루션의 일부가 됩니다. 만약 데이터 인프라에 의한 그런 자동화가 가능하지 않다면 말 그대로 혼란이 초래되지 않겠습니까?

데이터 메시 방법론에서 어떤 과제들을 직면하셨습니까?

Khawaja: 말씀드린 4가지 원칙에 따라 말씀드리겠습니다. 원칙마다 다른 과제들이 있기 때문입니다. 데이터 도메인부터 시작하죠. 제가 Roche에 합류하기 전에 데이터 팀은 어떤 데이터 전략을 취해야 할지 생각하고 있었습니다. 그들이 택한 접근 방식은 데이터 메시와 아주 유사했고 데이터 도메인의 개념이 거기에 도입되었죠. 일부 도메인 개념은 비즈니스와 IT의 리더십 팀과 함께 이미 생성되었는데, 이는 도메인의 정의가 우리의 100% 기능적 구조만을 기반으로 하지 않고 프로세스의 경계도 기반으로 한다는 사실에서 기인한 것이었습니다.

좋은 시작이었습니다. [그러나] 여전히 해결해야 할 몇 영역이 있습니다. 정의에 대한 정렬이 90%이고, 불분명한 영역이 10%라고 가정해 보겠습니다. [정의를] 설정하고 나면 이를 구현하는 방법을 배우고 조정도 할 수 있습니다. 결론적으로 문제는 소스 시스템에서 데이터가 생성되는 위치 가까이에 소유권 개념이 있는지 확인하는 것입니다.

다음 원칙이 제품으로서의 데이터였는데, 이것은 쉽기도 아주 어렵기도 한 문제입니다. 우리의 본질적인 화제는 엔드 투 엔드 소유권입니다. 대시보드만이 아니라요. Snowflake도 아니죠. 대시보드나 사용 사례를 데이터 제품에 일대일로 매핑할 수 없습니다. 그것을 실제로 하기 위한 단계별 프로세스가 있습니다.

그리고 세 번째로, 이 플랫폼의 ‘몸’입니다. 여기서 플랫폼을 구축하는 방식에 변화가 생기죠. ‘플랫폼도 제품’이라는 관점에서 플랫폼을 구축합니다. 전통적으로 플랫폼은 중앙 팀에 의해 구축되었고, 파이프라인도 중앙 팀에 의해 구축되었죠. 그 결과 팀이 기울이는 진지한 노력에도 불구하고 병목 현상이 발생했습니다.

이제 우리는 제품 팀을 지원하고, 그들에게 힘을 실어 주고 방해가 되지 않는 플랫폼을 만들어야 합니다. 비즈니스, IT, 공급업체의 사람들로 구성된 데이터 제품 팀은 기존 [제품] 팀의 기술 수준을 갖고 있지 않을 수 있습니다. 따라서 이러한 다양한 사용자를 지원할 수 있는 방법을 택함으로써 팀이 작업하는 데 있어 러닝 커브가 너무 커지지 않게 해야 합니다.

마지막으로, 연합 컴퓨팅 거버넌스입니다. 사람들은 거버넌스에 대해 들어봤을 겁니다. 그리고 90%의 경우에 거버넌스를 ‘관료주의’로 이해합니다. 그럴 때 그들에게 ‘이건 연합 거버넌스’라고 할 수 있죠. 이런 식으로 그들이 이제 의사 결정에 참여할 수 있다고 말해 사람들을 테이블로 데려오는 것입니다. 어떤 경우에 이것은 지지 요인으로 작용하기도 합니다. 연합 거버넌스는 정책과 절차와 표준화를 도입시키는데, 일부는 IT에 의해, 일부는 비즈니스에 의해 시행됩니다. 물론, 데이터 메시의 ‘정신’인 컴퓨팅 부분도 빼놓을 수 없죠. 자동화를 통한 설계로 이러한 많은 제어 및 정책을 사용할 수 있습니다. 따라서 데이터 마스킹 또는 PII와 관련된 사항을 시행하거나, 배포 자동화 또는 파이프라인의 배포 확인에 대해 이야기할 때, 데이터 제품의 형태와 형식에 관계없이 메타데이터는 우연이 아니라 의도적으로 해당 카탈로그로 유입됩니다.

Snowflake가 데이터 메시를 위한 올바른 선택인 이유는 무엇입니까?

Khawaja: 잘 작동하니까요. 사용하기도 쉽고 간단합니다. 데이터를 가져와서 사용할 수 있고, 어디서든 액세스할 수 있습니다. 온프레미스 환경에 있었던 사람이라면, 성능 문제와 같은 어려움이 더 이상 없다는 사실에 놀랄 겁니다. 문제는 필요한 성능을 감당할 수 있는지 여부이며, 이건 고려해야 할 또 다른 질문입니다.

Roche는 아주 탈중앙적인 문화를 갖고 있습니다. 우리는 현장에 있는 사람들, 여러 지역에 있는 사람들에게 권한을 부여해야 한다고 확신합니다. 우리가 데이터 메시 관점에서 탈중앙화에 대해 이야기한다면 곧 다양한 여정과 기술 세트의 스펙트럼에 있는 사람들에 대해 이야기하는 것입니다. 우리에게는 조직 전체에 걸쳐 실제로 확장할 수 있는 무언가가 필요합니다. 복잡한 보안 설정과 한계의 제한 없이 팀을 쉽게 활성화하고 합류시킬 수 있다면, 제품 팀이 비교적 쉽게 작업할 수 있습니다.

우리는 Snowflake를 통해 이러한 다양한 이점을 얻고 있습니다. 그에 더해 각 도메인이 자체 Snowflake 계정을 가지는 수준까지 가더라도, 데이터 공유 및 내부 데이터 교환을 통해 여기저기서 이상한 중복 데이터 세트를 생성하지 않고도 재사용 및 공유 요소를 계속 가능하게 할 수 있습니다.

Rankin: 이 데이터 메시 환경에서 절대적으로 도움이 되는 Snowflake의 가장 중요한 측면 중 하나는 CICD 릴리즈 주기, GitFlow 프로세스와 관련해 개발자를 위한 제로 카피 클론 생성입니다. 이건 아주 획기적입니다. 개발자는 자동으로 피처 브랜치를 만들고, 기능을 기반으로 프로덕션 데이터베이스의 제로 카피 클론 생성을 시작합니다. 그렇게 해서 그들은 다른 영역을 침범하지 않으면서 기능을 테스트하고, 곧바로 프로덕션에 들어가, 복제된 데이터베이스와 기능 데이터베이스를 다운시킨 후 다시 시작할 수 있습니다. 정말 놀랍죠.

Khawaja: 한 가지 주의해야 할 점은 Snowflake는 데이터 메시가 아니고, 데이터 메시도 Snowflake가 아니라는 것입니다. 데이터 메시는 기술 그 이상이며, Snowflake는 이를 가능하게 하는 핵심 요소입니다. 데이터 메시를 구현하고 싶으신가요? Snowflake를 사용하면 데이터 웨어하우스를 구현할 수 있습니다. 또한 데이터 레이크를 구축하고 싶다면, 그 역시 Snowflake를 통해 가능합니다.

데이터 메시에 관심이 있는 다른 조직에게 어떤 조언을 해 주시겠습니까?

Khawaja: 먼저 이런 말을 하고 싶은데요, 데이터 메시가 모든 회사에 꼭 맞는 솔루션은 아닐 수 있습니다. 사람들은 이러한 현실을 이해해야 합니다. 만약 탈중앙화를 실행할 의향이 없다면, 데이터 메시는 별로 쓸모가 없을 겁니다.

두 번째로, 데이터 메시는 진정한 패러다임의 전환입니다. 사람, 프로세스, 기술에 영향을 미치죠. 데이터의 모든 측면에서 이러한 변화를 수용할 준비가 됐다면 도전해 보세요. 확신을 가지고 시도하면서 데이터 제품 팀의 역량을 강화하세요. 재사용할 수 있는 몇 가지 표준 정의와 아티팩트를 만들고 그것들을 기반으로 계속 구축해 나가는 걸 적극 권장합니다. 데이터 제품 팀이 국경을 초월해 자유로운 공동 작업을 할 수 있게 해 주는 기술을 선택하십시오.

Roche Diagnostics의 데이터 메시 및 데이터 클라우드 여정에 대한 자세한 내용을 알고 싶으십니까? 기업의 데이터 메시 구현에 대한 Omar의 Thoughtworks 세션을 시청해 보십시오. 그리고 Snowflake의 Omar와 함께하는 데이터 클라우드 시대의 등장 팟캐스트에서 데이터 공유 및 탈중앙화에 대한 토론을 확인하십시오.

Subscribe to our blog!

Thank you for your submission.