참고: 이 내용은 2022. 2. 10에 게시된 컨텐츠(Mass Data Fragmentation: Reducing ‘Data Puddles’)에서 번역되었습니다.

몇 년 전 Kent Graziano는 데이터에 대한 작업을 진행하기 위해 어떤 큰 조직에서 일했습니다. 첫 번째 문제는 어떤 데이터를 보유하고 있으며 모든 데이터가 어디에 있는지를 아는 사람이 실질적으로 없다는 것이었습니다. Kent Graziano는 작업을 시작하고 첫 3개월 동안 데이터 소스 및 타깃을 조사했습니다. 궁극적으로 모든 흐름을 설명하기 위해 기업 데이터 지도를 만들었습니다. 즐거운 작업은 아니었습니다.

“결국 저는 동일한 데이터가 3~4곳으로 전송되고 있었다는 것을 발견했습니다.”라고 그는 말했습니다. 어떤 경우에는 원시 데이터가 변환되어 데이터 웨어하우스에 저장된 다음 또 다른 웨어하우스로 이동되었습니다. 이 웨어하우스 또한 원본 원시 데이터를 가져오고 있었습니다.

최근 Snowflake 최고 테크 에반젤리스트로 은퇴한 Kent Graziano는 이러한 상황이 매우 흔하다고 말했습니다. 레이크, 웨어하우스, 데이터 마트, SaaS 플랫폼, 스프레드시트, 테스트 시스템 등에 데이터가 흩어져 있으며 복사되어 있습니다. 이를 대량 데이터 단편화 또는 회화체로 데이터 스프롤 또는 데이터 웅덩이라고 부릅니다.

2021년 12월 IDC의 CDO 현황 연구에 따르면 실제로 조직의 75%가 통합, 액세스, 거버넌스 및 보호를 포함한 데이터 활동의 엔드 투 엔드 세트를 관리하기 위한 완벽한 아키텍처를 갖추고 있지 않습니다. 이러한 거버넌스 부족과 더불어 레거시 시스템, 섀도우 IT 및 선의가 합쳐지면 대규모 단편화로 이어집니다.

단일 진실 공급원을 만드는 것이 언제나 즉각적으로 현실적이지는 않지만 모든 장소에 있는 데이터 웅덩이의 수를 줄이는 것은 갈수록 필수적인 것이 되고 있습니다. 이는 조직의 분석 작업의 효율성, 정확성, 일관성 및 가치를 개선하기 위한 것입니다.

그래서? 데이터 스프롤은 어떻게 비즈니스에 악영향을 주는가

데이터를 적절한 방식으로 관리하면 따라오는 모든 잠재적 이익을 이해하기 위해 오늘날 단편화된 상태의 원인과 영향에 대해 심층적으로 알아보겠습니다.

Kent Graziano는 동일한 수백 테라바이트의 데이터를 3곳에서 보관하고 있었던 다른 회사의 사례를 인용했습니다. “이 회사는 정규화된 Oracle 데이터 웨어하우스를 보유하고 있었습니다. 그러나 해당 서버에 충분한 파워가 없었기에 회사의 차원 모델을 다른 데이터 웨어하우스에 보관했습니다. 그런 다음 데이터 과학자를 위한 Hadoop 인프라도 보관했습니다.”라고 그는 말했습니다.

합병과 인수는 확실히 문제의 원인 중 하나입니다.

“문제는 기술적 부채와 섀도우 IT입니다.”라고 Acceleration Economy 분석가인 Wayne Sadin이 말했습니다. 그는 30년 동안 CIO, CTO 및 CDO 역할을 수행했습니다. “12개의 회사를 구매하면 172개의 데이터베이스가 있습니다. 이 중에서 14개는 더 이상 만들어지지 않으며 6개는 소유자가 더 이상 존재하지 않습니다. 그리고 500개의 스프레드시트가 있습니다…” 그는 가장 큰 데이터베이스가 누군가의 책상 아래에 있는 PC와 연결되어 있었던 대규모 클라이언트에 대한 이야기를 들려줬습니다. 이 사실은 IT 부서가 다른 위치로 이동할 때가 되어서야 운 좋게 밝혀졌습니다.

Wayne Sadin은 인수 합병 논의의 가장 마지막 단계에 IT를 언급한다는 것은 진정으로 사려 깊은 통합 계획 구축을 시작할 기회가 없다는 것을 의미한다고 말했습니다. “George Shultz 장군은 이런 말을 했습니다. ‘제가 착륙하기를 원한다면 저를 태워서 이륙해야 합니다.’”라고 Wayne Sadin은 말했습니다.

Kent Graziano는 합병 이후에 데이터 사일로가 종종 확산된다고 주장합니다. 비즈니스가 진취적인 상위 아키텍처를 만드는 대신 성능 문제를 일회성 접근 방식으로 해결하려고 하기 때문입니다. 이러한 솔루션은 하루 동안의 요구를 해결하는 데 도움이 되지만 비용, 성능 및 데이터 단편화의 전체적인 규모와 영향을 계산하기는 어려울 수 있습니다.

“공급업체가 말할 때 이의를 제기하고, 확인할 수 있는 추천인과 대화를 나누고, ‘저희 설계자가 귀사의 설계자와 대화를 나눌 수 있을까요?’라고 물으며 동료를 찾는 방법 외에는 실질적으로 좋은 평가 방법론이 없습니다.”라고 Kent Graziano는 말했습니다.

“쿼리 가속화 소프트웨어, 데이터 시각화, 메모리 내 분석 소프트웨어… 모두 여러분의 아키텍처에 대한 기본 성능 문제를 해결하기 위한 것입니다.”라고 그는 말했습니다. “SQL 레이어에서 쿼리를 작성하지만 이러한 쿼리를 소스 시스템에서 실행하기 위해 이동시킨다면 이는 필연적으로 성능에 영향을 줄 것입니다.”

Wayne Sadin는 섀도우 IT가 근본적으로 동일한 문제를 재현한다고 지적했습니다. 또한 공용 클라우드 스토리지나 인증되지 않은 애플리케이션에 의지하는 LOB(기간 업무) 직원이 근본적인 원인이 아닙니다. 대신 문제는 보통 IT 예산이 통제되는 방식에서 기인합니다.

“비즈니스는 해결해야 하는 문제가 있기에 투자 위원회에 가서 ‘X달러가 필요합니다.’라고 말합니다. 이때 IT의 일반적인 답변은 ‘원하는 금액의 80%를 드리겠습니다.’입니다.”라고 그는 말했습니다.

“그러나 비즈니스는 나머지 20%를 여전히 해결해야 합니다. 따라서 솔루션을 찾습니다. 오늘날 낮은 비용으로 데이터 솔루션을 시작하는 것은 아주 저렴합니다. 앱 스프롤과 같이 이제 데이터 스프롤이 존재합니다.”

이 모든 단편화의 가장 분명한 영향은 중복 데이터 스토리지에 엄청난 비용을 낭비하게 된다는 것입니다. 그러나 Kent Graziano와 Wayne Sadin 모두 이는 실질적으로 빙산의 일각일 뿐이라는 데 동의했습니다.

더 나쁘게는 “경영진 회의에서 악명 높은 ‘대립되는 결과’를 초래합니다.”라고 Kent Graziano는 말했습니다. 다양한 데이터 세트를 대상으로 비슷한 분석을 수행하는 다양한 그룹이 다른 결과를 주장하고 다른 결정을 지지합니다. 몇 시간 정도 간격이 있는 데이터로 결과를 냈을 수도 있습니다.

상반되는 보고서, 오래된 데이터에 따른 비즈니스 결정, 불완전한 데이터로 구축한 예측 모델 등 부정적인 영향은 끝이 없습니다.

통합 데이터로의 길

그렇다면 조직은 어떻게 대량 데이터 단편화를 해결할 수 있을까요? 궁극적 해답은 통합 아키텍처 및 거버넌스에 있습니다.

Kent Graziano는 다음으로 구성된 3단계 데이터 아키텍처를 지지합니다.

  • 원시 데이터
  • 변환, 청소 및 정규화된 데이터
  • 그리고 프레젠테이션 레이어

조직이 추적성과 감사 가능성을 유지해야 하는 모든 장소에서 첫 번째 단계는 지속적이어야 합니다. Kent Graziano는 “과거에는 지속적인 스테이징 영역이라 불렀습니다.”라고 말했습니다.

두 번째 단계는 ‘큐레이팅된’ 또는 골든 레이어입니다. 이 용어는 마스터 데이터 관리에서 차용했습니다. 이는 단일 사실 공급원이 되는 역사적인 시간이 찍힌 리포지토리입니다.

마지막으로 소비 레이어가 있습니다. “여기에서는 비즈니스에 적합한 구상을 합니다.”라고 그는 말했습니다. 그동안 데이터 과학자는 반원시 2단계 데이터를 보고 있을지도 모릅니다.

“비즈니스는 이러한 부분을 볼 필요가 없습니다. 이들은 이해할 수 있는 형식으로 데이터를 찾을 수 있는 기능인 다차원적인 뷰를 원합니다.”

이 접근 방식은 효과적으로 기존 ETL(추출, 변환, 로드) 프로세스를 ELT로 고친다고 Kent Graziano는 말했습니다. “목표는 데이터를 한 번 옮긴 다음 이를 여러 번 사용하는 것입니다.”

로마가 하루 만에 지어지지 않았듯이 당연히 새로운 엔드 투 엔드 아키텍처가 하루 만에 탄생하지는 않습니다.

현실적인 관점에서 Wayne Sadin은 3단계로 진행되는 프로세스를 설명합니다. 이는 연속적으로 또는 동시에 진행될 수 있습니다. “저는 이를 ‘패치하기, 광내기, 끝내기’라고 부릅니다.”

패치는 분명하고 심각한 전송 문제를 위한 것입니다. 만약 시스템에 장애가 발생하거나 규정을 준수하지 않아 바로 고쳐야 한다면 올바른 단계는 단순히 로컬 스프레드시트 또는 데이터베이스를 고치는 것일 것입니다. 영구적인 솔루션은 아니지만, 영구적인 솔루션을 기다릴 수 없습니다.

Wayne Sadin의 ‘광내기’ 단계는 로보틱 프로세스 자동화 또는 기타 규모가 더 큰 작업이 관련되어 있을 수 있습니다. “이는 기본적으로 설계된 솔루션이 아닙니다.”라고 그는 말했습니다. 그러나 이는 개선된 비즈니스 성능과 가치를 제공할 추가 장소를 찾는 것을 포함합니다.

세 번째 ‘끝내기’ 단계에서 “이제 잠시 여유를 갖고 설계하거나 데이터 스프롤을 통합합니다.”라고 그는 말했습니다. 그러나 CIO와 데이터 전문가의 복잡한 현실에서는 대부분의 경우 세 가지 모델을 전부 동시에 진행해야 합니다.

성공을 위한 핵심은 데이터가 아닌 비즈니스 필요에서 시작하는 것입니다. “CEO와 잠깐 대화할 수 있다면 저는 ‘여기 크레용이랑 종이 한 장이 있으니 원하는 보고서를 그려주십시오.’라고 말할 것입니다.”라고 그는 웃으며 말했습니다. “각 사업 부문마다 ‘무엇이 필요하신가요?’라고 물으세요. 그런 다음 프로세스를 시작하세요.”

거버넌스와 샌드박스로 단편화 억제

통합되었으며 설계된 비전이 형태를 갖추기 시작해도 다음과 같은 말을 하며 고집하는 일부 개인 또는 그룹이 일반적으로 존재한다고 Kent Graziano는 말했습니다. 어떤 때에는 이들이 조직에서 큰 영향력을 가지고 있을 수 있습니다. “이보세요. 그냥 제 데스크톱에서 변환하게 데이터의 [복사본]을 주세요.”

이러한 요청을 전폭적으로 지지하는 조직은 다시 단편화의 길로 들어섰습니다. “거버넌스 규칙은 이를 막아야 합니다.”라고 Kent Graziano는 말했습니다. 그러나 타당한 비즈니스 필요가 있는 사람에게는 샌드박스가 적절할 수 있습니다. “지속적으로 그렇게 [복사된] 데이터를 업데이트해서는 안 됩니다. 대신 샌드박스를 만들고 거기에서 업무를 진행하게 하세요. 이들이 필요한 업무를 알고 난 다음에만 이를 생산해야 합니다.” 그런 다음 영구적으로 유지하는 대신 샌드박스를 삭제할 수 있습니다.

대량 데이터 단편화를 해결하기 위해 여러분의 회사에서 어떤 단계, 프로젝트 또는 결정을 요구하든 이를 실천하겠다는 각오와 규율이 가장 중요합니다. 결국 이는 기술적 문제가 아닌 비즈니스 문제입니다.

“여러분은 여러분이 속한 업계에서 누구보다 효율적인 방식으로 데이터를 사용해야 할 뿐만 아니라 외부에서 해당 업계로 진입하는 그 누구보다 뛰어나야 합니다.”라고 Wayne Sadin은 말했습니다. “사려 깊은 데이터 관리의 가치는 그 어느 때보다 큽니다.”