Data for Breakfast 서울 - 3월 19일 (목)

데이터와 에이전틱 인텔리전스로 비즈니스 가치를 실현하세요!

데이터 품질을 위한실무 가이드와 그 중요성

  • 개요
  • 데이터 품질이란?
  • 데이터 품질이 중요한 이유
  • 데이터 품질 차원 이해하기
  • 데이터 품질의 주요 문제
  • 고품질 데이터의 이점
  • 데이터 품질 개선 방법: 5가지 모범 사례
  • 데이터 품질 관련 자주 묻는 질문
  • 리소스

개요

데이터는 오늘날 세상을 움직이는 핵심 동력입니다. 기업이 고객을 이해하고 고객에게 서비스를 제공하며 도달하는 방식부터 운영을 이끄는 AI, 분석 및 의사 결정 도구에 이르기까지 모든 영역에서 핵심적인 역할을 합니다. 아울러 정부 규제 준수를 입증하는 데 중요한 역할을 합니다.

하지만 모든 데이터(또는 메타데이터)가 동일한 가치를 지니는 것은 아닙니다. 많은 조직이 오래되었거나 중복되거나 더 이상 관련 없는 정보로 어려움을 겪고 있습니다. 이러한 관리되지 않은 데이터를 방치하면 시스템을 비효율적으로 만들고 인사이트를 왜곡하며 데이터가 본래 지원해야 할 의사 결정과 운영 자체를 약화시키게 됩니다. 그렇기 때문에 오늘날 기업의 핵심 목표는 신뢰할 수 있는 수준의 데이터 품질을 확보하는 것입니다.

데이터 품질이란?

데이터 품질은 특정 맥락에서 특정 목적에 얼마나 부합하는지를 의미합니다. 조직은 데이터가 정확하고 완전하며 일관되고 적시에 제공되고 관련성이 있으며 중복되지 않을 때(불필요한 중복이 없을 때) 해당 데이터를 활용 가능한 것으로 간주합니다. 

데이터 품질이 중요한 이유

데이터 품질이 중요한 이유는 오늘날 비즈니스, 임직원 및 고객을 지원하는 모든 디지털 프로세스가 데이터에 의존하고 있기 때문입니다. 고품질 데이터를 확보한 기업은 보다 전략적이고 효율적으로 운영할 수 있으며, 고객의 신뢰도 역시 높일 수 있습니다. 이에 반해 데이터 품질이 뒷받침되지 않으면 잘못된 인사이트로 인해 기회를 놓치고 재무적 손실로 이어질 수 있습니다.

이러한 손실은 종종 일상의 작은 순간에서 시작되어 비즈니스 전반으로 확산됩니다. 예를 들어, 중요한 계약 체결을 앞둔 영업 담당자가 마지막 점검을 위해 모바일 CRM 앱을 열었다고 가정해 보겠습니다. 이 상황은 두 가지로 전개될 수 있습니다. 데이터가 최신이며 관련성이 높고 신뢰할 수 있다면 고객에게 신뢰를 주어 계약 체결로 이어질 수 있습니다. 그러나 오래되었거나 부정확한 데이터를 기반으로 제안을 진행한다면 고객은 준비가 부족하다고 판단해 대화를 중단하고 이로 인해 잠재적 매출 기회를 잃게 될 수 있습니다.

데이터 품질 차원 이해하기

조직은 다음과 같이 최소한 여섯 가지 데이터 품질 차원을 검토하여 데이터 품질을 평가해야 합니다. 

 

1. 정확도

정확성은 데이터가 사실에 부합하는지를 나타내는 품질 요소입니다. 데이터가 유용하려면 조직은 사용하는 데이터가 현실 세계의 값을 반영하도록 해야 합니다. 예를 들어, 신뢰할 수 있는 정확한 데이터를 확보한 리테일 업체는 환불을 신속하고 정확하게 처리해 고객 신뢰를 강화할 수 있습니다. 병원과 같은 헬스케어 조직은 진료 현장에서 의사와 간호사가 항상 올바른 정보를 활용하도록 보장할 수 있습니다. 또한 은행은 신뢰할 수 있는 소득 및 상환 이력을 기반으로 신용 평가를 수행해 대출을 보다 확신을 가지고 승인할 수 있습니다.

 

2. 완전성

완전성은 모든 데이터 포인트가 누락 없이 포함되어 있는지를 의미합니다. 정보가 완전하면 기업은 추측에 의존하지 않고 확신을 가지고 엔드투엔드 의사 결정을 내릴 수 있습니다. 예를 들어, 승객 기록이 완전하게 확보된 항공사는 수요를 보다 정확히 예측하고 노선을 최적화하며 비용이 많이 드는 초과 예약을 방지할 수 있습니다. 마찬가지로 입원 데이터를 충분히 갖춘 병원은 환자의 병상 배정을 최적화해 대기 시간을 줄이고 전반적인 진료 품질을 향상시킬 수 있습니다.

 

3. 일관성

일관성은 데이터가 모든 시스템, 형식 및 소스 전반에서 동일하게 유지되는 정도를 의미합니다. 일관된 데이터가 있으면 조직은 혼란스러운 불일치를 피하고, 모든 구성원이 동일한 기준을 바탕으로 업무를 수행하고 있다는 확신 속에서 운영할 수 있습니다. 예를 들어, 미 연방 및 주 데이터베이스 전반에서 일관된 예방 접종 기록을 보유한 공중보건 기관은 감염병 발생 시 보호 대상자를 신속하게 확인하고, 필요한 곳에 자원을 효과적으로 배치할 수 있습니다.

 

4. 적시성

적시성은 데이터가 최신 상태로 유지되며 필요한 시점에 즉시 활용될 수 있는지를 의미합니다. 적시에 제공되는 정보는 조직이 기회를 놓치지 않고 지체 없이 문제에 대응하도록 지원합니다. 예를 들어, 최신 가격 및 프로모션 데이터를 보유한 영업 담당자는 현장에서 바로 제안을 조정해 계약 성사 가능성을 높일 수 있습니다. 마찬가지로, 고객의 최신 상호작용 데이터를 활용할 수 있는 고객 서비스 담당자는 문제를 더 빠르게 해결하고 고객의 니즈를 사전에 예측할 수 있습니다.

 

5. 유효성

유효성은 데이터가 정의된 규칙, 형식 및 비즈니스 요구 사항을 충족하는지를 의미합니다. 유효한 데이터는 올바른 날짜 형식, 표준화된 제품 코드, 계정 번호나 ID에 필요한 필드 길이 등 조직의 데이터 품질 기준을 따릅니다.

유효한 데이터를 활용하면 시스템은 보다 원활하게 작동하고, 의사 결정에 대한 신뢰도도 높아집니다. 예를 들어, 계좌 번호 형식을 엄격히 적용하는 은행은 수작업 검토 없이도 결제를 자동으로 처리할 수 있습니다. 또한 표준 코드 사용을 요구하는 병원은 검사 결과를 환자 기록에 직접 연계해 의료진이 손쉽게 활용하도록 할 수 있습니다.

 

6. 고유성

고유성은 각 데이터 기록이 중복 없이 단일하게 식별되는지를 의미합니다. 중복이 없는 고유한 데이터로 고객, 직원, 파트너 또는 제품 등 어떤 대상을 추적하든 단일 진실 공급원을 구축할 수 있습니다. 이를 통해 보다 명확한 인사이트, 원활한 프로세스 및 개인화된 고객 커뮤니케이션이 가능해집니다. 예를 들어, 고객당 하나의 고유한 기록을 보유한 리테일 업체는 온라인과 오프라인 활동을 연결해 분절된 프로필이 아닌 전체 구매 이력을 기반으로 제품을 추천할 수 있습니다.

데이터 품질의 주요 문제

안타깝게도 많은 조직은 시간과 리소스의 상당한 소모를 초래하는 데이터 품질 문제에 직면해 있으며, 이는 비즈니스 성과에도 부정적인 영향을 미칠 수 있습니다. 이러한 문제를 관리하기 위해 조직은 데이터를 모니터링하고 관리하며 인벤토리화하고 거버넌스를 적용하고 정제하기 위한 다양한 도구를 함께 활용하는 경우가 많습니다.

일반적으로 해결해야 할 데이터 품질 문제는 다음과 같습니다.

 

부정확한 데이터

데이터 입력 과정에서의 인적 오류, 미흡한 데이터 수집 프로세스, 서로 다른 소스로부터 수집한 데이터 통합에의 어려움은 비즈니스 의사 결정과 운영을 약화시키는 부정확한 데이터 세트를 초래하는 경우가 많습니다. 예를 들어, 고객 주소가 데이터베이스에 잘못 입력되면 배송이 지연되거나 분실되어 추가 비용과 고객 불만으로 이어질 수 있습니다.

 

불완전한 데이터

단 하나의 중요한 데이터 누락만으로도 전체 데이터 세트의 가치와 신뢰도가 크게 훼손될 수 있습니다. 예를 들어, 은행이 고객의 소득과 지출을 완전히 파악하지 못하면 대출 신청자의 신용도를 정확히 평가할 수 없습니다. 프리미엄 여행 상품을 제안하는 마케터 역시 고객 프로필 내 고용 상태 데이터를 확보하지 못한다면 유사한 어려움에 직면할 수 있습니다.

 

비일관적인 데이터

파일 이름, 날짜 또는 기타 핵심 데이터 요소가 서로 다른 형식으로 저장되면 정보를 찾거나 매칭하기가 어려워집니다. 이러한 경우, 이후 데이터를 결합하거나 분석하는 과정에서 비즈니스 오류와 잘못된 의사 결정으로 이어질 수 있습니다. 예를 들어, 보험 고객의 주소가 청구 시스템에는 업데이트되었지만 보험 계약 데이터베이스에는 반영되지 않았다면 보험금 지급이 지연될 수 있습니다.

결측치는 기업의 재무 상태, 운영 효율, 그리고 대외 이미지에도 상당한 악영향을 미칠 수 있습니다. 금융 모델과 예측의 신뢰성이 낮아지고 자동화 프로세스는 지연되며 채용 및 고객 참여 과정에서는 편향이 발생해 신뢰와 브랜드 인식이 훼손될 수 있습니다.

 

오래된 데이터

데이터 준비 과정이 지나치게 길어지면 직원, 고객 및 기타 사용자에게 도달하는 시점에는 이미 데이터가 최신성을 잃어 비즈니스에 차질을 빚게 됩니다. 예를 들어, 영업팀이 오래된 데이터를 기반으로 고객에게 약속을 하면 이를 이행하지 못하는 상황이 발생할 수 있습니다. 오래된 환자 기록을 기반으로 운영되는 병원은 최신 알레르기 정보 업데이트를 놓치기 쉬우므로 진료 품질과 환자 안전에 위험을 초래할 수 있습니다.

 

유효하지 않은 데이터

유효하지 않은 데이터 항목은 시간 효율성이 떨어지고 불필요한 업무를 증가시키며, 경우에 따라 규제 위반 가능성까지 초래할 수 있습니다. 예를 들어, 은행이 마이너스 대출 잔액이나 차입자 ID 누락과 같은 유효하지 않은 값을 시스템에 허용한다고 가정해 보겠습니다. 이 경우 재무 리스크 노출이나 자본 유동성을 잘못 보고해 업계 보고 기준을 준수하지 못하게 될 수 있습니다. 마찬가지로, 병원 시스템이 표준 의료 코드 없이 검사 결과를 수용한다고 가정해 보면, 환자 기록에 정확하게 통합되지 않아 치료가 지연되고 시스템에 대한 신뢰가 약화되는 결과를 맞이할 수 있습니다.

 

중복 데이터

여러 사용자나 데이터 소스가 동일한 정보를 시스템의 서로 다른 영역에 입력하면 비효율성, 데이터 무결성 저하 및 불필요한 비용이 빠르게 발생할 수 있습니다. 예를 들어, 공급업체 기록이 중복된 제조사는 동일한 송장을 두 번 결제하거나 같은 제품을 중복 주문해 시간과 비용, 리소스 투입의 비효율화를 야기할 수 있습니다.

고품질 데이터의 이점

이러한 장애 요인을 극복하게 되는 경우, 고품질 데이터는 조직에 상당한 이점을 제공합니다.

대표적인 이점은 다음과 같습니다. 

 

확신에 기반한 의사 결정

임원과 직원이 즉시 접근할 수 있는 데이터를 신뢰할 때, 계획 수립과 의사 결정 수립 시 지속적으로 이용할 수 있습니다. 반대로 데이터에 대한 신뢰가 없다면 이를 활용하지 않게 됩니다. 예를 들어, 판매 및 재고 현황을 명확히 파악하고 있는 리테일 업체는 재고 부족으로 인한 판매 문제 없이 단기 프로모션을 자신 있게 실행할 수 있습니다. 마찬가지로, 데이터를 신뢰하는 제조사는 수요를 정확히 예측하고 비용 효율적인 적시 생산 방식을 운영할 수 있습니다.

 

운영 효율성 향상

정확하고 정제된 데이터는 팀이 업무 흐름의 병목 지점을 식별하고 생산성 또는 유지 관리 문제를 신속하게 해결하도록 지원합니다. 예를 들어, 중장비 기업은 고품질 데이터를 활용해 임대 중인 불도저나 트랙터를 실시간으로 원격 모니터링하고, 고객을 대상으로 장비를 선제적으로 정비함으로써 효율성과 수명을 동시에 개선할 수 있습니다. 

 

고객 관계 강화

영업과 마케팅의 성공은 변화하는 고객 인식과 행동에 대한 풍부한 인사이트에 달려 있습니다. 효과적인 고객 참여와 만족을 위해서는 데이터 품질을 극대화하는 것이 필수적입니다. 예를 들어, 소비자의 약 60%가 지역 경제를 지원하는 브랜드의 제품 구매 선호도가 높다는 사실을 보여주는 고품질 데이터는 기업이 광고에서 지역 사회 공헌 활동을 강조하도록 이끌 수 있습니다. 또는 젊은 소비자가 저당 음료를 압도적으로 선호한다는 데이터는 음료 브랜드가 특정 인구통계학적 소비자층을 대상으로 건강한 제품을 출시하고 홍보하도록 유도할 수 있습니다.

 

신뢰할 수 있는 AI 및 분석

부정확한 데이터가 입력되면 잘못된 인사이트가 도출됩니다. 반대로 고품질 데이터를 확보하면 AI분석 도구는 중요한 비즈니스, 제품 및 고객 관련 의사 결정을 지원하는 데 신뢰할 수 있는 도구가 됩니다. 예를 들어, 물류 기업이 자사가 보유한 데이터의 품질을 신뢰할 수 있다면 AI와 분석을 자신 있게 활용해 경로와 일정을 최적화하고, 비용을 절감하는 동시에 정시 배송과 고객 만족도를 극대화할 수 있습니다.

데이터 품질 개선 방법: 5가지 모범 사례

데이터 품질을 개선하는 방법은 다양하며 기업은 디지털 기록을 효과적으로 관리하기 위해 여러 기술과 프로세스를 적용합니다. 다음은 조직 내 데이터 품질을 극대화하는 데 활용할 수 있는 다섯 가지 핵심 모범 사례입니다.  

 

1. 데이터 프로파일링

데이터 품질을 개선하려면 먼저 현재 보유한 데이터의 상태를 이해해야 합니다. 데이터 소스의 품질과 구조를 점검해 정확성, 완전성 및 일관성을 평가하는 것부터 시작하세요.

 

2. 데이터 품질 규칙 설정

데이터 품질 규칙은 정보가 활용 가능한지 여부를 판단하기 위한 사전 정의된 기준입니다. 이는 건물의 기둥, 배선, 배관 등이 안전한지를 보장하는 건축 법규와 같은 역할을 합니다.

 

3. 데이터 정제 프로세스 구현

정비사가 엔진을 점검해 원활한 작동을 유지하듯, 도구나 프로세스는 데이터 세트 내 오류, 불일치 및 부정확성을 찾아 수정하는 데 도움을 줍니다.

 

4. 데이터 품질 관리 및 모니터링 도구 사용

이러한 도구는 비즈니스 활용에 필요한 데이터가 정확하고 완전하며 일관된 상태인지 지속적으로 점검합니다. 조직이 AI 에이전트를 도입함에 따라 데이터 품질은 특히 중요하며, 이는 에이전트가 활용하는 데이터 품질에 좌우됩니다. 

 

5. 데이터 품질 문화 구축

조직 구성원 모두 데이터 품질이 왜 필수적인지, 그리고 데이터 수명 주기 전반에서 정확성, 일관성 및 신뢰성을 유지하기 위해 각자가 어떤 역할을 해야 하는지를 이해해야 합니다. 이를 위해 데이터 품질 문화를 장려하는 것뿐만 아니라, 품질 이슈를 인식하고 모범 사례를 따르며 관리하는 데이터에 대한 책임을 질 수 있도록 필수적인 교육을 제공해야 합니다.

데이터 품질 관련 자주 묻는 질문

데이터 품질의 3C는 일부 IT 리더가 데이터 적합성을 평가하기 위해 사용하는 프레임워크입니다. 3C는 데이터의 일관성(consistency), 완전성(completeness) 및 적합성(conformity, 때로는 correctness로도 표현됨)을 가리킵니다. 많은 IT 조직은 데이터 거버넌스 및 데이터 관리 프로그램의 일환으로 해당 3C 프레임워크를 활용합니다.

데이터 품질은 특정 시점에서 의사 결정에 필요한 정보의 정확성과 관련성을 의미합니다. 즉, 이 데이터가 오늘 나에게 어떤 가치를 제공하는가에 대한 질문입니다. 반면 데이터 무결성 은 시간이 지나도 정보가 일관되고 보호되며 신뢰할 수 있도록 유지되는 것을 의미합니다. 무결성은 데이터가 입력되고 저장되며 관리되는 전반적인 프레임워크를 의미하고, 데이터 품질은 그중 데이터가 실제로 유용한지를 보장하는 하위 개념이라고 볼 수 있습니다.

데이터 거버넌스는 조직 내 데이터 자산을 관리, 정리 및 통제하기 위한 구조화된 접근 방식입니다. 여기에는 데이터 품질을 개선하기 위한 가이드라인과 프로시저가 포함되며, 이를 통해 보안과 규정 준수가 가능해집니다. 또한 운영 및 규제 보고 목적을 위해 데이터 품질을 모니터링하는 체계를 마련하는 것도 데이터 거버넌스의 중요한 요소입니다.

일반적인 접근 방식은 데이터 품질 지표를 정의해 데이터 상태와 무결성을 모니터링하는 것입니다. 이러한 지표는 정확성, 완전성, 일관성과 같은 각 데이터 품질 요소가 사전에 정의된 기준을 얼마나 충족하는지를 추적하도록 설정할 수 있습니다. 규칙(e.g.모든 이메일 주소에는 ‘@’가 포함되어야 한다)을 정의하면 자동화된 지표(e.g.‘@’를 포함한 이메일 주소 비율)를 생성해 데이터 상태를 지속적으로 추적하고 문제 발생 시 사전 경고를 제공하며 데이터가 목적에 적합한 상태를 유지하도록 할 수 있습니다.

AI를 위한 Snowflake를 사용하는 고객 사례

데이터 통합 및 인사이트 도출 가속화로 플레이어의 만족도를 높인 Wargaming

Snowflake로 마이그레이션한 Wargaming은 매년 50만 달러를 절감하는 동시에, 데이터를 활용하여 플레이어의 경험을 강화하고 있으며 게이밍 업계의 최첨단 혁신을 이끌고 있습니다.