AI의 미래를 실시간으로 확인하세요

스트림 서밋 기조연설은 6월 1일부터 2일까지 무료로 시청할 수 있습니다.

데이터 카탈로그

데이터 카탈로그: 거버넌스 기반 데이터와 AI를 위한 컨텍스트 계층

이 가이드에서는 최신 데이터 카탈로그의 역할, 능동형 카탈로그와 수동형 메타데이터 인벤토리의 차이점, 엔터프라이즈 환경에서 가장 중요한 기능, 그리고 카탈로그가 분석, 거버넌스, AI 전반에 걸쳐 신뢰할 수 있는 데이터 활용을 어떻게 지원하는지 설명합니다.

데이터 카탈로그 정의

데이터 카탈로그는 사람들이 데이터를 찾고 이해하며 사용할 수 있도록 메타데이터를 체계화하고 시각화하는 시스템입니다. 실제로 데이터 카탈로그는 기술적 메타데이터, 비즈니스 컨텍스트, 계보, 소유권 및 거버넌스 신호가 통합되는 계층이며, 이를 통해 사용자는 특정 자산의 관련성, 신뢰성, 안전성을 판단할 수 있습니다.

과거 데이터 카탈로그는 비교적 단순한 질문, 즉 사용할 수 있는 데이터가 무엇인지에 답하는 역할을 했습니다. 그 질문은 여전히 중요하지만, 이제 그것만으로는 충분하지 않습니다. 팀이 데이터 자산을 사용하려면 먼저 그 의미, 현재 작업에 적합한지, 어떤 거버넌스 조건이 적용되는지를 알아야 합니다. 데이터를 찾는 것은 과제의 일부일 뿐입니다. 데이터를 이해하는 것이 핵심입니다.

이 문제는 AI 시스템이 루프에 포함되면 더욱 어려워집니다. 에이전트와 자동화된 워크플로우는 적합성을 평가하기 위해 멈추지 않습니다. 주어진 것을 그대로 소비하고 그 결과를 다운스트림으로 확산시킵니다. 최신 데이터 카탈로그는 이 두 가지 문제를 모두 해결합니다. 바로 팀과 AI 시스템이 자신있게 데이터를 활용하는 데 필요한 컨텍스트를 제공합니다. 프로비넌스를 이해하기 위한 계보, 책임성을 확립하기 위한 소유권, 허용 범위를 판단하기 위한 정책이 여기에 포함됩니다. 자동화가 더 보편화될수록 이 컨텍스트 계층은 단순한 데이터 액세스와 데이터 준비성을 가르는 기준이 됩니다.

데이터 카탈로그란?

데이터 카탈로그는 데이터 거버넌스 스택에서 검색과 거버넌스를 담당하는 계층입니다. 팀이 데이터 자산을 찾고, 컨텍스트를 해석하며, 계보를 추적하고, 적절한 사용을 결정하는 조건을 이해하도록 돕습니다. 점점 더 많은 조직이 거버넌스가 적용된 데이터를 분석, 애플리케이션, AI 시스템에 연결함에 따라, 카탈로그는 사람과 자동화 시스템 모두가 특정 데이터 세트의 신뢰성과 목적 적합성을 판단할 수 있도록 돕는 컨텍스트 계층 역할을 합니다.

최신 데이터 카탈로그는 사용자가 다음과 같은 실질적인 질문의 답을 신속하게 찾는 데 도움이 되어야 합니다.

  • 이 자산은 무엇인가?
  • 소유자는 누구인가?
  • 어떻게 생성되었는가?
  • 시간이 지남에 따라 어떻게 변화했는가?
  • 이 사용 사례에서 신뢰할 수 있는가?
  • 어떤 정책이나 액세스 제약 조건이 적용되는가?

최신 데이터 카탈로그와 기본 메타데이터 인벤토리의 차이점

기본 메타데이터 인벤토리는 자산을 나열하고 구조를 기록하여 무엇이 존재하는지 보여주는 역할을 합니다. 하지만 일반적으로는 해당 자산을 사용해야 하는지, 더 큰 워크플로우 안에서 어떤 역할을 하는지, 어떤 종속성과 제어가 그 의미를 규정하는지 판단하도록 돕는 데는 한계가 있습니다.

데이터 카탈로그는 기술적 메타데이터를 비즈니스적 의미 및 거버넌스 컨텍스트와 연결하여, 사용자가 실제 업무 흐름 속에서 자산을 해석할 수 있도록 합니다. 또한 자산이 업스트림 및 다운스트림 시스템과 어떻게 연결되는지, 검토나 인증을 거쳤는지, 최근에 언제 새로 고침되었는지, 재사용 전 어떤 거버넌스 조건이 적용되는지를 보여줄 수 있습니다.

메타데이터 인벤토리와 최신 데이터 카탈로그의 이러한 차이는 흔히 수동형 카탈로그에서 능동형 카탈로그로의 전환으로 설명됩니다.

  • 수동형 카탈로그는 특정 시점의 메타데이터를 문서화하며, 대부분 수동 업데이트, 주기적 스캔 또는 정적 항목에 의존합니다. 이로 인해 스키마가 변경되거나 담당자가 바뀌고 정의가 달라지면 정보가 오래되어 쓸모없어질 수 있습니다. 처음 만들 때는 정확할 수 있지만, 사람이 직접 관리하는 속도보다 환경 변화가 빠르면 유용성은 빠르게 떨어집니다.
  • 능동형 카탈로그는 액티브 메타데이터를 활용해, 자신이 설명하는 시스템과 워크플로우에 보다 가까운 컨텍스트를 유지합니다. 스키마가 변경되면 메타데이터를 업데이트하고, 사용 신호로 항목을 보강하며, 탐색 경험 안에서 정책을 드러내고, 메타데이터를 스튜어드십, 액세스, 거버넌스 워크플로우와 연결할 수 있습니다. 정적인 참고 자료에 머무는 대신, 데이터 사용을 위한 라이브 컨텍스트 계층이 되는 것입니다.

Snowflake의 Raja Balakrishnan과 동료들이 Horizon Catalog가 관련 데이터, 앱, 모델을 즉시 탐색하고 협업하는 데 어떻게 도움이 되는지 논의하는 내용을 확인해 보세요.

데이터 탐색은 데이터 카탈로그의 가장 잘 알려진 기능 중 하나입니다. 그러나 그 가치는 단순히 자산을 찾는 데서 그치지 않습니다. 이 기능은 사람들이 실제로 일하는 방식에 맞춰 데이터를 찾도록 돕고, 확신을 가지고 데이터를 사용할 수 있도록 충분한 컨텍스트를 제공합니다.

엔터프라이즈 사용자의 작업 방식을 반영하는 검색

엔터프라이즈 사용자들은 각기 다른 지점에서 검색을 시작합니다. 어떤 사람은 비즈니스 용어로, 어떤 사람은 스키마 오브젝트로, 또 어떤 사람은 도메인이나 소유자, 또는 태그로 검색합니다. 대규모 데이터 환경에서는 테이블이나 뷰의 정확한 명칭보다는 비즈니스 질문으로 검색을 시작하는 경우가 많습니다.

유용한 카탈로그는 이러한 다양한 진입점을 수용합니다. 다시 말하면, 탐색 기능이 단순히 완전 일치 검색에만 의존해서는 안 된다는 뜻입니다. 데이터 자산 환경이 복잡해질수록 자연어 검색이나 지능형 검색이 더 중요해지는데, 이는 사용자가 명명 규칙이 아닌 시맨틱 컨텍스트를 통해 질문을 바탕으로 적절한 자산을 찾을 수 있도록 돕기 때문입니다.

고립된 검색 결과를 넘어선 컨텍스트 기반 자산 탐색

강력한 카탈로그는 탐색 기능을 한 단계 더 발전시켜, 사용자가 관련 데이터 세트를 탐색하고, 특정 도메인 내에서 널리 사용되는 자산을 확인하며, 자신의 역할이나 과거 사용 패턴에 적합한 리소스를 식별할 수 있게 해줍니다.

이러한 컨텍스트 기반 탐색이 중요한 이유는 사람들이 고립되어 있는 하나의 자산만 사용하는 경우가 드물기 때문입니다. 사용자들은 대안을 비교하고, 관련 모델을 조사하며, 더 광범위한 워크플로우에서 자산이 어디에 위치하는지 파악하려고 합니다. 카탈로그가 이러한 관계를 탐색하도록 도와주면, 사용자는 매번 검색을 새로 시작할 필요 없이 더 생산적으로 데이터를 탐색할 수 있습니다.

거버넌스가 처음으로 가시화되는 지점

많은 사용자에게 탐색은 거버넌스가 처음으로 가시화되는 지점이기도 합니다. 카탈로그를 통해 사용자는 자산의 존재 여부뿐만 아니라, 액세스가 제한되어 있는지, 민감 데이터가 포함되어 있는지, 그리고 광범위한 사용을 위해 검토 및 승인을 거쳤는지 확인할 수 있습니다.

이러한 정보를 바탕으로 팀은 무엇을 어떻게 사용할 수 있는지, 그리고 추가 검토가 필요한지를 결정하게 됩니다. 거버넌스는 사용자가 나중에 따로 파악해야 하는 별도의 프로세스일 때보다, 탐색의 일부로 나타날 때 따르기가 더 쉬워집니다.

탐색 품질이 재사용과 채택에 미치는 영향

검색 품질이 행동을 결정짓습니다. 거버넌스가 적용되고 문서화가 잘 되어 있는 자산은 찾기 쉽고 해석하기 쉽기 때문에, 팀이 해당 자산을 재사용할 가능성이 더 높습니다. 반면, 탐색 성능이 부족하면 사람들은 불확실한 정보를 들여다보는 것보다 로컬 추출, 중복 모델, 비공식적인 해결책을 사용하는 것이 더 빠르다고 느끼며 이러한 방식에 더 의존하게 됩니다. 이것이 카탈로그 품질에 대한 가장 분명한 비즈니스 관점 주장 중 하나입니다.

메타데이터 관리는 카탈로그를 체계적으로 유지합니다. 더 중요한 점은 카탈로그가 데이터 사용에 관한 실제 의사결정을 지원할 수 있는지를 좌우한다는 것입니다. 엔터프라이즈 환경에서는 사용자가 단순히 자산에 대한 기술적 설명만 필요로 하는 경우는 드뭅니다. 그들은 데이터 엔지니어링 팀이 데이터를 신뢰할 수 있고, 활용 가능하며, 분석에 바로 사용할 수 있도록 만드는 데 도움이 되는 운영 및 비즈니스 컨텍스트 정보를 함께 필요로 합니다.

사용자가 자산을 평가하는 데 필요한 메타데이터

실제로 사용자는 여러 종류의 메타데이터를 동시에 활용합니다. 사용자는 자산이 무엇을 나타내는지 알려주는 ‘설명’, 자산에 대한 책임자가 누구인지 나타내는 ‘소유권’, 자산이 최신 상태인지 여부를 판단하는 데 도움이 되는 ‘새로 고침 정보’, 그리고 사용에 제약이 있는지를 명확히 하는 ‘정책 컨텍스트’가 필요합니다. 또한 계보 참조, 관련 자산, 그리고 해당 자산이 광범위한 워크플로우의 어디에 위치하는지에 대한 정보도 필요할 수 있습니다.

이러한 메타데이터가 있어야 자산을 신속하게 평가할 수 있습니다. 메타데이터가 없다면, 사용자는 문서, 티켓, 개인적인 지식을 엮어 단서를 찾아내야 합니다.

메타데이터의 유형

메타데이터는 몇 가지 큰 범주로 나누어 이해하는 것이 유용합니다. 해당 예로는 다음을 들 수 있습니다.

  • 기술 메타데이터는 구조, 스키마, 열, 소스 간 관계를 다룹니다.
  • 비즈니스 메타데이터는 정의, 소유자, 도메인, 의도된 사용 목적을 더합니다.
  • 운영 메타데이터는 새로 고침 주기, 마지막 업데이트 시점, 사용 패턴을 나타냅니다.
  • 거버넌스 메타데이터는 분류, 인증, 액세스 조건, 재사용에 영향을 주는 기타 신호를 설명합니다.

각 계층은 서로 다른 질문에 답을 주지만, 카탈로그의 가치는 이 모든 정보를 한눈에 볼 수 있도록 통합하는 데서 나옵니다.

대규모 메타데이터를 최신 상태로 유지하기

자산의 소유자가 변경되고, 정의가 바뀌며, 새로운 다운스트림 사용 사례가 등장하고, 정책 조건이 진화하는 가운데 메타데이터는 항상 최신으로 유지되어야 합니다. 카탈로그가 전적으로 수동 업데이트에 의존한다면 이는 순식간에 무용지물이 되어버립니다.

예약된 배치 스캔과 파이프라인 실행 시 실시간으로 이루어지는 이벤트 기반 캡처를 모두 활용하여, 자동화된 수집, 패턴 기반 보강 및 AI 지원 설명을 통해 메타데이터를 보다 완전하고 최신인 상태로 유지할 수 있습니다.

스튜어드십이 여전히 중요하고, 비즈니스적 의미나 승인이 관련된 경우라면 특히 더 그렇지만, 운영 모델은 환경이 바뀔 때마다 사람이 직접 자산 컨텍스트를 재작성하는 방식에 의존해서는 안 됩니다.

데이터 계보 및 영향 분석

데이터 계보는 사용자가 데이터 세트가 어떻게 만들어졌는지 이해하도록 돕고, 영향 분석은 그 데이터 세트에 무엇이 의존하는지 보여 줍니다.

신뢰와 해석을 위한 컨텍스트로서의 계보

계보가 중요한 이유는 표면적으로 드러나지 않는 가정이 결과나 지표에 포함되는 경우가 많기 때문입니다. 어떤 데이터 세트는 공신력 있게 보일 수 있지만 실제로는 특정 레코드를 제외하거나, 주요 필드를 변형하거나, 다른 팀이 예상하지 못하는 비즈니스 로직을 적용하는 변환 과정을 거쳤을 수 있습니다. 계보를 사용하면 이러한 관계를 더 쉽게 검사할 수 있습니다.

분석가, 스튜어드, 비즈니스 팀 모두 자산이 어떻게 생성되었는지, 그리고 그 의미를 결정짓는 시스템이나 변환이 무엇인지 확인할 수 있게 되면서 그에 따른 이점을 얻게 됩니다.

변경 전 영향 분석

이러한 가시성은 무언가 변경을 앞두고 있을 때도 중요합니다. 한 모델의 로직 업데이트나 새로운 필드 정의 또는 소스 시스템 동작의 변경은 먼 다운스트림까지 영향을 미칠 수 있습니다. 영향 분석이 없다면 팀은 보고서가 중단되거나, 워크플로우가 실패하거나, 지표 관련 분쟁이 발생한 후에야 이러한 종속성을 발견하게 됩니다.

데이터 카탈로그는 변경 사항이 반영되기 전에 연결되어 있는 요소를 보여줌으로써 이러한 위험을 줄여주며, 이를 통해 팀은 사후에 다운스트림에서 발생하는 예기치 못한 문제를 해결하는 대신 미리 계획하고 소통하며 검증할 기회를 얻게 됩니다.

문제 해결, 거버넌스 및 최신화에 계보가 중요한 이유

계보는 여러 종류의 업무에서 실질적인 가치를 지닙니다. 보고된 수치가 더 이상 일치하지 않을 경우 문제를 해결하는 데 도움이 되고, 민감한 필드가 변환 과정을 거치며 어떻게 이동하는지를 스튜어드가 추적할 수 있도록 합니다. 이러한 추적은 데이터 세트 수준뿐만 아니라 컬럼 수준에서도 가능하며, 이는 규제 감사 및 PII 거버넌스에 중요합니다. 또한 마이그레이션을 시작하기 전에 무엇이 레거시 자산에 의존하는지 파악해 최신화 작업을 지원합니다.

각 경우 모두 데이터가 어떻게 이동하는지에 대한 추측을 줄이고, 그 이해를 바탕으로 내리는 의사결정에 대해 팀이 더 큰 확신을 갖게 합니다.

데이터 품질 및 프로파일링

자산이 무엇이고 어디에서 왔는지 아는 것만으로는 사용에 적합한지 판단할 수 없습니다. 데이터 품질과 프로파일링은 다음 판단 계층을 더합니다. 즉, 자산이 오래되었는지, 불완전한지, 변동성이 이례적으로 큰지, 또는 사용자가 현재 염두에 둔 목적과 다른 목적에 맞춰 만들어졌는지 식별합니다.

자동화된 프로파일링은 데이터 세트 내의 실제 콘텐츠와 패턴을 조사하여 잠재적인 품질 문제를 찾아냅니다. 여기에는 이상값 탐지, 결측치 식별, 데이터 형식 검증 등이 포함됩니다.

선도적인 카탈로그는 머신러닝을 사용하여 정상 패턴을 설정하고 주의가 필요한 이상 징후에 대한 알림을 자동으로 보내는 고급 품질 모니터링 기능을 통합하고 있습니다. 프로파일링 결과는 다른 메타데이터와 함께 저장되어 데이터 소비자에게 데이터 세트의 신뢰성에 대한 중요한 컨텍스트를 제공하고, 데이터 스튜어드가 품질 개선 노력의 우선순위를 정할 수 있도록 돕습니다.

데이터 분류 및 태그 지정

자산은 겉으로는 비슷해 보여도 사용과 관련된 의무는 크게 다를 수 있습니다. 데이터 분류와 태그 지정은 자산에 민감 데이터가 포함되어 있는지, 자산이 규제 요건의 적용을 받는지, 또는 탐색용 결과나 임시 결과와는 다르게 취급되어야 하는지를 사용자가 파악할 수 있도록 돕습니다.

이러한 기능은 동일한 환경 내에 가공 전 수집 계층, 선별된 모델, 거버넌스가 적용된 데이터 제품 및 탐색용 임시 결과물이 공존할 때 특히 중요해집니다.

태그가 탐색과 스튜어드십을 개선하는 방식

태그는 동시에 여러 측면에서 도움을 줍니다. 먼저, 검색 결과의 범위를 중요한 자산으로 쉽게 좁힐 수 있게 하여 검색을 뒷받침합니다. 그리고 소유권을 명확히 하고, 검토 작업을 라우팅하며, 주의가 필요한 자산을 표시함으로써 스튜어드십을 지원합니다. 마지막으로 정책 관련 특성을 더 쉽게 인식하고 그에 따라 조치를 취할 수 있게 함으로써 거버넌스를 지원합니다.

수동 태그 지정 및 자동화

대규모 분류를 위해서는 자동화와 수동 검토의 조합이 필요합니다. 최신 카탈로그는 AI를 활용해 민감 데이터를 식별하고 분류를 제안할 수 있으며, 규모가 크고 빠르게 변화하는 환경 전반에서 팀이 태그를 더 일관되게 적용하도록 지원합니다.

하지만 비즈니스적 의미, 정책 결정, 예외 처리 및 최종 승인 단계에서는 여전히 스튜어드십이 필요합니다. 실무 전문가들은 업계 전문 용어, 내부 분류 체계 및 비즈니스 프로세스를 반영한 사용자 지정 태그를 추가하여 자동화된 분류를 보완할 수 있습니다.

이러한 하이브리드 접근 방식은 자동화의 효율성과 인간의 인사이트가 가진 정밀함을 결합하여, 데이터 자산이 규정 준수 및 비즈니스 목적 모두에 맞게 적절히 분류되도록 보장합니다.

협업 기능

자산에 대한 가장 중요한 컨텍스트 중 일부는 해당 자산을 어떻게 사용해야 하는지에 관해 팀이 내린 결정에 내포되어 있습니다. 여기에는 알려진 주의 사항, 승인된 용도, 예외 사항, 그리고 시기나 적합성에 대한 경고 등이 포함됩니다. 댓글, 평점, 사용량 신호는 이러한 종류의 실무 지식을 포착하는 수단이 됩니다.

사용량 지표, 리뷰 및 스튜어드십의 의견

사용량 지표는 사용자가 어떤 자산이 널리 신뢰를 받고 있는지, 또는 어떤 자산이 여전히 활용도가 낮거나 불확실한 상태인지를 즉시 파악하는 데 도움을 줍니다. 리뷰와 스튜어드의 의견은 신뢰도를 확인할 수 있는 추가적인 방법으로써 또 다른 계층의 역할을 합니다. 이러한 요소들이 결합되면, 단순히 존재만 하는 자산과 광범위한 사용이 가능할 만큼 적극적으로 관리되는 신뢰할 수 있는 데이터를 명확히 구분하는 데 도움이 됩니다.

간소화된 기여 경로가 중요한 이유

협업은 기여도를 관리할 수 있을 때만 원만하게 이루어집니다. 소유자와 스튜어드가 맥락을 최신 상태로 유지하기 위해 복잡한 수동 워크플로를 거쳐야 한다면, 카탈로그는 자신이 설명해야 할 환경의 변화를 따라가지 못합니다. 따라서 기여 경로는 협업 기능만큼이나 중요합니다. 메모를 추가하거나, 소유권을 업데이트하거나, 승인된 용도를 명확히 하는 과정이 쉬울수록, 시간이 지나도 카탈로그가 유용성을 유지할 가능성이 높아집니다.

자주 하는 실수

메타데이터, 소유권, 계보, 정책 맥락이 최신 상태로 유지되지 않으면 사용자는 빠르게 신뢰를 잃고 비공식 우회 방식, 중복 데이터 세트, 수동 확인으로 돌아갑니다.

AI 기반 데이터 카탈로그 기능

데이터 카탈로그 도입은 사람의 큐레이션이 병목 현상이 될 때 자주 실패합니다. AI 네이티브 카탈로그는 데이터 자산을 설명, 분류, 보강, 검색하는 데 필요한 수작업 부담을 줄입니다.

자동화된 메타데이터 보강

자동화된 메타데이터 보강은 AI와 규칙 기반 방식을 활용해 카탈로그 항목을 생성하거나 개선합니다. 예를 들어 테이블과 컬럼 설명을 제안하고, 자산 간 관계를 식별하며, 이름이나 사용 패턴에서 비즈니스 맥락을 추론하고, 스튜어드 검토가 필요한 항목에 플래그를 지정할 수 있습니다.

LLM이 생성한 메타데이터는 기술 메타데이터는 있지만 자연어 설명이 없거나 불완전할 때 특히 유용합니다. 시스템은 테이블 이름, 컬럼 이름, 샘플 값, 인접 오브젝트를 검사한 뒤 데이터 소유자나 스튜어드가 검토할 수 있는 설명을 제안할 수 있습니다.

AI가 스튜어드십을 대체할 수는 없지만, 스튜어드가 수행하는 작업의 방식은 바꿉니다. 스튜어드는 모든 설명을 처음부터 작성하는 대신 AI가 제안한 설명을 검토하고, 비즈니스 의미를 바로잡고, 분류를 승인하며, 고가치 또는 고위험 자산에 더 집중할 수 있습니다.

지능형 검색과 NLP 검색

AI는 데이터 탐색 역량도 높입니다. 지능형 검색은 메타데이터, 설명, 태그, 계보, 액세스 패턴, 의미적 유사성을 활용해 사용자가 정확한 오브젝트 이름을 모르는 경우에도 의도에 맞는 자산을 찾아낼 수 있습니다.

NLP 검색은 비즈니스 사용자가 “현재 고객 매출을 확인하려면 어떤 승인된 데이터 세트를 사용해야 합니까?” 또는 “지난 분기의 거버넌스 적용 제품 사용량 데이터를 어디에서 찾을 수 있습니까?”처럼 일상적인 언어로 질문할 때 유용합니다. 카탈로그는 의미론적 컨텍스트를 활용하여 후보 자산을 반환한 다음, 사용자가 어떤 자산을 사용할지 결정하는 데 도움이 되는 소유권, 계보, 품질 및 정책 신호를 보여줄 수 있습니다.

자동화된 분류와 태그 지정

데이터 분류와 태그 지정 역시 자동화에 매우 적합한 영역입니다. 카탈로그는 스키마와 값을 스캔해 민감할 가능성이 높은 필드를 식별하고, PII 또는 금융 데이터용 태그를 제안하며, 도메인 레이블을 적용하고, 불확실한 분류를 스튜어드 검토 대상으로 라우팅할 수 있습니다.

대규모 데이터 환경에서는 새로운 테이블, 컬럼, 파생 자산이 계속 등장하기 때문에 전적으로 수동에 의존하는 태그 지정 프로세스를 지속하기 어렵습니다. 자동화된 큐레이션은 변화 속도를 따라가도록 돕고, 사람의 검토는 분류가 정책, 규정 준수 또는 비즈니스 의미에 영향을 미치는 지점에서 판단력을 보완합니다.

에이전틱 AI를 위한 컨텍스트 계층으로서의 카탈로그

앞서 살펴본 것처럼 AI는 카탈로그 구축과 유지 관리를 더 쉽게 만듭니다. 하지만 데이터 카탈로그는 AI 에이전트가 엔터프라이즈 데이터를 책임 있게 사용하는 데 필요한 메타데이터, 계보, 소유권, 정책 컨텍스트를 제공함으로써 AI 에이전트를 지원하는 역할도 합니다. 런타임에 데이터를 쿼리하는 AI 에이전트는 정보를 검색, 요약하거나 그에 따라 조치를 취하기 전에 컨텍스트가 필요합니다. 어떤 테이블이 인증되었는지, 어떤 지표 정의가 최신인지, 특정 필드에 민감 데이터가 포함되는지, 어떤 액세스 정책이 적용되는지, 소스가 해당 작업에 충분히 최신 상태인지 알아야 할 수 있습니다.

이런 의미에서 데이터 카탈로그는 AI 시스템이 결과를 생성하기 전에 데이터 환경을 이해하도록 돕는 AI 거버넌스 컨텍스트 계층 역할도 합니다. 카탈로그 품질은 AI 출력 품질에 직접적인 영향을 줄 수 있습니다. 오래된 카탈로그는 에이전트를 구식 테이블, 불완전한 설명, 폐기된 지표 또는 안전한 사용에 필요한 정책 컨텍스트가 없는 자산으로 안내할 수 있습니다.

“기업이 AI 실험에서 프로덕션으로 전환할수록, 진짜 과제는 AI 시스템이 엔터프라이즈 전반에서 연결되고 거버넌스가 적용되며 검색 가능한 데이터에 일관되게 액세스하도록 보장하는 것입니다.” 이는 Snowflake 제품 담당 EVP인 Christian Kleinerman의 설명입니다. “이는 AI 배포를 늦추고 위험을 높이는 데이터 사일로, 취약한 파이프라인, 폐쇄형 시스템을 제거해야 한다는 뜻입니다.”

Quote Icon

As businesses move from AI experimentation to production, the real challenge is ensuring AI systems can consistently access data that is connected, governed and discoverable across the enterprise.

Christian Kleinerman
EVP of Product, Snowflake

수동형 vs. 능동형 데이터 카탈로그

수동형 카탈로그와 능동형 카탈로그의 차이는 어떤 카탈로그 프로그램은 시간이 지날수록 가치를 잃고, 어떤 프로그램은 일상적인 데이터 작업의 일부로 자리 잡는 이유를 설명합니다.

수동형 카탈로그

수동형 카탈로그는 데이터 자산에 대한 정적 또는 거의 정적인 인벤토리입니다. 스키마, 테이블, 컬럼, 소유자를 문서화할 수는 있지만, 메타데이터는 수동 업데이트나 주기적 새로 고침에 의존하는 경우가 많습니다. 안정적인 스키마와 제한적인 거버넌스 요구 사항을 가진 소규모 팀이라면 이것으로 충분할 수 있습니다.

문제는 규모입니다. 더 큰 환경에서는 메타데이터 노후화가 거의 즉시 시작됩니다. 테이블 소유자가 역할을 바꾸거나, 다운스트림 대시보드에 종속성이 추가되거나, 지표 정의가 수정되거나, 파생 테이블에 민감 필드가 나타날 수 있습니다. 수동형 카탈로그는 여전히 원래 구조를 보여줄 수 있지만, 더 이상 확신을 갖고 사용하는 데 필요한 맥락을 반영하지 못합니다.

능동형 카탈로그

능동형 카탈로그는 환경이 변화함에 따라 함께 업데이트됩니다. 능동형 카탈로그는 스키마 변경, 계보 이벤트, 사용 신호, 정책 업데이트, AI 기반 메타데이터 보강을 캡처할 수 있습니다. 또한 검색 계층에서 액세스 제어를 노출하고 카탈로그 항목을 스튜어드십 워크플로우와 연결할 수 있습니다.

능동형 카탈로그는 액티브 메타데이터를 중심으로 설계됩니다. 즉, 메타데이터가 단순히 저장되는 데 그치지 않고 검색, 거버넌스, 자동화, 의사 결정을 이끄는 데 활용됩니다. 실시간 메타데이터 동기화, 자동화된 큐레이션, 정책 인식 검색는 카탈로그가 설명하는 데이터 환경과 일치하도록 유지하는 데 도움이 됩니다.

엔터프라이즈 규모에서 수동형 카탈로그가 실패하는 이유

수동형 카탈로그는 메타데이터의 노후화 속도가 사람이 큐레이션할 수 있는 역량을 넘어서면 실패합니다. 사용자는 결국 카탈로그가 실제 환경을 반영하는지 판단할 수 없게 되고, 카탈로그에 대한 신뢰를 잃습니다.

기업이 수동형 카탈로그에서 능동형 카탈로그로 전환하는 것은 실질적인 필요를 반영합니다. 카탈로그는 변화하는 데이터 시스템의 속도에 맞춰야 합니다. AI 네이티브 카탈로그는 그 다음 단계의 진화입니다. 자동화와 LLM 생성 메타데이터를 활용해 능동형 카탈로그 유지 보수를 더 확장 가능하게 만들기 때문입니다.

데이터 거버넌스 통합

거버넌스는 사용자가 이미 데이터에 관한 의사 결정을 내리는 지점에서 보일 때 더 효과적으로 작동합니다. 사용자는 자산을 평가하는 동안 제한 사항, 승인 절차, 정책 조건을 이해해야 합니다. 이미 그 자산을 기반으로 구축을 시작한 뒤에야 알게 되어서는 안 됩니다.

정책 인식 탐색

정책 인식형 카탈로그는 액세스가 제한되는지, 마스킹이나 행 수준 규칙이 적용되는지, 재사용 전에 승인 단계가 필요한지를 사용자가 이해하도록 돕습니다. 이러한 신호는 어떤 작업을 어떤 조건에서 진행할 수 있는지를 결정짓습니다.

데이터 거버넌스가 데이터 카탈로그에 통합되면 팀은 기대한 방식으로 사용할 수 없는 자산을 중심으로 계획을 세우는 데 쓰는 시간을 줄일 수 있습니다. 거버넌스 팀도 컨텍스트 안에서 답할 수 있었던 질문을 처리하는 데 드는 시간을 줄일 수 있습니다.

액세스 제어

최신 데이터 카탈로그는 액세스 관리 시스템과 통합되어 역할 기반 권한 및 데이터 액세스 정책을 적용하도록 설계되었습니다. 누가, 어떤 목적으로 특정 데이터 자산에 액세스할 수 있는지에 관한 상세한 기록을 유지함으로써, 조직은 민감 정보를 더 안전하게 보호하는 동시에 적절한 데이터 활용을 지원할 수 있습니다.

스튜어드십, 자격 인증 및 감사 지원

거버넌스에는 스튜어드십, 자격 인증, 감사 지원이라는 운영 모델도 필요합니다.

  • 스튜어드십은 자산의 품질, 의미, 규정 준수에 대한 책임을 명확히 할 수 있도록 돕습니다.
  • 자격 인증은 어떤 자산이 검토를 거쳐 더 폭넓은 사용을 승인받았는지 보여주는 신호입니다.
  • 감사 지원은 어떤 정책이 존재하는지뿐 아니라 해당 정책이 어디에 적용되고 실제 자산과 어떻게 연결되는지 보여줄 수 있어야 가능합니다.

카탈로그는 이러한 요소들을 하나로 통합하여 거버넌스를 더 쉽게 검사하고, 적용하고, 설명할 수 있도록 돕습니다.

데이터 카탈로그 평가 및 선택 방법

데이터 카탈로그 선택은 조직이 해결해야 할 운영상의 문제를 명확히 하는 데서 출발합니다. 소규모 분석 팀에는 더 나은 검색과 설명서가 필요할 수 있고, 규제 산업의 엔터프라이즈에는 계보, 분류, 정책 가시성, 감사 지원이 필요할 수 있습니다. AI 중심의 조직에는 거버넌스가 적용된 검색, 시맨틱 검색, 에이전틱 워크플로우를 지원할 수 있는 카탈로그가 필요할 수 있습니다.

주요 평가 기준은 다음과 같습니다.

  • 메타데이터 커버리지의 너비와 깊이: 카탈로그는 가장 중요한 자산 전반에서 기술, 비즈니스, 운영, 거버넌스 메타데이터를 포착해야 합니다.
  • 자동 검색 역량: 자동화된 수집과 보강은 스키마, 파이프라인, 사용 패턴이 변하더라도 카탈로그를 최신 상태로 유지하는 데 도움이 됩니다.
  • 계보 깊이: 영향 분석, 감사 가능성, 정책 전파가 필요한 경우 컬럼 수준 계보는 테이블 수준 계보보다 더 정밀한 가시성을 제공합니다.
  • 거버넌스 통합: 정책, 분류, 자격 인증, 액세스 조건은 별도의 거버넌스 프로세스가 아닌 검색 환경 안에서 노출되어야 합니다.
  • 검색 경험: 사용자는 비즈니스 용어, 기술 오브젝트, 도메인, 태그, 소유자 또는 자연어 질문으로 검색할 수 있어야 합니다.
  • 개방형 표준 지원: 데이터가 여러 엔진, 클라우드, 스토리지 계층에 걸쳐 있을 때는 개방형 카탈로그 표준과 상호 운용 가능한 형식을 지원하는 역량이 중요합니다.
  • 네이티브와 서드 파티 적합성: 핵심 환경과 거버넌스 워크플로우가 Snowflake에서 라이브로 운영되는 경우 Snowflake 네이티브 카탈로그가 적합한 선택일 수 있습니다. 여러 외부 도구, 플랫폼, 운영 시스템 전반의 메타데이터를 통합해야 하는 조직에는 공급업체 중립적 카탈로그나 파트너 도구가 유용할 수 있습니다.

배포 및 채택을 위한 모범 사례

데이터 카탈로그는 검색, 신뢰, 거버넌스를 개선할 수 있지만, 플랫폼을 도입한다고 해서 이러한 성과가 자동으로 따라오는 것은 아닙니다. 성과는 구현 범위를 어떻게 지정하는지, 스튜어드십을 어떻게 할당하는지, 그리고 팀이 얼마나 쉽게 카탈로그에 기여하고 이를 지속적으로 활용할 수 있는지에 달려 있습니다. 다음 모범 사례는 데이터 카탈로그 투자를 성공적인 활용으로 이어가는 데 도움이 됩니다.

가치가 높은 도메인과 신뢰할 수 있는 자산으로 시작

일반적으로 부서 간 작업, 거버넌스 또는 경영진 보고에 이미 가장 중요한 도메인과 자산부터 시작하는 것이 좋습니다. 이를 통해 실제 기능을 더 빨리 구현하고, 조기 채택이 더 쉽게 이루어지고 지속되도록 할 수 있습니다.

소유권 및 스튜어드십 조기 정의

소유권이 모호한 상태라면 카탈로그는 불확실성을 줄이기보다 오히려 이를 초래할 수 있습니다. 스튜어드십이 복잡할 필요는 없지만, 누가 질문에 답변하고, 업데이트를 검토하며, 중요한 자산에 대한 신뢰를 유지할 수 있는지 사용자가 알 수 있을 만큼 명확해야 합니다.

기여는 쉽게, 거버넌스는 가시적으로

사용자가 기본 맥락을 이해하거나 작지만 중요한 업데이트를 기여하기 위해 평소 워크플로우를 벗어나지 않아도 될 때 도입률은 높아집니다. 거버넌스도 별도의 정책 시스템과 승인 절차 속에 묻혀 있을 때보다 카탈로그 안에서 드러날 때 훨씬 따르기 쉽습니다. 실질적인 목표는 환경이 변화해도 카탈로그의 유용성을 유지할 수 있을 만큼 충분한 가시성과 기여도를 확보하는 것입니다.

규모에 따라 자동화 활용

자산 환경이 확장될수록 자동화의 중요성은 더욱 커집니다. 메타데이터 수집, 계보 캡처, 분류 및 정책 전파는 모두 일회성 수동 업데이트를 거치지 않고 체계적으로 처리될 때 그 이점을 누릴 수 있습니다. 그렇다고 인간의 검토가 필요 없어지는 것은 아니지만, 카탈로그를 현실에 맞게 유지하기 위해 요구되는 반복적인 업무량을 줄여줍니다.

재사용, 신뢰 및 채택률을 통한 성공 측정

카탈로그의 성공 여부는 행동의 변화로 증명됩니다. 팀이 업무를 진행하면서 신뢰할 수 있는 자산을 더 자주 재사용하고, 중복 작업을 줄이며, 비공식적인 확인에 대한 의존도가 낮아지고 있어야 합니다. 이러한 결과는 카탈로그를 통해 데이터가 실제로 사용되는 방식이 개선되고 있는지 보여주기 때문에, 단순한 인벤토리의 규모보다 훨씬 중요합니다.

Snowflake의 데이터 카탈로그

데이터가 여러 엔진, 형식, 클라우드에 걸쳐 있을수록 카탈로그화와 거버넌스는 더 어려워집니다. 네이티브 카탈로그는 별도의 카탈로그, 액세스, 거버넌스 도구 사이를 오가야 하는 부담을 줄일 수 있습니다. Snowflake Horizon Catalog는 Snowflake 데이터와 외부 스토리지의 데이터를 아우르는 거버넌스 기반 카탈로그 경험을 제공하도록 설계되었습니다. 동시에 Snowflake, Spark, Iceberg를 읽는 엔진에 일관된 메타데이터와 권한을 제공합니다.

Snowflake는 Apache Iceberg 환경을 위한 개방형 카탈로그 패턴을 지원하며, Iceberg REST 사양을 준수하는 외부 카탈로그 서버도 지원합니다. 이를 통해 조직은 Iceberg 테이블에 대한 카탈로그 컨텍스트를 유지하면서 멀티 엔진 환경 전반에서 작업할 수 있습니다.

데이터 카탈로그는 더 광범위한 데이터 거버넌스 전략을 구성하는 핵심 기반 요소 중 하나입니다. Snowflake에서 카탈로그화는 자산 검색, 태그와 분류 적용, 액세스 관리, 계보 추적, 분석과 AI 전반의 거버넌스 기반 활용을 지원하는 더 큰 거버넌스 워크플로우와 연결됩니다.

데이터가 AI 애플리케이션, 에이전틱 워크플로우, 자동화된 의사결정 시스템으로 이동하면서 데이터 컨텍스트의 중요성은 더욱 커지고 있습니다. 오래된 카탈로그는 사용자를 잘못된 자산으로 안내하거나, 정책 제약 조건을 보이지 않게 하거나, AI 시스템이 데이터를 책임감 있게 검색하고 해석하는 데 필요한 컨텍스트를 제공하지 못할 수 있습니다. 능동적이고 AI 네이티브 카탈로그는 메타데이터를 최신 상태로 유지하고, 거버넌스를 가시화하며, 신뢰할 수 있는 자산의 재사용을 쉽게 해줌으로써 이러한 격차를 해소하는 데 도움이 됩니다.

핵심 요점

최신 데이터 카탈로그는 검색 가능한 인벤토리를 넘어섭니다. 메타데이터, 계보, 소유권, 품질 신호, 정책 정보를 연결하는 거버넌스 기반 컨텍스트 계층으로 작동하여 팀과 AI 시스템이 데이터를 책임감 있게 찾고, 신뢰하고, 활용할 수 있도록 합니다.

자주 묻는 질문

데이터 카탈로그에 대한 자주 묻는 질문에 Snowflake 전문가가 답변합니다.

메타데이터 관리는 데이터에 관한 정보를 수집, 구성, 유지하는 프로세스입니다. 데이터 카탈로그는 이러한 메타데이터를 활용해 사용자가 자산을 찾고, 맥락을 이해하며, 신뢰도를 평가하고, 거버넌스 요구 사항을 준수하도록 지원합니다.

수동형 데이터 카탈로그는 특정 시점의 메타데이터를 기록합니다. 능동형 데이터 카탈로그는 데이터 환경이 변화함에 따라 스키마 변경, 계보, 사용 신호, 거버넌스 정책 및 기타 업데이트를 포착해 컨텍스트를 최신 상태로 유지합니다.

데이터 카탈로그는 정의, 계보, 최신성, 소유권, 품질 신호, 거버넌스 규칙 등 데이터에 대한 컨텍스트를 AI 시스템에 제공합니다. 이를 통해 AI 애플리케이션과 에이전트는 엔터프라이즈 데이터를 더 정확하고 책임 있게 찾고 사용할 수 있습니다.

데이터 거버넌스 리소스 살펴보기

데이터 거버넌스 주제 살펴보기

데이터 거버넌스의 모든 영역에 대한 심층 분석