Data for Breakfast 서울 - 3월 19일 (목)

데이터와 에이전틱 인텔리전스로 비즈니스 가치를 실현하세요!

머신러닝에서의피처 스토어 정의

피처 스토어는 AI 모델을 구동하는 피처를 저장 및 관리하는 중앙 허브 역할을 하며 머신러닝 성공에 점점 필수적인 요소가 되고 있습니다. 피처 스토어는 피처 재사용을 촉진하고 학습과 추론 간의 일관성을 보장하며 데이터 거버넌스를 간소화함으로써 팀이 ML 파이프라인을 더 빠르고 정확하게 배포할 수 있도록 지원합니다.

  • 개요
  • 피처 스토어란?
  • 피처 스토어가 머신러닝을 강화하는 방식
  • 피처 스토어의 이점
  • 리소스

개요

머신러닝(ML)은 다양한 산업에서 점점 더 중요한 역할을 하고 있으며, 피처 스토어는 금융 사기 감지, 전자상거래 내 관련성 높은 상품 추천 제공, 의료 분야에서의 질병 예방 및 치료 고도화 등 ML 적용 전반에서 핵심적인 역할을 수행합니다. 이 문서에서는 피처 스토어의 정의와 피처 스토어를 통해 데이터 전문가가 전체 머신러닝 피처 라이프사이클을 효과적으로 관리하여 ML 파이프라인을 빠르게 배포하는 방식을 살펴봅니다.

피처 스토어란?

피처 스토어는 머신러닝을 위해 사용되는 새로운 형태의 데이터 시스템으로, 자주 사용되는 피처를 저장, 처리 및 액세스할 수 있는 중앙 허브 역할을 합니다. 이를 통해 향후 머신러닝 모델 개발 시 피처를 재사용할 수 있습니다. 피처 스토어는 머신러닝을 위한 피처 엔지니어링 과정에서 데이터 입력, 추적, 거버넌스 작업을 운영 수준에서 처리합니다.

피처 스토어의 중요성을 온전히 이해하기 위해서는 머신러닝 모델의 작동 방식에 대한 기본 개념을 알아야 합니다. ML 모델은 피처를 활용합니다. 여기서 피처란 과거 데이터를 기반으로 미래를 예측하도록 모델을 학습시키는 데 사용할 수 있는 측정 가능한 데이터 조각입니다. 예를 들어, 고객이 다음 달 안에 구매할지 예측하려면 지난달 구매 금액 합계나 이번 주 웹사이트 방문 횟수와 같은 변수 즉, 피처를 사용할 수 있습니다. 이와 마찬가지로, 의료 관련 사용 사례에서는 환자를 설명하기 위한 피처로 나이, 체중, 흡연 여부, 운동 빈도, 현재 의학적 진단과 같은 변수가 포함될 수 있습니다. 

머신러닝 모델은 먼저 학습 과정을 거치게 되며, 준비된 예제와 피처 형태의 방대한 과거 데이터를 입력받습니다. 이를 통해 모델은 과거 유사 데이터의 경험을 기반으로 새로운 예제에 대해 추론하거나 정확한 예측을 수행할 수 있습니다. 모델이 운영 데이터로부터 예측을 생성하도록 훈련된 이후, 조직은 가공 전 데이터를 훈련 시 사용한 것과 동일한 피처로 변환하는 파이프라인을 운영화해야 합니다.

학습 데이터와 운영 데이터 모두 피처 파이프라인을 통해 모델에 입력되기 전에 적절하게 준비되어야 합니다. 피처 파이프라인은 일반 데이터 파이프라인과 유사합니다. 피처 파이프라인에서 생성된 데이터는 집계, 검증 및 변환 과정을 거쳐 ML 모델 입력에 적합한 형식으로 준비됩니다.

피처 스토어가 머신러닝을 강화하는 방식

피처 스토어는 자주 사용되는 피처를 저장하고 처리하는 중앙 리포지토리 역할을 하며, ML 모델과 팀 전반에서 피처를 재사용하고 공유할 수 있도록 지원합니다. 또한, 피처 값을 저장하고 관리할 뿐 아니라, 클라우드 데이터 웨어하우스, 클라우드 데이터 레이크, 스트리밍 애플리케이션의 가공 전 데이터를 ML 모델 학습에 활용할 피처와 ML 기반 애플리케이션에 결과를 제공하는 신규 데이터 스코어링용 피처로 변환하는 역할도 수행합니다.

피처 스토어의 이점

피처 스토어는 다양한 이점을 제공합니다. 다음은 이를 활용해 머신러닝 이니셔티브를 개선하는 방법을 살펴봅니다.

피처 재사용 지원

피처가 개발되면 피처 스토어에 저장할 수 있습니다. 이를 통해 ML 모델과 팀 간에 피처를 재사용하거나 공유할 수 있습니다. 새로운 피처를 개발하는 데는 많은 시간이 소요됩니다. 이 때문에 데이터 사이언티스트들은 기존 피처를 재활용하면 훨씬 효율적으로 끝낼 수 있을 작업에 매여 시간을 허비하게 됩니다. 피처 스토어가 잘 구축되어 있다면, 모든 피처를 처음부터 새로 만들 필요 없이 빠르게 새로운 ML 모델을 생성할 수 있습니다.

피처 일관성 보장

피처가 어떻게 개발되고 계산되었는지, 그리고 어떤 정보를 나타내는지 이해하는 것이 중요합니다. 특히 규모가 큰 조직에서는 정의와 개발 문서를 일관되게 유지하는 작업에 어려움을 겪을 수 있습니다. 중앙 집중식 피처 스토어는 이러한 문제를 해결하며, 모든 ML 피처에 대한 단일 레지스트리를 제공해 조직 내 모든 팀이 쉽게 접근할 수 있도록 합니다.

최고 수준의 모델 성능 유지

훈련 단계에서 정의된 피처와 서빙 파이프라인에서 구현된 피처 간에 불일치가 발생하면, 프로덕션 환경에서 모델 성능이 저하될 수 있습니다. 또한 프로덕션 데이터는 시간이 지남에 따라 변화하기 때문에, 모델 성능을 최상의 상태로 유지하려면 데이터 세트의 프로파일을 지속적으로 모니터링하는 것이 중요합니다. 이 문제를 해결하기 위해 피처 스토어는 중앙 집중식 피처 파이프라인을 제공하여 훈련과 추론 전반에서 피처 정의와 구현의 일관성을 유지하고, 데이터 파이프라인을 지속적으로 모니터링할 수 있도록 지원합니다.

보안 및 데이터 거버넌스 강화

모델이 어떤 데이터로 훈련되었고, 배포 후 어떤 데이터를 입력받았는지 빠르게 파악하는 것은 반복 작업이나 디버깅에 매우 중요합니다. 피처 스토어에는 각 머신러닝 모델에 대해 어떤 데이터가 언제 사용되었는지와 같은 상세 정보가 포함됩니다. 클라우드 데이터 웨어하우스와 통합된 피처 스토어는 해당 구성에서 제공되는 강화된 데이터 보안의 이점을 활용할 수 있어, 모델과 훈련 데이터의 보안 수준을 크게 높일 수 있습니다.

팀 간 협업 촉진

피처 스토어는 ML 피처의 개발, 저장, 수정 및 재사용을 위한 중앙 집중식 플랫폼을 제공합니다. 이를 통해 팀 간 협업을 강화하여 여러 데이터 사이언스 팀 구성원들이 아이디어를 공유하고 다양한 비즈니스 애플리케이션에서 활용될 수 있는 피처를 공동으로 개발 및 추적할 수 있습니다.