제품 및 기술

ML 스택의 현대화: 에이전틱, 멀티 모달 및 실시간 워크플로우 지원을 위한 Snowflake ML 신규 기능

BUILD logo with photo of code running across screens in shades of blue, orange, red

전통적인 머신러닝(ML)은 오늘날 AI 환경에서도 여전히 핵심적인 역할을 수행합니다. 공급망 최적화부터 실시간 이상 탐지에 이르기까지, 비즈니스 핵심 가치를 창출하는 예측 인사이트의 기반이 되기 때문입니다. 그러나 실험에서 프로덕션 단계로 나아가는 과정은 여전히 쉽지 않습니다. 서로 다른 생태계에 흩어진 도구들, 복잡한 환경 설정, 최적화를 위한 반복 작업, 그리고 지속적인 유지 관리가 필요합니다. Snowflake는 통합된 보안 환경에서 데이터를 기반으로 긴밀하게 작동하며, 비즈니스 성장에 맞춰 확장 가능한 워크플로우를 가속화하는 현대적인 ML 플랫폼을 제공하기 위해 노력하고 있습니다.  

그리고 이제 그 노력의 결실로 Snowflake ML에서 다음과 같은 모델 워크플로우를 지원할 수 있게 되었습니다.

  • Snowlflake Notebooks의 Jupyter 기반 환경(GA로 제공)과 Snowsight의 Cortex Code(곧 GA로 제공)를 통해 간단한 자연어 프롬프트만으로 완전한 ML 파이프라인 자동 생성

  • 기본 통합된 Experiment Tracking(GA로 제공)을 활용해 학습 실행 간 최적의 결과를 손쉽게 식별, 공유, 재현하고 최고 성능 모델을 효율적으로 배포

  • 온라인 Snowflake Feature Store(GA로 제공)와 온라인 ML 추론(GA로 제공)을 통해 밀리초 단위의 저지연 예측을 제공하여 개인화된 추천, 사기 감지 등 실시간 사용 사례 지원

  • 이미지, 오디오 등 비정형 데이터를 활용한 대규모 추론을 위해 다중 모달 모델 추론 워크로드 실행(PuPr)

에이전틱 모델 개발 

Snowflake는 개발자 생산성을 높이기 위해 현대적인 개발 경험에 지속적으로 투자하고 있습니다. 이번에는 Snowflake Notebooks에 새롭게 통합된 개발 환경(IDE)과 함께, 에이전틱 ML 기능을 출시하여 프로덕션 ML을 재정의합니다.

ML 파이프라인을 위한 Cortex Code

데이터 사이언티스트들은 ML 워크플로우를 개발하고 문제를 해결하는 데 상당한 시간을 소요하는 경우가 많으며, 이는 운영 병목으로 이어지고 실제 프로덕션에 배포되는 ML 모델 수를 제한하는 요인이 됩니다. 이제 Snowflake는 Snowsight의 Cortex Code(곧 GA로 제공)를 통해, Snowflake Notebooks의 ML 워크플로우에 에이전틱 AI를 도입합니다. 이를 통해 간단한 자연어 프롬프트만으로 ML 파이프라인을 자율적으로 반복 개선 및 조정하고, 실행 가능한 형태로 자동 생성할 수 있습니다.

Gif showing Cortex Code automating ML workflows
Figure 1: 간단한 자연어 프롬프트만으로 ML 워크플로우를 자동화하는 Cortex Code

Cortex Code는 ML 워크플로우와 관련된 문제를 데이터 분석, 데이터 준비, 피처 엔지니어링, 모델 학습과 같은 개별 단계로 세분화합니다. Cortex Code는 다단계 추론, 맥락 이해, 작업 실행과 같은 고급 기술을 결합하여, Snowflake Notebook에서 바로 실행할 수 있는 완전한 ML 파이프라인 형태의 검증된 솔루션을 제공합니다. 또한 제안된 개선 사항이나 사용자가 추가로 입력한 후속 지시를 바탕으로, 다음 단계의 최적 버전으로 손쉽게 반복 개선할 수 있도록 지원합니다. 이처럼 번거로운 작업을 자동화함으로써 데이터 사이언스 팀은 실험이나 디버깅에 소비하던 시간을 절감하고, 보다 높은 임팩트를 창출하는 이니셔티브에 집중할 수 있습니다.

Snowflake Notebooks

Cortex Code는 Snowflake Notebooks에서 직접 활용하여 프로덕션 워크플로우를 구축하고 반복 개선할 수 있습니다. 이제 Snowflake Notebooks의 차세대 개발 환경이 Workspaces에서 GA로 제공됩니다. 이 Jupyter 기반 노트북 환경을 통해 기존 노트북, 스크립트 및 모델 학습 작업을 Snowflake의 통합 플랫폼으로 가져올 수 있으며, 선호하는 라이브러리, Jupyter 런타임 기능, 친숙한 IDE 속성과 파일 기반 구성 방식도 Workspaces 내에서 그대로 유지할 수 있습니다.

Screenshot of Snowflake Notebooks
Figure 2: Snowflake Notebooks를 통한 데이터 사이언스 및 고급 모델 개발 워크플로우 강화

이 새로운 환경에는 다음과 같은 개선 사항이 포함되어 있습니다. 

  • 관리형 Jupyter/IPython 커널: 노트북은 이제 Snowflake가 관리하는 Jupyter/IPython 커널에서 실행되며, 매직 명령어(magics)와 기존 노트북과의 호환성을 보장합니다. SQL, Python, Markdown 코드를 모두 실행할 수 있으며 셀 간 데이터도 손쉽게 전달할 수 있습니다. 각 셀 하단의 Results Explorer에서 실행 결과를 확인할 수 있으며, 테이블과 시각화 빌더도 함께 제공합니다.

  • 워크스페이스 네이티브 구성: 이제는 노트북을 Workspaces 내에서 SQL 파일, dbt 프로젝트, Python 유틸리티 등 Snowflake 개발에 사용하는 다양한 자산과 함께 직접 생성할 수 있습니다. 이를 통해 모든 작업을 한 곳에서 체계적으로 관리할 수 있으며 여러 파일로 구성된 워크플로우도 자연스럽게 구현할 수 있습니다. 로직을 헬퍼 함수로 리팩토링하거나, 흐름을 더 작은 구성 요소로 나눈 뒤 필요에 따라 조합할 수 있습니다. 또한 새롭게 추가된 터미널과 변수 탐색기를 통해 더욱 빠르고 생산적인 개발 루프를 제공합니다.

  • Git 기반의 원활한 협업: Git 기반 Workspaces를 통해 Snowflake에서 전체 리포지토리를 대상으로 브랜치 생성, 커밋, 변경 사항 비교(diff) 작업을 바로 수행할 수 있습니다. Git이 선호하는 워크플로우가 아닌 경우에는 Shared Workspaces를 대안으로 활용할 수 있습니다. 역할 기반 액세스 제어에 의해 관리되는 파일 집합을 기반으로 협업이 가능하며, 기본 제공되는 버전 관리 및 변경 추적 기능도 함께 지원합니다.

  • Snowflake Container Runtime(CPU 및 GPU) 실행 지원 새로운 개발 환경은 Snowpark Container Services에서 직접 실행되는 데이터 사이언스 및 머신러닝 전용 사전 구성 환경인 Snowflake Container Runtime에서만 독점적으로 실행됩니다. 이 환경은 널리 사용되는 ML 프레임워크와 여러 Python 버전을 제공하며, 컴퓨팅 리소스를 분산시켜 학습 및 데이터 로딩 속도를 향상시킵니다. 또한 프로토타입에 사용하는 동일한 런타임 버전을 스케줄링 및 프로덕션 환경에서도 그대로 사용할 수 있어, "내 로컬에서는 잘 됐었는데..."와 같은 문제를 방지할 수 있습니다.

데이터 및 AI 컨설팅 분야의 선도 기업인 Aimpoint Digital과 같은 글로벌 기업들은 이미 Snowflake Notebooks를 활용해 프로덕션 수준의 개발 워크플로우를 구현하고 있습니다.

“Snowflake Notebooks의 정식 출시는 개발자 경험 측면에서 혁신적인 전환점입니다. 저희는 동적 가격 책정부터 그래프 기반 사용자 행동 예측에 이르기까지 다양한 ML 워크로드를 손쉽게 개발하고 프로덕션 환경에 적용해 왔습니다. Workspaces에서 노트북을 개발할 수 있게 되면서 공통 코드는 중앙에서 관리하고, 그 위에서 개발자들이 구현하는 부분은 분산해 운영할 수 있게 되었습니다. Python에서 SQL 셀을 참조하고 그 반대로도 활용할 수 있으며, 노트북을 파라미터화할 수 있다는 점은 패러다임의 전환이라 할 수 있습니다. 저장 프로시저를 스케줄링하던 시대는 지났습니다. 이제 Notebooks는 ML, AI, 엔지니어링 등 상관없이 모든 동적 워크플로우에 궁극적인 유연성을 제공합니다.”

Christopher Marland
Snowflake Practice Lead, Aimpoint Digital

Snowflake Notebooks를 시작하려면 토픽 모델링 quickstart를 확인해 보세요. 

Experiment Tracking

Snowflake Notebooks와 Cortex Code를 통해 모델을 구축하고 반복 개선한 후에는 네이티브로 통합된 Experiment Tracking(현재 GA로 제공 중)을 활용하여, 초기 가설에서 고성능 모델로 빠르게 발전시킬 수 있습니다. 이를 통해 ML 팀은 여러 학습 실행(run)에 걸쳐 최고의 성능을 발휘하는 모델을 체계적으로 식별, 공유 및 재현할 수 있습니다. 그 결과 협업이 간소화되고 재현성이 향상되며, 전사 차원의 모델 반복 속도가 가속화됩니다. Snowflake Experiment Tracking의 릴리스를 통해, 대규모 학습 과정에서 생성되는 수백만 개의 지표를 모델 파라미터, 아티팩트, 메타데이터와 함께 원활하게 기록할 수 있습니다.

Real-time feature and model serving enables low-latency predictions in milliseconds.
Figure 3: 통합 Experiment Tracking 기반 최고 성능 모델 식별 및 버전 비교

많은 기업들이 여러 학습 실행에 걸쳐 모델 학습에 필요한 핵심 정보를 저장, 추적 및 비교하기 위해 Experiment Tracking을 활용하고 있습니다. 그중에는 유틸리티 기업과 고객이 청정하고 분산된 에너지 미래를 구축할 수 있도록 지원하는 EnergyHub도 포함됩니다.

“Snowflake Experiment Tracker의 초기 도입 고객으로서 EnergyHub는 이 솔루션이 별도의 MLflow 서버를 유지·관리해야 하는 번거로움 없이도 요구 사항을 충족한다는 점을 확인했습니다. 기존 Snowflake 플랫폼 내에서 ML 실험 추적을 통합함으로써 운영 측면에서 큰 성과를 거둘 수 있었습니다. 또한 Snowflake는 고객 피드백에 매우 신속하게 대응하며, 인상적인 속도로 기능 개선을 이어가고 있습니다.”

Dr. Wiliam Franklin
Principal Machine Learning Scientist, EnergyHub

실시간 제공 

Snowflake 또는 기타 외부 플랫폼에서 모델 학습을 마쳤다면, 이제 Snowflake 데이터에 대해 손쉽게 추론을 배포해 예측 결과를 생성할 수 있습니다. 개인화 추천이나 사기 감지와 같은 실시간 사용 사례를 지원하기 위해, 추가 인프라나 복잡한 설정 없이 사용할 수 있는 프로덕션급 온라인 ML 기능(GA로 제공)을 새롭게 선보입니다. 이제 개발자는 단일 플랫폼에서 배치 및 온라인 ML 사용 사례를 통합함으로써 민감한 데이터를 외부 플랫폼으로 내보낼 때 발생하는 지연, 비용, 보안 위험을 제거할 수 있습니다.

Easily identify the best-performing model to visualize and compare model versions with natively integrated Experiment Tracking.
Figure 4: 실시간 피처 및 모델 서빙을 통한 밀리초 단위 저지연 예측

Snowflake Feature Store

Snowflake Feature Store에서 온라인 피처 서빙 기능이 정식 출시(GA)되었습니다. Snowflake Feature Store는 데이터 사이언티스트와 ML 엔지니어가 모델 학습 및 추론을 위한 ML 피처를 생성, 저장, 관리, 제공할 수 있도록 지원하는 통합 솔루션입니다. Python API와 SQL 인터페이스를 통해 피처를 정의,·관리,·조회할 수 있으며, 피처 메타데이터 관리 및 지속적 피처 처리를 위한 관리형 인프라도 함께 제공합니다. 온라인 피처 서빙 기능을 통해 Snowflake Feature Store는 배치 및 저지연 온라인 사용 사례를 모두 지원하는 통합 솔루션으로 자리 잡게 되었으며, 피처는 30밀리초(ms) 내에 제공됩니다. 

Snowflake Feature Store는 Snowflake 데이터, 기능 및 모델에 원활하게 통합되어 대규모 ML 파이프라인을 쉽고 효율적으로 프로덕션 환경에 적용할 수 있도록 지원합니다. 이를 통해 피처 파이프라인의 중복과 불필요한 반복을 제거하고, 엔터프라이즈급 보안 및 거버넌스 기능을 기반으로 최신의 정확한 피처를 일관되게 제공합니다. 또한 Snowsight 인터페이스의 중앙 집중식 UI를 통해 피처와 모델을 손쉽게 검색 및 탐색할 수 있으며 계보를 통해 데이터 흐름을 시각화할 수 있습니다. 

온라인 피처 서빙을 위한 Snowflake Feature Store는 지금 바로 quickstart를 통해 시작할 수 있습니다. 

온라인 ML 추론

이제 온라인 ML 추론 기능도 정식 출시되어, Snowflake Model Registry의 모델을 활용해 100ms 이내에 실시간 추론을 제공할 수 있습니다.  

프로덕션 워크로드의 엄격한 요구 사항을 충족하기 위해, 온라인 ML 추론은 지능형 자동 확장, 저지연 성능, 포괄적 옵저버빌리티를 하나의 일관된 워크플로우로 결합했습니다. 이것은 우선 비용 효율적인 성능을 제공합니다. 자동 규모 조정 로직은 대규모 트래픽 급증에 즉시 대응할 수 있으며, 수요가 감소할 경우에는 과도하게 프로비저닝된 GPU로 인한 불필요한 오버헤드를 제거합니다. 또한, 트래픽이 다시 증가할 경우 즉각적으로 확장하도록 설계되어 모델이 100ms 미만의 성능을 안정적으로 유지할 수 있습니다.

배포 안정성 역시 강화되었습니다. 자동 롤링 업데이트를 통해 애플리케이션 트래픽 손실 없이 새로운 모델 버전으로 전환할 수 있으며, 필요 시 손쉽게 이전 버전으로 롤백할 수 있는 안전장치도 제공합니다. 또한 팀은 섀도우 모드를 활용하여 프로덕션 환경과 분리된 병렬 환경에서 새로운 모델의 성능을 모니터링하며 안전하게 검증한 후, 전체 전환을 결정할 수 있습니다. Snowflake는 또한 통합된 옵저버빌리티를 통해 지연 시간, 처리량, 오류율을 즉시 확인할 수 있도록 지원합니다. 모든 요청과 응답은 Snowflake 테이블에 로그로 직접 저장되므로, 심층 디버깅과 장기 감사도 용이합니다.

멀티 모달 모델 추론

또한, Snowflake의 추론 기능 지원을 통해 Hugging Face와 같은 허브에서 오픈소스 멀티 모달 모델에 대한 대규모 온라인 및 배치 추론을 쉽게 실행할 수 있습니다. 비정형 데이터에 대한 추론 지원은 현재 공개 미리보기(PuPr)로 제공 중이며, 이미지, 비디오, 오디오 등의 데이터 유형을 포함합니다. 이를 통해, 복잡한 파이프라인 구축이나 데이터 이동 없이도 Snowflake에서 오브젝트 감지, 시각 기반 질의 응답(visual Q&A), 자동 음성 인식과 같은 AI 활용 사례를 구현할 수 있습니다.

Snowflake는 실시간 처리와 배치 처리 요구 사항을 모두 지원합니다. 사용자는 REST API를 통해 온라인 추론을 위한 서비스로 멀티 모달 모델을 배포하거나 Snowflake Model Registry에 등록해 즉시 배치 호출 방식으로 실행할 수 있습니다. 또한, Snowflake의 분산 컴퓨팅 계층을 활용하여, 익숙한 환경을 벗어나지 않고도 대규모 데이터 세트에 대한 방대한 추론 작업을 수행할 수 있습니다.

시작하기

에이전틱, 온라인, 멀티 모달 기능에 대한 이번 혁신을 통해, Snowflake ML은 거버넌스가 적용된 데이터가 위치한 동일한 플랫폼에서 머신러닝을 프로토타입 단계에서 프로덕션 단계까지 더욱 빠르게 확장할 수 있도록 지원합니다. 

Snowflake 제품 설명서를 확인하고, 30일 무료 평가판과 함께 제공되는 입문용 quickstart를 통해 지금 바로 Snowflake ML을 시작해 보세요. 

 

Quickstart

Snowflake에서 엔드투엔드 ML 워크플로우 구축하기

Snowflake ML 내에서 완전한 머신러닝 워크플로우를 처음부터 끝까지 구축하고 배포하는 방법을 알아보세요.

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Where Data Does More

  • 30일 무료 평가판
  • 신용카드 불필요
  • 언제든지 취소 가능