AI 데이터 클라우드에서 안전한 AI 모델 공유 및 수익화 실현
생성형 AI 모델의 등장으로 인해 조직은 AI와 대규모 언어 모델(LLM)을 비즈니스 전략에 통합할 수 있게 되었습니다. 결국 이러한 모델은 회사의 데이터 IP에서 더 많은 값을 추출하고 조직 전체의 더 큰 잠재 고객에 액세스할 수 있는 새로운 기회를 제공합니다.
생성형 AI 모델을 성공적으로 활용하기 위한 열쇠 중 하나가 데이터 공유 능력입니다. LLM의 파인 튜닝에 사용할 수 있는 귀중한 데이터를 보유한 기업은 원래 데이터 소스에 대한 액세스 권한을 부여하지 않고도 이 데이터를 수익화하고 파인 튜닝에 사용할 수 있기를 원합니다. 또한, 모든 사용량이 해당 사용자에게 적절하게 할당되었는지 확인하고자 합니다.
안타깝게도 현재 사용 가능한 많은 솔루션은 데이터를 안전하게 공유할 수 있는 도구를 엔터프라이즈에 제공하지 않습니다.현재 제공되고 있는 사항은 아래와 같습니다.
조직의 귀중한 데이터가 항상 해당 조직에 의해 관리되도록 하고 다른 당사자는 사용할 수 없도록 보장하고 있으나, 이로 인해 부적절하거나 악의적인 사용이 야기될 수 있음
엔터프라이즈 내에서 사용되는 서드 파티 모델이 안전하게 샌드박스에 저장되도록 보장
데이터 및 모델에 대한 액세스를 세심하게 모니터링
Snowflake는 이러한 과제를 직접 해결하고 개발자가 엔터프라이즈 데이터를 기반으로 신뢰할 수 있는 AI를 더 쉽게 제공할 수 있도록 지원하고 있습니다.

최근 BUILD 2024 개발자 컨퍼런스에서는 AI 데이터 클라우드에서 파인 튜닝된 LLM을 공유하고, LLM을 훈련하기 위한 데이터 세트를 공유하고, 기존 AI/ML 모델을 조직 내외부에서 안전하게 공유하는 데 도움이 되는 세 가지 기능을 강조했습니다. 이러한 기능에 대한 개요는 이전 블로그 게시물에서 제공했으며, 오늘은 프로젝트 작업에 활용할 수 있는 방법을 자세히 살펴보겠습니다.
Meta 및 Mistral AI에서 Snowflake Cortex AI 파인 튜닝 LLM 공유
기초 AI 모델을 최대한 활용하려면 기업은 이러한 모델을 특정 도메인과 데이터 세트에 맞게 맞춤화하고 파인 튜닝해야 합니다. 이 태스크에는 일반적으로 두 가지 사항이 수반됩니다.즉, 데이터가 언제든 사내를 떠나지 않고, 인프라 구축에 큰 투자가 이루어지지 않습니다.
Snowflake는 이제 기업이 자체 보안 경계 내에서 인프라를 관리할 필요 없이 데이터를 사용하여 Meta 및 Mistral AI의 주요 모델을 파인 튜닝할 수 있도록 지원합니다. 더 나아가 개발자는 Snowflake 모델 레지스트리 통해 사용자 지정 LLM을 손쉽게 통제(govern)하고 관리할 수 있습니다.
Secure Model Sharing(PuPr)을 사용하면 다음과 같이 3단계를 거쳐 사용자 지정 파운데이션 모델을 파인 튜닝하고 공유할 수 있습니다.
기본 모델을 선택하고 FINETUNE 기능에서 혹은 Snowflake AI 및 ML 스튜디오에서 노코드 경험을 사용하여 교육 데이터 세트를 제공합니다. 파인 튜닝된 모델은 COMPLETE 기능을 통해 사용할 수 있습니다.
파인 튜닝된 모델을 리전 내 다른 Snowflake 계정과 안전하게 공유할 수 있습니다.
조직 내 여러 리전에서 파인 튜닝된 모델을 복제합니다.

SNOWFLAKE.CORTEX.FINETUNE(
‘CREATE’
<model_name>,
<base_model>,
<training_data>,
<validation_data>
);
Cortex Knowledge Extensions으로 Cortex LLM의 강력한 기능 활용
기업은 더 관련성 높은 응답을 제공하기 위해 도메인별 정보로 파운데이션 모델을 쉽게 보강할 수 있는 방법을 원합니다. 전통적으로 적합한 데이터 세트를 찾고 조달하는 데 많은 시간과 노력이 들고 소비를 위한 데이터를 준비하고 LLM을 미세 조정하는 데에도 많은 시간과 기술이 사용됩니다. Snowflake는 이미 해당 프로세스의 첫 부분, 즉 적절한 데이터 찾기를 Snowflake 마켓플레이스를 통해 간소화했습니다. Snowflake 마켓플레이스는 2,900개 이상의 데이터 세트, 앱 및 데이터 제품을 빠르게 찾고, 체험하고, 구매할 수 있는 하나의 중앙화된 장소를 제공합니다(2024년 10월 31일 기준). 이제 Cortex Knowledge Extensions(현재 PrPr)를 통해 서드 파티 데이터를 손쉽게 준비하고 변환할 수 있게 되었습니다.
Cortex Knowledge Extensions 기능은 고객이 콘텐츠 공급자의 가공 전 데이터를 파인 튜닝하고 다듬을 수 있는 추가적인 전문 지식 없이도 특정 도메인의 최신 정보를 통해, 선택한 파운데이션 모델을 보강할 수 있는 ‘간단한 버튼’을 제공합니다. 이로써 고객은 공식적으로 라이선스가 부여된 콘텐츠를 사용하고 있다는 확신을 갖게 될 것입니다.
생성형 AI 애플리케이션은 Cortex Nowledge Extensions 기능을 통해 공급자의 비정형 라이선스 데이터에서 응답을 도출하는 동시에 적절한 기여도를 부여하고 원본 데이터 세트 전체가 노출되지 않도록 격리시킵니다 이를 통해 공급자는 생성형 AI에 참여하고 수익을 창출하는 동시에 모델 훈련 목적으로 사용되는 콘텐츠의 위험을 최소화할 수 있습니다.
콘텐츠 공급자는 Snowflake 마켓플레이스에서 자신들의 데이터가 사용될 수 있도록 데이터에 Cortex Search 서비스를 설정하고 Snowflake 마켓플레이스에 게시합니다. 게시된 후 소비자는 Snowflake 마켓플레이스에서 목록을 찾고 데이터를 가져올 수 있습니다. 그런 다음 소비자는 Snowflake 마켓플레이스에서 확보한 데이터를 Cortex AI API를 사용하여 LLM에 프롬프트할 수 있습니다.
AI 데이터 클라우드에서 기존 AI/ML 모델 공유
점점 더 많은 기업이 이탈이나 수익을 예측하는 등의 특정 작업을 위해 사용자 지정 AI/ML 모델을 구축하고 있습니다. 이러한 모델은 데이터 사이언티스트가 조직 내에서 또는 파트너가 외부적으로 개발할 수 있습니다. 엔터프라이즈는 이제 내부 마켓플레이스와 외부용 Snowflake 마켓플레이스 모두에서 Snowflake Native App을 사용하여 이러한 모델의 강력한 기능을 활용하고 이를 파트너, 고객 및 엔터프라이즈 내 사용자와 공유할 수 있습니다.
Snowflake Secure Data Sharing을 통해 조직은 최종 사용자가 세분화된 역할 기반 액세스 제어 내에서 ML 모델을 안전하게 실행할 수 있습니다. 데이터 자체는 조직의 보안 경계를 떠나지 않습니다. 모델을 Snowflake Native App으로 패키징하면 모델에 부여된 특정 권한에 따라 보안 스캔, 샌드박스, 로컬 또는 외부 리소스에 대한 액세스를 포함하여 Snowflake Native App 보안 태세를 그대로 물려받을 수 있습니다.
모델 공유는 애플리케이션 패키지 모델 아티팩트를 추가하고 애플리케이션 소비자 사용량 권한을 부여하는 것만큼 간단합니다. 그런 다음 소비자는 애플리케이션을 설치하고 모델 함수를 자유롭게 호출할 있습니다.

Snowflake 협업 및 데이터 공유를 통해 엔터프라이즈는 기존 모델과 파인 튜닝된 LLM을 모두 포함한 AI/ML 모델을 손쉽게 생성 및 공유하고 이와 관련된 이점을 엔터프라이즈 내 다른 팀과 공유할 수 있습니다. 이러한 기능을 자세히 알아보고 사용해 보려면 다음 리소스를 확인하세요.
Quickstart: Collaboration in Snowflake
BUILD 2024 “What’s New: Snowflake Horizon Catalog 온디맨드 세션(내부 마켓플레이스 포함)