데이터가 세상을 눈에 띄게 변화시키고 있습니다. 조직들은 다양한 워크로드, 언어, 도구 및 형식을 지원하기 위해 노력하면서 기술의 제약으로 인해 데이터 인프라 전반에 사일로를 축적했습니다. 이러한 사일로는 운영 부담, 보안 취약성, 총소유 비용 및 불완전한 통찰의 증가와 민첩성 감소 같은 치명적인 결과를 야기할 수 있습니다. 

Snowflake의 통합적인 단일 플랫폼은 이러한 상황에서 유용합니다. 이 플랫폼은 사일로를 허물고 아키텍처를 간소화하는 데 도움이 됩니다. Snowflake는 Summit 2023에서 고객이 사일로를 허무는 데 더 도움이 될 새로운 플랫폼 개선 사항을 발표했습니다. 그 예로는 성능 개선, 지출 가시성 및 통제력 증가, 거버넌스 향상, 분석 향상, 비즈니스 연속성 관련 기능 확장, Apache Iceberg 관련 혁신, 대규모 언어 모델(LLM)을 통해 비정형 데이터에서 더 많은 가치를 끌어내는 기능 구현, ML 기반 기능을 더 많은 분석가에게 제공하기 위한 확장 등이 있습니다. 이 블로그 게시물에서는 이러한 새로운 기능에 대해 요약합니다.

고객의 가격 대비 성능을 지속적으로 개선

Snowflake가 가장 중요하고 가치 있게 여기는 것은 ‘고객을 우선시하는 것’입니다. 당사는 거의 모든 제품에 대해 성능 및 효율성을 개선하기 위한 지속적인 혁신을 제공하는 데 주력하고 있습니다. 이러한 플랫폼 개선 사항 중 다수는 고객의 별다른 조치나 노력 없이도 고객에게 자동적으로 제공됩니다. 

당사가 새로운 Snowflake 성능 지수(SPI)를 도입하는 이유도 이 때문입니다. SPI는 고객이 시간의 흐름에 따라 경험한 Snowflake 성능 개선을 평가하기 위한 종합적인 지수입니다. SPI가 추적되기 시작한 2022년 8월 25일~2023년 4월 30일 사이에는 Snowflake에서 고객의 안정적인 워크로드에 대한 쿼리 지속 시간이 15% 개선되었습니다.* 이 지수는 Snowflake가 고객이 플랫폼에서 더 많은 가치를 얻도록 지원하는 수많은 방법 중 하나입니다.

검색 최적화(SO) 서비스는 사막에서 바늘을 찾는 듯한 상황에서도 큰 테이블에서 적은 수의 행을 빠르게 반환하여 쿼리 성능을 가속화합니다. 우리는 VARIANT, ARRAY, OBJECT, GEOGRAPHY등 더 많은 데이터 유형을 수용하기 위해 SO를 열었으며, GA(General Availability)로 더 많은 사용 사례를 지원하기 위해 서비스를 확장하고 있습니다. 이러한 사용 사례에는 텍스트 열에서 하위 문자열을 더 빠르게 검색하는 것, SO를 쿼리 가속화 서비스와 같은 기타 성능 관련 기능과 함께 사용하는 것 등이 있습니다. 

대기 시간이 짧은 TOP-K 분석은 고객이 랭크별 대규모 결과에서 관련성이 가장 높은 답변만 검색할 수 있도록 합니다. 현재 GA 단계에 있는 추가적인 프루닝 기능을 이용하면 데이터 세트 전체를 스캔할 필요성이 줄어들어 더 빠르게 검색할 수 있습니다.

Snowflake는 고객이 비용이 많이 드는 쿼리의 구조를 더 쉽게 ​​분석하고 성능 문제를 유발하는 연산자를 식별할 수 있도록 곧 GA로 쿼리 프로필에 대한 프로그래밍적(Programmatic) 액세스도 제공할 예정입니다. 

당사 플랫폼의 지속적인 성능 개선에 대해 자세히 알아보세요. 

Snowflake 지출에 대한 가시성 및 통제력 증가

당사는 사용자가 Snowflake 지출에 대한 가시성과 통제력을 개선하는 동시에 기존 리소스를 최대한 활용하고 비용의 예측 가능성을 높이는 데 도움이 될 세 가지 새로운 기능을 발표했습니다.

첫째, 새로운 웨어하우스 활용 기능(비공개 미리 보기 제공 중)은 고객이 용량을 더 잘 예측하고, 웨어하우스의 크기를 적합하게 조정하고, 웨어하우스 지출을 최적화하는 데 도움이 되는 단일 메트릭을 제공합니다. 

Snowflake의 새로운 쿼리별 비용 귀속 기능(비공개 미리 보기 곧 제공 예정)은 다양한 쿼리에 웨어하우스 지출을 귀속시킬 수 있도록 합니다. 예를 들어, 하나의 중앙 집중식 팀이 청구 내용이 서로 다른 몇몇 부서(예: HR, 재무 및 IT 부서)를 위해 Snowflake를 실행한다고 했을 때, 이 중앙 팀은 이제 각 부서가 얼마만큼의 Snowflake 크레딧을 사용하고 있는지 확인할 수 있습니다. 이 기능은 중앙 집중식 부서가 여러 팀이 Snowflake에서 실제로 사용한 크레딧의 양에 따라 비용을 분담하게 해야 하는 비용 분담(chargeback) 시나리오에서 도움이 됩니다.

또한 당사는 예산이 곧 공개 미리 보기로 제공되어 사용자의 통제력이 높아질 것임을 발표했습니다. 예산은 특정 시간 간격 동안 Snowflake 오브젝트 그룹에 지출될 수 있는 비용의 한도를 규정합니다. 예산은 고객이 웨어하우스 및 서버리스 사용(자동 클러스터링, 구체화된 뷰, 검색 최적화 등의 사용)을 모니터링하는 데 도움이 됩니다. 지출 한도가 초과될 것으로 예상되는 경우, 일일 알림 이메일이 전송됩니다.

기본 데이터 거버넌스 향상, 새로운 Snowflake UI 도입, 규정 준수 범위 증가 및 클라우드 간 비즈니스 연속성 업데이트를 통한 미션 크리티컬리티 지원 

Snowflake는 당사 플랫폼에 데이터를 맡기는 고객에게 동종 최고 수준의 기본(native) 데이터 거버넌스 기능을 제공하기 위해 노력을 쏟고 있습니다. 이러한 고객이 전 세계 각국에 걸쳐 있기에, 당사는 분류 기능을 영국, 호주 및 캐나다 기반 데이터에도 지원되도록 확장했습니다(비공개 미리 보기 제공 중). 

뿐만 아니라 고객은 이제 향상된 사용자 환경에서 민감한 개인 식별 정보(PII) 데이터를 더욱 쉽게 관리할 수 있습니다. 분류 UI(비공개 미리 보기 제공 중)는 Snowsight에서 고객에게 원하는 스키마에서 테이블을 분류 및 태깅할 수 있는 직관적인 워크플로우를 제공합니다. 한편 데이터 거버넌스 UI(GA 곧 제공 예정)를 이용하면 Snowsight의 태깅 및 보호된 애셋과 조치가 필요한 워크플로우의 요약을 한눈에 볼 수 있습니다. 

Snowflake는 나만의 사용자 지정 메트릭을 규정할 수 있는 기능과 데이터 신선도, 볼륨, 정확도 및 일반 통계에 대한 즉시 사용 가능한(out-of-the-box) 메트릭을 통해 기본 데이터 품질 모니터링(비공개 미리 보기 곧 제공 예정)과 함께 데이터 거버넌스 기능을 한층 더 확장하고 있습니다. Snowflake는 파트너가 추가로 활용하고 확장할 수 있도록 데이터 품질 모니터링의 구성 요소들도 제공합니다. 

당사는 기본 데이터 거버넌스 혁신 외에도, 규정 준수 범위를 확장하기 위해 지속적으로 노력하고 있습니다. 무엇보다도, Snowflake는 6월 초에는 업계용 정부 및 교육 데이터 클라우드를 출시했으며 최근 AWS GovCloud에서 StateRAMP High에 대한 권한을 부여받았습니다. Snowflake는 이제 연방, 주 및 지역 기관이 보안 및 규정 준수 기준을 충족하는 데 도움을 주기 위해 형사 사법 정보 서비스(CJIS)와 같은 규제 워크로드도 지원합니다. 

Snowgrid는 사용자가 전체적인 규모에서 운영을 수행할 수 있도록 여러 지역과 클라우드에 걸친 비즈니스 에코시스템들을 서로 연결하는 특별히 차별화된 크로스 클라우드(클라우드 간) 기술 계층입니다. Snowgrid는 Snowflake의 크로스 클라우드 비즈니스 연속성 기능을 뒷받침하고 있으며, 이제 계정 복제 기능이 GA로 제공됩니다. 이는 복제를 데이터베이스를 넘어 계정 메타데이터 및 통합(integration)에까지 확장하여 비즈니스 연속성을 즉시 달성할 수 있게 합니다. Snowflake 사용자는 이제 이 기능을 클라이언트 리디렉션과 짝지어 거의 어떤 규모에서든 몇 초 만에 계정 및 클라이언트 연결을 복구할 수 있습니다. 

우리는 크로스 클라우드 비즈니스 연속성에 대한 사용자 경험을 단순화 및 간소화하기 위해 고객이 직관적인 UI(공개 미리 보기 곧 제공 예정)를 사용하여 계정 복제를 준비, 구성 및 모니터링할 수 있도록 했습니다. 고객은 이 UI로 복제 소스, 대상, 복제할 오브젝트와 타이밍을 관리할 수 있습니다.

Stages, Snowpipe, COPY(수집) 및 디렉터리 테이블의 복제도 공개 미리 보기로 제공될 예정입니다. 고객은 이에 따라 전체 ETL 파이프라인(공개 미리 보기 곧 제공 예정)을 복제하여 특정 리전에서 Snowflake를 사용할 수 없게 될 경우 파이프라인을 보호할 수 있습니다. 즉, 고객이 파이프라인을 대체 작동시킬 수 있으며 Snowflake가 멱등성(idempotent) 로드를 보장한다는 것입니다. 

Snowflake 사용자는 이제 GA로 스트림 및 작업을 복제할 수도 있습니다. 이 두 가지는 최신 데이터 파이프라인을 구축하는 데 자주 함께 사용됩니다. Snowflake는 매일 강력한 데이터 변환 파이프라인을 개발하는 수천 명의 Snowflake 고객을 보유하고 있습니다. 고객들은 이제 스트림 및 작업을 복제하는 기능을 통해 보조 Snowflake 계정에서도 데이터 파이프라인을 원활하게 작동시킬 수 있습니다. 

GEOMETRY 신규 지원, 새로운 금융 서비스 기능 및 빠른 SQL 기능을 통한 고급 분석

Snowflake는 고객에게 편의성, 유연성 및 효율성을 선사하기 위해 최선을 다하고 있으며 이를 분석 개선을 통해 보여주고 있습니다. 

당사는 지리 공간 데이터를 위한 최고의 플랫폼이 되기 위한 노력의 일환으로 상당한 투자를 했습니다. 위치 데이터가 구형(지리학), 평평한 표면(기하학), 유효하지 않은 형태 중 어떤 것으로 저장되었든 고객은 이제 GA로 이 모든 유형의 벡터 지리 공간 데이터를 처리할 수 있습니다. 당사는 또한 하나의 매핑 시스템에서 다른 매핑 시스템으로 재투영할 수 있는 기하학적 오브젝트에 대한 공간 참조 시스템 간 변환(Transformations between Spatial Reference Systems)의 공개 미리 보기를 발표할 예정입니다. 

또한 당사는 새로운 기능을 통해 코딩의 효율성을 더욱더 높이고, 시간을 절약하고, 정확도를 증진하기 위해 SQL 기능을 지속적으로 개선하고 있습니다. 우리는 SELECT*, MIN_BY/MAX_BY, GROUP BY ALL, Banker’s Roundin 등, 몇 가지 SQL 개선 사항(GA 단계)을 도입했습니다. 특히 Banker’s Rounding을 포함시키면 재무 분석 중 오류를 줄이는 데 도움이 되며, 은행 간부 및 재무 전문가의 특정한 요구 사항을 충족할 수 있습니다.

더 간단하고 더 나은 성능으로 업데이트된 Apache Iceberg 지원

Apache Iceberg는 개방형 테이블 형식의 업계 표준으로, 인기가 계속 높아지고 있습니다. Iceberg는 다양한 채택자, 기여자 및 상업적 제품으로 이루어진 선도적인 에코시스템 덕분에 스토리지 종속을 방지하고 서로 다른 시스템 간에 테이블을 이동 또는 복사할 필요성을 제거하여 종종 전체 데이터 스택에 대한 컴퓨팅 및 스토리지 비용을 낮춰 줍니다.

Snowflake는 Summit 2023에서 Iceberg 및 기본 Iceberg 테이블에 대한 외부 테이블을 하나의 Iceberg 테이블(비공개 미리 보기 곧 제공 예정) 유형으로 통합하고 있음을 발표했습니다. 이에 따라 고객은 단일 Iceberg 테이블 유형의 단순성을 누릴 뿐만 아니라 성능 절충이 훨씬 적은 환경에서 카탈로그 구현을 특정하는 옵션 등을 활용할 수 있습니다. 관리형 Iceberg 테이블은 Snowflake에서 전체 읽기/쓰기가 가능하며, Snowflake를 외부 엔진이 쉽게 읽을 수 있는 카탈로그로 사용합니다. 비관리형 Iceberg 테이블은 Snowflake를 연결하여 외부 카탈로그에서 Iceberg 테이블을 읽습니다. 당사는 비관리형 Iceberg 테이블을 관리형 테이블로 변환하는 쉽고 저렴한 방법도 추가하여 고객이 전체 테이블을 다시 작성하지 않고도 쉽게 온보딩할 수 있도록 할 예정입니다.

쿼리 성능은 Parquet 효율성에 따라 다르지만, 테스트 결과 비관리형 Iceberg 테이블의 성능이 외부 테이블에 비해 2배 이상 우수한 것으로 나타났습니다. 관리형 Iceberg 테이블의 성능은 Snowflake의 테이블 형식을 사용하는 내부 테이블과 매우 유사합니다.

온프레미스에 저장된 데이터의 통합

기업이 데이터를 클라우드로 옮기는 추세가 지속되는 가운데, 수많은 조직의 데이터는 다양한 이유로 온프레미스 또는 프라이빗 클라우드 환경에 저장되어 있습니다. 일부 데이터는 퍼블릭 클라우드로의 마이그레이션에 적합하지 않거나 현재 마이그레이션 과정에 있을 수 있습니다. 그러나 이러한 조직들은 스토리지 위치와 관계없이 모든 데이터를 한곳에서 원활하게 관리할 방법을 찾고 있습니다. 서로 다른 소스의 데이터를 통합하고 이에 액세스하는 것은 전체적인 데이터 통찰력과 거버넌스에 매우 중요합니다.

곧 GA로 제공될 온프레미스 스토리지용 외부 테이블 및 스테이지는 이러한 갭을 해소하는 데 도움이 됩니다. 고객은 Snowflake를 사용하여 s3 호환 스토리지 장치의 데이터에 액세스하면서 Snowflake 플랫폼의 사용 용이성, 탄력성, 통합 거버넌스, 탄력성과 연결성을 누릴 수 있습니다. 사용 사례로는 외부 테이블을 통한 데이터 레이크 분석, 온프레미스에서 클라우드 테이블로의 간소화된 파일 수집이나 Snowpark Python, Java 또는 Scala를 통한 외부에 저장된 파일 처리 등이 있을 수 있습니다. 지원되는 스토리지 공급자 목록과 공개 테스트 세트 등에 대해 자세히 알아보려면 제품 설명서를 읽어보시기 바랍니다.

내장형 LLM 및 Document AI 도입

거의 모든 비즈니스에는 문서 형식의 비정형 데이터가 있습니다. 하지만 이러한 파일에서 귀중한 분석 통찰력을 얻을 수 있는 경로는 머신 러닝(ML) 전문가만이 이용할 수 있거나 다른 모든 데이터로부터 고립되어 있곤 합니다. Snowflake의 기본 비정형 데이터 지원, Snowflake의 내장형 Document AI(비공개 미리 보기 제공 중)는 조직이 자연어를 사용하여 문서에서 가치를 더 쉽게 이해하고 추출할 수 있게 합니다.

Document AI는 특별 제작된 멀티모달 LLM을 활용합니다. Snowflake 플랫폼 내에서 이 모델이 기본적으로 통합되면서 조직은 Snowflake에 안전하게 저장된 문서에서 인보이스 금액 또는 계약 조건과 같은 내용을 쉽게 추출하고, 시각 인터페이스와 자연어를 통해 결과를 미세 조정할 수 있게 되었습니다. 데이터 엔지니어와 개발자는 스트림과 작업이 있는 파이프라인이나 애플리케이션과 같이 내장형 또는 미세 조정된 모델을 프로그래밍적으로 호출하여 추론할 수도 있습니다.

SQL을 통한 ML 액세스 구현

분석가는 계속해서 늘어나는 데이터에서 더 정확한 통찰을 이끌어낼 수 있습니다. ML 알고리즘이 특히 이 프로세스를 가속화할 수 있지만, 프로그래밍 지식 격차와 복잡한 컴퓨팅 인프라 요구 사항으로 인해 분석가가 ML을 채택하지 못하는 경우가 많습니다.

이것이 당사가 ML 기반 기능(공개 미리 보기 제공 중)으로 단일 플랫폼을 개선하고 있는 이유입니다. 이제 분석가는 ML 기반 기능을 사용하여 친숙한 SQL로 제공되는 ML 함수의 지원하에 통찰력을 발견하고 예측을 생성할 수 있습니다. 또한 분석가는 이로써 이전에는 ML 기술 세트를 가진 사람만 액세스할 수 있었던 기능을 활용할 수 있습니다. 다음은 현재 공개 미리 보기가 제공되고 있는 몇 가지 기능입니다.

  • 예측: 계절성, 누락된 값 등을 자동 처리하여 보다 신뢰할 수 있는 시계열 예측을 구축합니다.
  • 이상 감지: 이상값을 식별하고 추가 조치에 대한 경고를 트리거합니다.
  • 기여 탐색기: 두 개의 서로 다른 사용자 정의 시간 간격에 걸쳐 주어진 메트릭의 변화에 기여하는 차원 및 해당 값을 빠르게 식별합니다.

이제 ML을 더 광범위하게 도입하여 일상적인 비즈니스 의사 결정의 속도와 품질을 개선할 수 있습니다. 이 기능은 Snowflake에서 직접적으로 제공되는 친숙한 SQL 기능 또는 Sigma Computing과 같은 BI/분석 도구와의 통합을 통해 ML 프레임워크의 복잡성을 제거합니다.

자세히 알아보기(주문형)

이러한 혁신에 대해 자세히 알아보려면 Summit 2023 페이지를 방문하세요.

*2022년 8월 25일~2023년 4월 30일 사이의 Snowflake 내부 데이터에 기반합니다. 당사는 SPI 계산 시에 해당 기간 동안 처리된 쿼리 및 데이터의 양 모두에서 안정적이며 비교 가능한 고객 워크로드 그룹을 식별합니다. 쿼리 지속 시간은 하드웨어 및 소프트웨어 개선, 고객 최적화 등의 요인이 결합되어 감소했습니다.

참고: 이 내용은 2023. 6. 27에 게시된 컨텐츠(Snowflake’s Single Platform Improves Performance, Advances Mission Criticality, and Analytics While Supporting More Data Types)에서 번역되었습니다.