한계 없는 데이터를 통한 엔터프라이즈 AI 가속화

솔직히, 튼튼한 데이터 파운데이션 없이는 훌륭한 에이전틱 AI 제품을 구축할 수 없습니다. 하지만 현실적으로는 대부분의 데이터 파운데이션에 상당한 균열이 존재합니다. 개발자와 제품 관리자는 여전히 단편화되어 있거나 접근할 수 없는 데이터와 씨름하고, 사일로화된 시스템 간에 데이터 거버넌스를 시도하는 데 너무 많은 시간을 허비하고 있습니다. 이러한 마찰은 훌륭한 아이디어를 실제 프로덕션으로부터 더욱 멀어지게 합니다.
하지만 Snowflake가 이를 변화시킬 것입니다.
이번 블로그에서는 개발자에게 궁극적인 데이터 유연성과 접근성을 제공하는 데 초점을 둔 Snowflake의 새로운 도구와 개선 사항을 소개합니다. Snowflake Horizon Catalog, Snowflake Openflow 및 Snowflake Postgres의 개선과 성능 향상은 개발자들이 보다 쉽게 엔터프라이즈 데이터를 안전하게 연결하고 사용할 수 있도록 다음을 지원합니다.
AI를 활용한 데이터 마이그레이션 간소화
데이터의 중앙 집중화, 데이터 수집 및 접근 단순화, 상호운용성 향상을 통한 개발 속도 가속화
엔터프라이즈 수준의 보안 및 거버넌스 기능, 대규모 관리 용이성을 통한 규정 준수 프로세스 및 복원력 강화
수집 및 쿼리 성능 개선 및 대규모 비용 가시성 향상을 통한 인사이트 도출 가속화
다음으로, Snowflake가 한계 없는 데이터를 제공하는 방식에 대해 자세히 살펴보겠습니다.
AI를 활용한 데이터 마이그레이션 간소화로 데이터 유연성과 접근성 개선
레거시 시스템에서 데이터를 이동하는 작업은 종종 느리고 비용이 많이 들며, 특히 복잡하고 상호 의존적인 코드와 스키마를 다룰 때는 더욱 그렇습니다. 하지만 Snowflake는 마이그레이션 도구에 AI를 직접 구축함으로써 이 문제를 해결합니다.
SnowConvert AI는 이제 더 빠르고 예측 가능하며 보다 비용 효율적인 마이그레이션 경로를 제공하여, 개발자들이 신뢰할 수 있는 데이터를 빠르게 사용할 수 있도록 지원합니다. AI 기반 코드 검증 및 수리 기능(PuPr)은 변환된 코드의 테스트 및 수리 과정을 자동화하여 마이그레이션을 가속하므로, 배포 전에 정확성과 품질을 보장할 수 있습니다. 자동화된 증분 코드 검증 기능(GA)은 변환된 코드의 의미적 동등성을 더 작은 단위로 자동으로 확인하여 데이터 신뢰성을 크게 향상시킵니다.
또한 SnowConvert AI의 지원 범위를 데이터베이스를 넘어 엔드투엔드 생태계 마이그레이션(레거시 ETL 및 BI 리포인팅 등)으로 확장하고 있습니다. 여기서 BI 리포인팅(PuPr)은 새로운 데이터베이스를 사용하도록 보고서를 수정하는 작업을 포함합니다. 이와 같이 폭넓은 지원은 데이터 환경 전반에서 위험을 줄이고 일관성을 높이며, 품질을 희생하지 않고 마이그레이션을 완료하는 데 필요한 시간과 비용을 극적으로 줄이는 데 도움이 됩니다.
워크플로우 간소화와 엔터프라이즈 레이크하우스 전반의 상호운용성 확대를 통한 개발 가속화
현대의 애플리케이션 개발에서는 파이프라인 오케스트레이션 전문가가 될 필요가 없습니다. 트랜잭션 데이터와 분석 데이터가 함께 존재하고 엔진이나 클라우드에 관계없이 오픈 데이터 형식으로 쉽게 작업할 수 있는 간소화된 환경이 있으면 됩니다.
따라서, 단순화된 워크플로우와 진정한 상호운용성이 곧 차별화 요소가 됩니다. Snowflake는 데이터 워크로드를 통합하고, 오픈 표준에 대한 지원을 확장하며, 더 많은 커넥터와 배포 옵션을 제공하여 엔드투엔드 파이프라인을 간소화함으로써 엔터프라이즈 레이크하우스를 재정의하고 있습니다. 궁극적인 목표는 필요한 것을, 필요한 방식으로, 필요한 시점에 구축할 수 있는 유연성을 제공하는 것입니다.
Snowflake Postgres를 통한 운영 워크로드 지원 확대 및 데이터 통합
Postgres는 개발자들 사이에서 가장 인기 있는 데이터베이스로 자리 잡았으며, 현대 애플리케이션 개발의 중추로 인정받고 있습니다. 이미 알고 계시겠지만, Snowflake Postgres(PuPr 예정)는 Postgres를 Snowflake AI 데이터 클라우드로 가져옵니다. 이는 개발자들이 원하는 Postgres를 비즈니스가 필요로 하는 엔터프라이즈급 플랫폼에서 제공하며, 트랜잭션 시스템과 분석 시스템 간의 데이터 연결을 보다 용이하게 만들어 줍니다. 오픈소스 Postgres와의 완전한 호환성 덕분에 코드를 다시 작성하지 않고도 Snowflake에서 운영 워크로드를 실행할 수 있으며, 개발자들은 여전히 자신들이 의존하는 특정 Postgres 확장 기능, ORM 및 클라이언트/프레임워크를 계속 사용할 수 있습니다. 이제 최신 트랜잭션 데이터를 사용하여 더 스마트한 애플리케이션과 컨텍스트 인식 AI 에이전트를 구축하면서 단일 플랫폼에서 아키텍처를 단순화하고 혁신을 가속화할 수 있습니다.
Snowflake는 또한 개발자가 Postgres를 사용하여 레이크하우스와 상호작용할 수 있도록 지원하는 오픈소스 Postgres 확장 세트인 pg_lake를 새롭게 선보입니다. pg_lake를 사용하면 Postgres를 통해 분석 데이터를 오브젝트 스토리지에 그대로 두고 쿼리할 수 있습니다. pg_lake는 표준 SQL을 사용하여 Apache Iceberg™ 테이블을 읽고 쓰거나, CSV, Parquet, JSON과 같은 파일 형식에서 데이터를 직접 쿼리하거나 로드할 수 있는 기능을 제공합니다. Snowflake는 pg_lake를 통해 Postgres의 강력한 힘을 레이크하우스에 가져오고 있습니다.
상호운용성 확대
진정으로 사용하기 쉽고 연결되며 신뢰할 수 있는 엔터프라이즈 레이크하우스를 구축하려면, 데이터가 엔진과 클라우드 플랫폼 전반에 걸쳐 보편적으로 접근 가능하고 상호운용 가능해야 합니다. Snowflake는 안전한 크로스 클라우드 및 크로스 리전 데이터 접근성과 데이터 공유의 이점을 지속적으로 강조해왔습니다. 이제 Snowflake Horizon Catalog의 외부 엔진 읽기(PuPr 예정) 및 쓰기(PrPr 예정) 액세스 지원을 통해, Apache Polaris(인큐베이팅) 및 Apache Iceberg REST Catalog의 오픈 API를 사용하여, 종속 없이 상호운용성을 향상시키고 있습니다. 이로 인해 Iceberg REST 프로토콜을 지원하는 외부 쿼리 엔진에서 Snowflake 관리형 Iceberg 테이블에 접근하는 것이 훨씬 쉬워집니다. 별도의 Apache Polaris 계정을 설정하고, 통합을 구성하고, 별도의 사용자 및 역할 세트를 관리하고, 별도의 보안 구성을 설정하는 대신, 이제 Snowflake 계정 내 Horizon Catalog에서 테이블에 직접 접근할 수 있습니다.
또한 Snowflake는 오픈 테이블 형식(GA)으로 제로 ETL 데이터 공유 기능을 확장하고 있습니다. 이에 따라, 데이터가 어떤 카탈로그에 있든 상관없이 Apache Iceberg나 Delta Lake 테이블 등을 활용할 수 있습니다. 아울러, 최신 Apache Iceberg V3 기능(PrPr) 지원은 새로운 가변형(variant) 및 지리 공간 데이터 유형 등에 대한 지원을 제공하여 Iceberg 테이블의 활용 사례를 더욱 다양하게 열어줍니다.
Snowflake는 레이크하우스에 대한 새로운 수준의 엔터프라이즈 데이터 보호 기능도 제공합니다. Snowflake 관리형 Iceberg 테이블용 비즈니스 연속성/재해 복구(BCDR) 기능(PuPr)은 리전 및 클라우드 전반에 걸쳐 계정 객체 및 데이터베이스의 비동기 복사본을 생성하고 장애 조치 그룹을 구성할 수 있도록 지원합니다. 이와 같이 강력한 복원력 및 복구 기능 덕분에, 재해나 클라우드 가동 중단이 발생하더라도 데이터에 접근할 수 있고 비즈니스는 계속 운영됩니다.
파이프라인 간소화 및 데이터 제공 강화
엔드투엔드 데이터 파이프라인을 단순화하면 더 많은 소스에서 데이터를 확보하여 더 빨리 데이터 팀에 전달할 수 있습니다. 여기에 빠르게 구축하고 공유할 수 있는 강화된 데이터 제품 기능을 결합하면, 에이전틱 AI 이니셔티브에 큰 도움이 됩니다.
Snowflake Openflow는 이 과정의 첫 번째 단계에 초점을 맞춰 사실상 모든 소스에서 데이터 추출 및 통합을 자동화하고 엔터프라이즈 레이크하우스 전반에 걸쳐 데이터를 중앙집중화하는 작업을 쉽게 만들어 줍니다. Openflow는 AWS에서 BYOC(Bring Your Own Cloud) 배포 옵션으로 일반 제공(GA)되고 있으며, Snowpark Container Services를 통한 Snowflake 배포 옵션은 이제 AWS 및 Microsoft Azure에서 GA로 사용 가능합니다. Openflow Snowflake 배포 옵션은 완전히 통합된 경험을 제공하기 때문에, 데이터 엔지니어는 인프라를 관리하거나 네트워크를 구성하거나 시스템 간의 보안 경계에 대해 걱정할 필요가 없습니다.
Snowflake는 또한 방대한 커넥터 및 배포 옵션 라이브러리에 새로운 통합 옵션을 추가하여, 데이터를 보다 효율적으로 연결하고 활용할 수 있도록 지원하고 있습니다. 주요 내용은 다음과 같습니다.
통합된 제로 카피 엔터프라이즈 데이터 통합: SAP Snowflake(PrPr)는 완전 관리형 데이터 및 AI 기능을 활용하여 SAP 비즈니스 데이터 클라우드를 확장하고, 양방향 통합으로 엔터프라이즈 데이터 환경을 단순화합니다. Snowflake는 또한 Oracle(PuPr 예정)과 협력하여 온프레미스 및 클라우드 환경 전반에 걸쳐 고속 데이터 복제를 위한 새로운 CDC 협업을 확장하고 있습니다.
Snowflake에서의 dbt 프로젝트(GA): Snowflake 내에서 직접 dbt 프로젝트를 구축, 테스트, 배포 및 모니터링할 수 있어, 데이터 엔지니어는 인프라 관리가 아닌 데이터 인사이트 제공에 집중할 수 있습니다.
Apache Spark™용 Snowpark Connect(GA): 오픈소스 Spark Connect 클라이언트를 사용하여 최소한의 변경으로 Apache Spark 코드를 Snowflake에서 직접 실행할 수 있습니다. Snowpark 고객은 평균 5.6배 더 빠른 성능과 41%의 비용 절감을 경험합니다.1
이러한 모든 데이터에 대한 접근 권한을 확보한 후에는 프로젝트를 협업하고 효율적으로 반복할 수 있는 신뢰할 수 있으면서도 간단한 방법이 필요합니다. 고도화된 데이터 제품을 생성하고 공유하는 것은 데이터를 풍부하게 활용할 수 있는 효율적인 방법입니다. 이제는 데이터베이스, 테이블 및 보안 뷰를 데이터 제품으로 공유하는 것뿐만 아니라, Snowflake Native App Framework에서 선언적 공유 구성(GA 예정)을 통해 Snowflake Notebooks 및 UDF를 쉽게 패키징하고 공유할 수 있습니다.
엔터프라이즈급 보안, 거버넌스 및 복원력 혁신을 통한 규정 준수 노력 강화
더 많은 데이터를 연결하고 AI 이니셔티브를 확장할수록, 보안, 거버넌스 및 비즈니스 연속성(BCDR) 기능에 대한 요구는 커집니다. AI가 제대로 학습하기 위해서는 정확하고 신뢰할 수 있는 데이터가 필요합니다. 강력한 복원력과 데이터 보안은 필수 요건이며, 규정 준수도 선택 사항이 아닙니다.
Snowflake Horizon Catalog는 모든 데이터 전반에서 AI를 위한 컨텍스트와 거버넌스를 제공하는 통합 AI 카탈로그입니다. 이 카탈로그는 특정 벤더에 종속되지 않는 상호운용성을 지원하면서도, 엔터프라이즈급 보안 및 거버넌스 기능을 제공합니다. Horizon Catalog는 데이터를 해석하는 데 필요한 컨텍스트를 제공하여 AI가 데이터를 올바르게 이해할 수 있도록 돕습니다. 마지막으로, Horizon Catalog는 조직 내 모든 계정의 데이터를 단일하게 관리할 수 있도록 지원하여, 크로스 리전, 크로스 클라우드 환경에서의 관리, 협업, 데이터 공유 및 BCDR을 원활하게 수행할 수 있도록 합니다.
새롭게 제공되는 Horizon Catalog 기능에는 AI Redact(PuPr)가 포함됩니다. AI Redact는 비정형 데이터 내에서 개인 식별 정보(PII)를 자동으로 탐지하여 가리거나 제거하는 AI SQL 함수입니다. 이 기능은 AI 모델 학습에 활용되는 비정형 데이터 속 PII 보호 문제라는 엔터프라이즈 AI 도입의 주요 장애 요소를 직접 해결하며, 더 많은 엔터프라이즈 데이터를 AI 학습에 활용할 수 있도록 지원합니다. Snowflake는 또한 데이터 보안 태세 관리 기능(PuPr)도 새롭게 선보입니다. 이는 Trust Center 내의 단순하고 직관적인 UI를 통해 민감 데이터 탐지, 태깅, 보호 및 모니터링을 자동화하고 관리할 수 있는 기능입니다.
현재 공개 미리보기(PuPr) 중인 Horizon Catalog에 대한 추가 개선 사항에는 외부 데이터 계보 시각화 기능, Snowsight 인터페이스 내 단순화된 데이터 품질 UI 및 자동 데이터 프로파일링 탭 등이 포함됩니다. 새로운 이상 감지 UI 및 경고 시스템(PuPr)은 조직의 모든 계정에서 보안 이상을 중앙에서 모니터링하고 새로운 이상 징후 발생 시 알림을 제공합니다. Trust Center의 추가적인 업데이트 내용은 다음과 같습니다.
서드 파티 Trust Center 확장 기능 개발(PuPr) 및 Snowflake Marketplace를 통한 공유 기능
Global Org Admin이 조직 내 모든 계정의 보안 태세를 단일 뷰로 확인할 수 있는 기능(GA 예정)
보안을 지원하는 것은 Hybrid Tables 개선 사항의 핵심이기도 합니다. Hybrid Tables는 이제 Microsoft Azure에서 GA로 제공될 뿐만 아니라 Snowflake의 Tri-Secret Secure(TSS) 암호화 모델도 지원합니다(AWS에서 GA, Microsoft Azure에서 PuPr로 제공 중). TSS는 Snowflake의 내장형 사용자 인증 및 Snowflake에서 관리하는 키와 고객이 관리하는 키를 결합한 복합 마스터 키를 통해 데이터를 보호하여 더 높은 수준의 보안을 제공합니다. 또한, Hybrid Table의 자동 리키잉(rekeying) 기능(AWS 및 Azure에서 GA로 제공)은 암호화 키를 자동으로 정기적으로 변경하여 개발자가 보안 및 규정 준수 기준을 충족하도록 돕습니다.
비즈니스 복원력 측면에서 Snowflake Backups(GA 예정)는 사이버 복원력을 강화하고, 규정 준수를 지원하며, 감사 또는 법적 목적으로 데이터 무결성을 향상시키는 강력한 도구를 제공합니다. 사용자는 시점(point-in-time) 백업을 생성하고 이를 변경 불가능하게 설정할 수 있으며, 이는 한 번 생성된 백업은 관리자조차 수정하거나 삭제될 수 없음을 의미합니다. 랜섬웨어 공격, 자연 재해 또는 가동 중단이 발생한 경우, 백업을 Snowflake의 계정 복제 기능과 결합하여 모든 백업 세트와 정책을 다른 리전이나 클라우드 공급자로 복제 및 복구할 수 있습니다.

데이터 수집 및 쿼리 성능 향상과 대규모 비용 가시성 강화를 통한 인사이트 확보 가속화
속도와 비용 효율성은 비즈니스 성과뿐 아니라 사용자에게 가치를 전달하는 능력에도 직접적인 영향을 미칩니다. 실시간 데이터 스트림을 처리하고 고부하 분석 작업을 실행할 때에는 대규모 환경에서의 성능이 특히 중요합니다.
에이전틱 AI 애플리케이션의 데이터 및 성능 요구 사항 충족
Snowflake는 데이터 파이프라인과 쿼리가 더 빠르게 실행되도록 플랫폼 전반에 걸쳐 자동 성능 개선을 지속적으로 제공합니다.
그 이점은 우선 Snowflake 표준 웨어하우스 2세대(Gen2)에서 제공되는 Snowflake Optima 지능형 최적화 기능에서 시작되며, 이는 분석 및 데이터 엔지니어링 워크로드의 쿼리 성능을 향상시킵니다. 이 중 Optima Indexing(GA)은 워크로드를 분석하여 반복적으로 실행되는 포인트 조회(point lookup) 쿼리를 사전에 식별하고, 이를 가속화할 수 있도록 최적화합니다. 한 자동차 업계 고객사의 경우에는 Snowflake Optima 덕분에 Gen2 웨어하우스에서 자주 반복되는 고선택도 쿼리의 성능이 최대 15배 향상되는 효과를 경험했습니다.
스트리밍 워크로드의 경우에는 차세대 데이터 수집 프레임워크의 최신 버전(AWS에서 GA로 제공, Azure 및 GCP는 곧 GA 예정)인 Snowflake Streaming V2가 단순화된 아키텍처를 통해 쿼리 완료 시간을 56% 단축하고, 엔드투엔드 지연 시간을 개선했습니다(최근 벤치 마크 기준).2 또한 팀이 전체 비용을 절감할 수 있도록 지원하기 위해, 보다 예측 가능한 사용량 기반 가격 모델을 도입했습니다.
Snowflake Dynamic Tables는 단일 SQL 쿼리로 원하는 상태를 정의할 수 있게 하여 데이터 파이프라인을 단순화합니다. 새로 선보이는 불변성 기능(GA)은 테이블의 특정 영역을 잠글 수 있게 하여 새로 고침 중에 변경되지 않도록 함으로써 재계산을 줄이고 비용을 낮출 수 있습니다. Dynamic Iceberg 테이블(GA)은 데이터 레이크와 통합되어 AWS S3, Azure Blob Storage 등 외부 클라우드 스토리지에 데이터를 저장하면서도 Snowflake를 통해 중앙에서 관리할 수 있습니다.
비용 가시성 향상
오늘날의 개발자들은 AI 작업 중에 클라우드 비용을 자주 살펴봐야 하는 상황에 직면하고 있습니다. Snowflake 고객은 이제 SQL을 통해 조직의 모든 Snowflake 계정에서 공유 리소스의 세부적인 비용 할당 수행(PrPr) 도구를 사용하여 소비를 관리할 수 있습니다. 새로운 태그 기반 예산 관리 기능은 조직이 공유 리소스 사용자에 대한 예산을 설정(PrPr 예정)할 수 있게 하여 사용자 수준에서 공유 리소스의 소비를 모니터링하고 비용 초과를 방지할 수 있도록 지원합니다.
데이터 전략과 AI 전략은 불가분의 관계
Snowflake는 엔터프라이즈용 데이터 준비와 AI를 가속화할 수 있는 쉽고 연결되며 신뢰할 수 있는 데이터 기반을 구축하는 데 있어 그 기준을 높이고 있습니다. 개발자는 여러 출처에서 여러 유형의 데이터를 쉽게 마이그레이션, 액세스 및 연결하여 에이전틱 AI 앱을 구축할 수 있는 중앙 집중식 AI 준비 플랫폼을 보유하고 있으며, 이를 통해 빠른 성능, 높은 확장성 및 효율적인 비용 관리를 실현합니다.
AI 데이터 클라우드가 더 빠르고 더 나은 앱을 구축할 수 있도록 지원하기 위해 새롭게 선보이는 여러 기능들에 대해 자세히 알아보세요. 이 모든 기능은 지능적이고 관리되는 AI를 대규모로 제공하고 개발자 워크플로우를 최신화하는 데 기여합니다. 이 기능이 궁금하신 분들은 BUILD 2025 아젠다를 참고하셔서, 다양한 심층 세션이나 핸즈온 랩에 참여해 보세요.
______________
1 2022년 11월부터 2025년 5월까지 Snowpark와 관리형 Spark 서비스의 속도 및 비용을 비교한 고객의 프로덕션 사용 사례 및 개념 증명(POC) 기준임. 모든 조사 결과는 실제 고객 데이터 기반의 실제 성과를 요약한 것이며, 벤치마크를 위해 가공된 데이터 세트를 반영하지 않습니다.
2벤치마크 보고서는 TPC-DS 벤치마크에서 파생된 것이며, 따라서 그 결과는 비공식적이며 트랜잭션 처리 성능 위원회(TPPC)에 의해 검증되거나 인증되지 않았습니다. 이 결과는 정보 제공 목적으로만 사용되며 공식 TPC-DS 결과와 비교할 수 없습니다.
미래 전망 진술
이 페이지에는 당사의 향후 제품 제공에 대한 미래 전망 진술이 포함되어 있으며, 이는 제품 제공에 대한 보장이 아닙니다. 실제 결과 및 제공 내용은 다를 수 있으며, 알려지거나 알려지지 않은 위험 및 불확실성에 영향을 받을 수 있습니다. 자세한 내용은 최신 10-Q를 참조하세요.




