Blog/제품 및 기술/AI와 데이터 연결로 구현하는 데이터 개발 수명 주기 간소화
JUN 03, 2026/8분 읽음제품 및 기술

AI와 데이터 연결로 구현하는 데이터 개발 수명 주기 간소화

대부분의 엔터프라이즈 데이터는 실제로 이를 활용해야 할 시스템에 도달할 때쯤이면 이미 최신성을 잃은 경우가 많습니다. 이러한 지연은 AI 에이전트가 유용한 답변을 내놓느냐, 아니면 비용이 큰 실수를 저지르냐의 차이를 만듭니다. 에이전틱 AI가 지능적인 의사 결정을 내리기 위해서는 최신 정보에 지속적으로 액세스할 수 있어야 합니다.

에이전틱 AI를 프로덕션 환경에 도입하는 기업이 늘어나면서 데이터 엔지니어링 팀에 대한 요구도 실시간 파이프라인과 이벤트 기반 아키텍처 중심으로 변화하고 있습니다. 이는 끊임없이 변화하는 데이터 소스를 더 많이 연결하고 거버넌스를 적용해야 할 필요성을 방증합니다. 그러나 현재 데이터 플랫폼이 지원할 수 있는 범위를 넘어서는 수준의 구축 요구가 데이터 엔지니어링 팀에 주어지고 있는 상황입니다.

Snowflake Summit 2026에서는 데이터 엔지니어링 팀이 AI 시대에 성공할 수 있도록 플랫폼을 강화했습니다. 여기에는 네이티브 Apache Kafka 호환 스트리밍 서비스와 데이터 이동 및 마이그레이션 비용을 줄이는 AI 기반 기능 등 주목할 만한 릴리스가 포함됩니다.

이러한 개선 사항은 데이터 엔지니어가 인프라 관리와 수동 오케스트레이션에 쓰는 시간을 줄입니다. 또한 복잡한 설정을 안내형 대화로 바꿔 주는 공통 축인 Snowflake CoCo를 통해, 엔지니어는 기반 작업보다 AI가 가능하게 하는 성과에 더 집중할 수 있습니다.

AI가 요구하는 속도로 구현하는 데이터 스트림

에이전트는 관찰하고, 판단하고, 실행하고, 학습하며, 그 학습 결과를 다음 의사 결정에 반영합니다. 각 의사 결정 루프는 다음 응답을 더욱 정확하고, 개인화되며, 실행 가능하게 만들어야 합니다. 이러한 사이클은 지속적으로 반복되기 때문에 이를 뒷받침하는 데이터 역시 끊김 없이 흐를 수 있어야 합니다. Kafka를 운영 중인 조직은 이미 이러한 요구를 충족하는 스트리밍 기반을 갖추고 있습니다. 문제는 별도의 분석 플랫폼과 함께 운영하면 두 개의 시스템에 비용, 거버넌스, 운영 인력을 각각 투입해야 한다는 점입니다. 그럼에도 불구하고 데이터는 실제 의사 결정이 이루어지는 곳에 늦게 도착하는 경우가 많습니다.

Datastream(프라이빗 프리뷰 예정)은 Snowflake의 네이티브 Apache Kafka 호환 스트리밍 서비스로, 이러한 운영 오버헤드를 단일 거버넌스 플랫폼으로 통합하도록 설계되었습니다. 데이터는 Snowflake 네이티브 테이블 또는 개방형 Apache Iceberg™ 테이블 형태로 지속적으로 적재되며, 몇 초 내에 쿼리할 수 있습니다. Kafka 토픽은 Snowflake의 역할 기반 액세스 제어(RBAC)를 통해 보호되며, 테이블은 분류, 데이터 계보, 마스킹 정책을 포함한 Horizon Catalog의 모든 기능을 그대로 상속합니다. 즉, 데이터는 도착하는 순간부터 거버넌스가 적용됩니다. 필요한 스트리밍 파이프라인을 자연어로 간단히 설명하기만 하면, CoCo가 Datastream 인증 설정을 처리하고 Kafka에 대한 깊은 전문 지식 없이도 몇 분 만에 팀의 온보딩을 지원합니다.

 

Datastream은 기존 Kafka 인프라를 Snowflake의 네이티브 서비스로 대체하려는 조직을 위해 설계되었습니다. Snowpipe Streaming High-Performance Architecture는 자체 애플리케이션에서 데이터를 스트리밍하는 팀을 위한 직접 수집 API로, 기존 Kafka 클러스터의 Kafka 커넥터를 통한 데이터 수집도 지원합니다. 금융 거래소 운영사인 Cboe Global Markets는 매일 1,900억 행 규모의 시장 데이터를 처리하고 있으며, 이를 30초 이내에 쿼리하여, 트레이더와 애널리스트에게 시장 활동에 대한 실시간 가시성을 제공합니다. 이번 Summit에서 발표된 Snowpipe Streaming의 개선 사항은 다음과 같습니다.

  • Kafka Connector 4.0(GA)은 테이블당 최대 10GB/s의 서버 측 수집을 지원하고 고객 측 리소스 사용량을 최대 30%1 절감합니다. 이를 통해 팀은 비용 효율성을 유지하면서 처리량을 확장할 수 있습니다.
  • 오류 로깅(GA)은 실패한 행을 전체 컨텍스트와 함께 SQL로 쿼리 가능한 테이블에 캡처합니다. 이를 통해, 에이전트가 잘못된 데이터를 기반으로 동작하기 전에 데이터 품질 문제를 사전에 식별할 수 있습니다.
  • 다언어 SDK 지원(GA)을 통해 팀은 Java, Python, Node.js, REST 인터페이스 등 익숙한 개발 스택에서 데이터를 스트리밍할 수 있습니다.
  • Elastic Channels(프라이빗 프리뷰)는 자동 확장되는 공유 엔드포인트를 통해 수천 개의 클라이언트가 동시에 초당 수 기가바이트 규모의 데이터를 하나의 테이블로 스트리밍할 수 있도록 지원합니다. 이를 통해 스트리밍 파이프라인 구축 및 확장에 필요한 개발 시간을 줄일 수 있습니다.
  • Durable Acknowledgments(프라이빗 프리뷰)는 데이터 수집과 커밋 사이에 발생할 수 있는 데이터 손실 가능성을 제거합니다. 이에 따라, 미션 크리티컬 파이프라인은 에이전트에 불완전한 데이터를 제공하지 않습니다.

스스로 운영되는 파이프라인

데이터를 실시간으로 Snowflake에 적재하는 것은 전체 작업의 절반에 불과합니다. 나머지 절반은 해당 원시 스트림을 분석가, 머신러닝 모델, 그리고 AI 에이전트가 실제로 활용할 수 있는 형태로 변환하는 것입니다. 이러한 데이터 변환 계층은 지속적으로 실행되어야 하며, 재시도와 새로 고침 로직을 자체적으로 처리하고, 전담 엔지니어가 상시 모니터링하지 않아도 안정적으로 운영될 수 있어야 합니다. 팀은 파이프라인이 스스로 관리될 수 있을 때 더 빠르게 움직일 수 있습니다.

이번 Summit에서 Wind Creek Hospitality의 Sergey Labetsik은 기존에 30분 주기로 실행되던 dbt 배치 작업을 Dynamic Table 기반 파이프라인으로 전환해, 엔드투엔드 지연 시간을 1분 미만으로 줄이고, 고객이 적립 조건을 충족하는 즉시 식음료 바우처를 제공하는 방법을 시연했습니다.

또한 이러한 선언형 접근 방식은 더욱 빠르고 유연해졌습니다. 성능 향상(GA)은 일반적인 Dynamic Table 워크로드에서 최대 2.8배 빠른 새로 고침 성능을 제공합니다2. 사용자 지정 증분화(퍼블릭 프리뷰)는 엔지니어가 선언형으로 표현할 수 없는 변환에 MERGE 또는 INSERT 문을 사용할 수 있게 하고 동시에 Dynamic Table가 제공하는 자동화 기능은 그대로 유지합니다.

Figure 2: Up to 2.8x faster refresh performance  for Dynamic Tables with improvements to how Snowflake works with aggregate functions, qualify rank (SCD-1), cluster-by, joins and more.
Figure 2: 집계 함수, QUALIFY RANK(SCD-1), CLUSTER BY, 조인 등과 관련된 Snowflake 처리 방식 개선을 통해 Dynamic Tables의 새로 고침 성능이 최대 2.8배 향상되었습니다.

DCM Projects(퍼블릭 프리뷰)는 팀이 인프라를 선언형으로 정의하고, 환경 전반의 변경 사항을 미리 보고 및 배포하며, 모든 배포의 전체 감사 추적을 유지할 수 있도록 단일하고 통제된 워크플로우를 제공합니다. Fusion 지원(GA)으로 더욱 빨라진 dbt Projects on Snowflake는 이러한 접근 방식을 dbt 사용자에게까지 확장합니다.

Snowpipe Streaming, Dynamic Table 및 dbt Projects을 위한 CoCo 스킬은 이러한 워크플로우 전반에서 설정과 문제 해결을 가속화하여, 엔지니어가 반복적인 설정 작업이 아니라 파이프라인 로직에 집중할 수 있게 합니다.

데이터 이동 없이 비즈니스 시맨틱을 유지하는 엔터프라이즈 데이터 활용

조직 내에서 가장 가치가 높은 데이터 중 일부는 사실 이동할 필요가 전혀 없습니다. 이러한 데이터는 이미 SAP, Salesforce, Workday와 같은 핵심 엔터프라이즈 플랫폼에 저장되어 있으며, 비즈니스 의미와 관계, 그리고 시맨틱 모델이 함께 내재되어 있습니다. AI 이니셔티브를 프로덕션 환경에 도입하려는 경영진에게 이러한 비즈니스 재구성 비용은 가장 큰 걸림돌이 되는 경우가 많습니다.

Snowflake는 데이터를 복제하는 대신 제로 카피 통합을 통해 소스 시스템이 가진 인텔리전스를 Snowflake 안에서 바로 활용할 수 있게 합니다. 데이터는 거버넌스가 적용된 상태로 즉시 쿼리할 수 있으며, AI 워크로드가 안정적으로 작동하는 데 필요한 풍부한 시맨틱 정보도 그대로 유지됩니다. 그 결과 모델과 에이전트는 단순화된 테이블 복제본이 아니라 원래의 비즈니스 컨텍스트를 유지한 데이터를 기반으로 작동할 수 있습니다.

SAP는 이제 SAP BDC Connect for Snowflake를 통해 GA로 제공되며, 양방향 제로 카피 통합을 지원합니다. 데이터 엔지니어는 복잡한 ETL 과정 없이 SAP ERP 데이터에 액세스해 AI, 분석, 데이터 엔지니어링에 활용할 수 있으며, Snowflake에서 생성된 인사이트는 다시 SAP로 전달되어 자동화된 작업을 트리거합니다. Snowflake와의 네이티브 제로 카피 통합을 선도해 온 Salesforce Data 360는 향상된 커넥터 경험을 제공해 고객이 파이프라인 유지 보수 없이 데이터를 양방향으로 공유할 수 있도록 지원합니다. Workday는 현재 프라이빗 프리뷰 단계로 제공됩니다. Workday의 인사 및 재무 데이터를 외부 관리형 Iceberg 테이블 형태로 제공하며, 스토리지 계층에서 증분 변경 데이터 캡처를 지원합니다.

 

이 세 가지 통합 방식은 모두 동일한 아키텍처를 기반으로 합니다. 데이터는 소스 시스템에 그대로 머물고, Catalog-Linked Databases를 통해 Snowflake에 연결되고 Horizon의 전체 거버넌스 경계를 그대로 상속받습니다. 데이터가 표시되는 순간부터 엔드투엔드 데이터 계보, 액세스 정책, 감사 추적이 일관되게 적용됩니다. 또한 CoCo 스킬이 수명 주기 관리를 지원하므로 팀은 자연어 프롬프트로 연결을 구성하고 유지 관리할 수 있습니다. 이를 통해 엔터프라이즈 데이터 통합은 모든 Snowflake 사용자가 활용할 수 있는 영역이 됩니다.

나머지 데이터는 Snowflake Openflow로 연결

제로 카피 통합은 네이티브 통합 경로에 투자해 온 엔터프라이즈 플랫폼에서 효과적입니다. 그러나 여전히 많은 핵심 데이터가 온프레미스 OLTP(온라인 트랜잭션 처리) 데이터베이스, SaaS 애플리케이션 및 데이터 공유를 염두에 두지 않고 구축된 레거시 시스템에 저장되어 있습니다.

지난해 출시된 Openflow는 Apache NiFi 기반의 Snowflake 관리형 데이터 통합 서비스로, 많은 팀들이 분산된 커넥터 스택을 단일 플랫폼으로 통합함에 따라 고객 도입이 꾸준히 확대되고 있습니다. 이러한 흐름에 힘입어 이번 Summit에서는 Openflow의 기능 범위를 대폭 확장하는 신규 기능이 발표되었습니다.

Snowflake의 관리형 배포 환경은 AWS와 Azure에 이어 이제 Google Cloud Platform에서도 GA로 제공됩니다. 또한 Data Connectivity Proxy(AWS에서 곧 GA 예정)는 Openflow를 프라이빗 네트워크로 확장해, 과거에는 사용자 지정 엔지니어링이 필요했던 소스도 손쉽게 연결합니다. Openflow는 정형 데이터와 비정형 데이터, 배치와 스트리밍 처리를 모두 지원하며, 개방형 아키텍처와 확장성을 유지합니다. 사용자는 직접 커넥터를 구축하고 제어 권한을 유지한 채 Snowflake의 관리형 플랫폼에서 실행할 수 있습니다.

Snowsight의 안내형 설정 마법사는 내장형 소스 연결성 검증 기능과 함께 커넥터 설치 과정을 단계별로 안내합니다. 이를 통해 사용자는 몇 분 만에 설정을 완료하고 데이터 수집을 시작할 수 있습니다. 또한 커넥터에서 오류가 발생하면, Connector Monitoring Dashboard에 내장된 CoCo 기반 AI 지원 문제 해결 기능이 로그를 분석하고 구체적인 해결 방안을 제시합니다. 이 기능은 Openflow 커넥터 전반에 걸쳐 제공되며, 새롭게 추가된 Veeva, BigQuery, MongoDB 커넥터(모두 퍼블릭 프리뷰로 제공)도 포함됩니다. 이들 커넥터는 AI 지원 맞춤화 기능을 활용해 배포를 가속화하고, 산업별 특화 데이터에 대한 더 깊은 가시성을 제공합니다.

 

Snowpark로 대규모 구축 및 배포

모든 데이터 변환 작업이 선언형 모델에 적합한 것은 아닙니다. Python, Java, Scala, Apache Spark™를 사용해 프로그래밍 방식으로 개발하는 데이터 엔지니어와 데이터 사이언티스트의 경우, 복잡한 파일 구문 분석, 배치 규모의 ML 추론, 다단계 Python 워크플로우와 같은 작업이 필요합니다. 문제는 실제 프로덕션 배포가 코드 작성 자체보다 더 오래 걸릴 수 있다는 점입니다. Snowpark는 이러한 프로토타입과 프로덕션 환경 사이의 간극을 줄여줍니다.

이번 Summit에서 발표된 주요 릴리스는 다음과 같습니다. 대규모 환경에서 더욱 빠르고 효율적인 스코어링을 지원하는 최적화된 ML 배치 추론(퍼블릭 프리뷰), 외부 데이터를 Snowflake로 가져오는 데 필요한 작업을 줄이는 Snowpark 데이터 통합 API(JDBC 지원, 퍼블릭 프리뷰), 대규모의 복잡한 파일 ETL을 지원하는 File Transform for Apache Spark(퍼블릭 프리뷰 예정), 다중 파일 Python 프로젝트 배포 간소화를 위한 Snowpark Directory Import(GA), Notebooks와 ML Jobs 오케스트레이션을 지원하는 시각적 DAG 파이프라인 빌더(프라이빗 프리뷰), Python 및 Java 코드의 프로덕션 배포를 지원하는 Code Bundles(퍼블릭 프리뷰 예정)이 포함됩니다.

또한 Snowpark PythonApache Spark를 위한 CoCo 스킬은 이러한 프로그래밍 방식의 파이프라인 배포와 마이그레이션 과정을 더욱 간소화합니다. 이를 통해 팀은 로컬 Python 또는 Apache Spark 코드를 프로덕션 환경에 적합한 워크플로우로 손쉽게 전환할 수 있으며, 최대 5.1배 빠른 속도와 42%의 비용 절감 효과를 얻을 수 있습니다3.

목표만 설정하면 나머지는 Snowflake AIM이 처리

데이터 팀의 속도를 가장 크게 저해하는 요소 중 하나는 기존 시스템과 환경을 유지하고 이전해야 하는 부담입니다. 레거시 ETL 도구, 오래된 SQL 방언, 그리고 현재 엔지니어링 팀이 구성되기 이전부터 사용되던 Oracle 스키마 등 마이그레이션 프로젝트는 일정을 지연되고 예산을 초과하며, 그전까지는 아무 문제 없이 운영되던 워크로드에 위험을 초래하는 것으로 악명이 높습니다. 많은 조직은 결국 기존 스택과 신규 스택을 장기간 병행 운영하게 되고, 그 결과 비용과 관리 부담이 수개월, 길게는 수년 동안 두 배로 늘어납니다.

이제 GA로 제공되는 Snowflake AIM(AI 기반 마이그레이션)은 SnowConvert AI, Snowpark Migration Accelerator, Datometry의 IP를 결합한 통합 마이그레이션, 최신화, 가상화 플랫폼입니다. Snowflake CoCo를 통해 제공되는 Snowflake AIM 마이그레이션 에이전트는 팀이 전체 마이그레이션 여정을 단계별로 수행할 수 있도록 지원합니다. 프로덕션 환경에 변경을 적용하기 전에 무엇을 이전해야 하는지, 어떤 순서로 진행해야 하는지, 그리고 각 작업에 어떤 위험 요소가 있는지를 종속성까지 고려해 명확하게 시각화해 제공합니다. 그 결과 과거에는 수주 또는 수개월이 걸리던 작업을 훨씬 짧은 시간 안에 수행할 수 있습니다.

데이터 엔지니어에서 성과 설계자로

이번 Summit에서 발표된 모든 릴리스를 관통하는 패턴은 명확합니다. 엔지니어가 시스템 운영에 들이는 시간을 줄이고, 실제 비즈니스 성과 창출에 더 많은 시간을 투자할 수 있도록 하는 것입니다. 커넥터 유지 보수부터 파이프라인 디버깅까지 과거에는 상당한 엔지니어링 리소스를 필요로 했던 작업들이 릴리스가 거듭될수록 더 빠르고 간편해지고 있으며, CoCo는 이 모든 흐름을 하나로 연결하는 축입니다.

이러한 환경에서 데이터 엔지니어의 역할은 더욱 중요해집니다. 이제 데이터 엔지니어의 업무는 단순한 연결과 운영이 아니라, AI가 실제로 활용할 수 있는 데이터 파운데이션을 설계하는 방향으로 변화하고 있습니다. Snowflake는 앞으로도 복잡성을 보이지 않게 만들어 데이터 팀이 보다 중요한 업무에 집중할 수 있도록 전념할 것입니다.


  1. 고객들은 Snowpipe Streaming High-Performance Architecture를 사용해 고객 측 리소스 비용을 최대 30% 절감했다고 보고하고 있습니다. 자세한 내용은 블로그 "Snowflake에서 스트리밍 규모 조정: 차세대 Snowpipe Streaming 아키텍처 소개"를 참조하세요.
  2. Snowflake 성능 개선 수치는 2025년 5월 4일 기준 Standard Warehouse와 2026년 5월 4일 기준 Gen2를 사용해 측정한 내부 데이터 변환 워크로드를 기반으로 합니다.
  3. 2022년 11월부터 2025년 5월까지 진행된 고객 프로덕션 사용 사례와 PoC를 통해 Snowpark와 관리형 Spark 서비스의 속도와 비용을 비교한 결과를 기반으로 합니다. 모든 분석 결과는 실제 데이터를 기반으로 한 고객의 실제 성과를 요약한 것이며, 벤치마크를 위해 인위적으로 생성된 데이터 세트를 반영하지 않습니다.

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week