AI의 미래, 실시간 공개

스트림 서밋 기조연설은 6월 1일부터 2일까지 무료입니다.

기능

Snowflake에서 실행하는Apache Spark

운영 부담 없이 더 빠른 성능과 더 낮은 비용을 제공하는 Snowpark Connect for Apache Spark™를 선택하세요.

데모 시청하기
time icon

프로덕션 환경 규모에서도 더 빠른 워크로드 실행

확장성을 고려해 설계된 벡터화 엔진을 기반으로, 복잡한 Spark 워크로드를 관리형 Spark 제공업체 대비 평균 5.1배 더 빠르게 실행할 수 있습니다.#

cost savings icon

총소유비용 절감

완전관리형 환경을 통해 클러스터 프로비저닝 부담과 데이터 이동 비용을 줄일 수 있습니다.

consolidate icon

운영 부담 해소

Spark 클러스터를 프로비저닝하고 튜닝하는 운영 부담을 줄이고, 인프라 관리 대신 고부가가치 데이터 제품 구축에 엔지니어링 역량을 집중할 수 있습니다.

이점

Snowflake의 모든 강력한 기능을이제 Apache Spark™ 코드에서도 활용하세요

Spark를 네이티브 방식으로 실행

Snowpark Connect로 Spark 파이프라인 가속화

  • Spark DataFrame, SQL 및 UDF를 Snowflake의 벡터화 엔진에서 직접 실행하세요. 외부 Spark 클러스터를 별도로 프로비저닝하거나 관리할 필요가 없습니다.
  • Snowpark Connect는 오픈소스 Spark Connect 프로토콜을 활용해 워크로드를 Snowflake 내부로 푸시다운하여 네이티브 방식으로 실행합니다. 기존 Spark 코드를 그대로 유지하면서도 복잡한 ETL 작업에서 평균 42% 비용 절감과 5.1배 더 빠른 성능을 실현합니다.#

snowpark connect diagram
snowflake spark interaction diagram

기존 워크로드 연결

외부 Spark 클러스터 연결

 

워크로드에서 외부 Spark 환경이나 기존 API(RDD 및 MLlib 포함)가 필요한 경우, Snowflake Connector for Spark가 고성능 브리지 역할을 합니다. 데이터 전송 과정에서도 Snowflake의 보안 및 거버넌스 정책이 계속 적용됩니다.

사용 중인 도구 그대로 활용

기존 작업 환경에서 그대로 실행

  • Jupyter Notebooks, VS Code 및 Apache Airflow™ 같은 익숙한 환경에서 Spark 클라이언트를 연결해 Spark 작업을 실행할 수 있습니다.

  • Snowflake Notebooks 내부 또는 Spark Submit을 통해 워크로드를 직접 실행할 수도 있습니다.
snowpark connect for apache spark diagram
enterprise lakehouse

인플레이스 데이터 처리

데이터 위치에 관계없이 Spark 실행

  • Snowflake 네이티브 테이블 또는 Apache Iceberg™와 같은 상호운용형 레이크하우스 포맷에서 Spark 코드를 실행할 수 있습니다.
  • 비용이 많이 드는 데이터 이동과 데이터 반출 비용을 방지할 수 있습니다.

  • 데이터 수명 주기 전반에 걸쳐 통합된 거버넌스 제어를 한 번만 적용하면 됩니다.

Snowpark Connect forApache Spark™ 파트너

글로벌

북미

accenture logo
CAPGEMINI logo
Deloitte logo
Infosys logo
BlueCloud Logo
Infostrux logo
Kipi.ai logo
LTI Mindtree Logo
phData logo
Slalom logo
Tredence logo

Snowpark Connect for Apache Spark

자주 묻는 질문

Snowpark Connect for Apache Spark 및 Snowflake에서 Spark 워크로드 실행을 지원하는 방식에 대해 자주 묻는 질문의 답변을 확인해 보세요.

Snowpark Connect를 사용하면 PySpark 같은 Spark 클라이언트를 통해 Snowflake에 연결하여 최신 Apache Spark DataFrame, Spark SQL 및 UDF 코드를 Snowflake 엔진에서 직접 실행할 수 있습니다. 이를 통해 별도의 Spark 환경을 유지 관리하는 부담을 줄일 수 있습니다.

Snowpark Connect는 모든 작업을 쿼리 푸시다운 방식으로 Snowflake 엔진 내부에서 실행하는 관리형 컴퓨팅 서비스입니다. 따라서 별도의 Spark 클러스터 프로비저닝이 필요 없으며, 데이터 이동과 이에 따른 데이터 송수신 비용도 제거할 수 있습니다. 반면 Spark Connector는 별도의 Spark 클러스터가 필요하고 데이터 전송이 수반되며, 일부 Spark SQL 작업만 푸시다운할 수 있습니다.

Snowpark Connect는 CSV, JSON 및 Parquet 같은 일반적인 파일 포맷을 읽고 쓸 수 있습니다. 또한 Snowflake 네이티브 테이블은 물론, Snowflake 관리형 및 외부 관리형 Apache Iceberg™ 테이블을 사용하는 개방형 레이크하우스의 데이터도 지원합니다. 

 

Snowpark Connect는 클라이언트와 실행 엔진을 분리하는 오픈소스 Spark Connect 프로토콜 기반으로 구축되었습니다. Snowpark Connect는 경량 Spark Connect 서버를 사용해 Spark 논리 계획을 파싱한 뒤 전체 워크로드를 Snowflake 벡터화 엔진으로 푸시다운하여 실행합니다. 즉, 별도의 Spark 클러스터를 실행하지 않아도 되며 모든 연산은 Snowflake 내부에서 처리됩니다.

대부분의 DataFrame 중심 코드는 세션 연결 대상만 Snowflake로 변경하면 그대로 실행할 수 있습니다. 또한 Snowpark Migration Accelerator(SMA)를 사용하면 규모와 관계없이 기존 코드베이스의 호환성을 확인할 수 있습니다.

Spark 워크로드를 Snowflake로 마이그레이션한 고객은 평균적으로 5.1배 더 빠른 성능과 42%의 비용 절감 효과를 경험했습니다.