문서
설명서
Snowpark Connect for Apache Spark™ 기능 설명서
기능
운영 부담 없이 더 빠른 성능과 더 낮은 비용을 제공하는 Snowpark Connect for Apache Spark™를 선택하세요.
확장성을 고려해 설계된 벡터화 엔진을 기반으로, 복잡한 Spark 워크로드를 관리형 Spark 제공업체 대비 평균 5.1배 더 빠르게 실행할 수 있습니다.#
완전관리형 환경을 통해 클러스터 프로비저닝 부담과 데이터 이동 비용을 줄일 수 있습니다.
Spark 클러스터를 프로비저닝하고 튜닝하는 운영 부담을 줄이고, 인프라 관리 대신 고부가가치 데이터 제품 구축에 엔지니어링 역량을 집중할 수 있습니다.
이점
Spark를 네이티브 방식으로 실행
Snowpark Connect는 오픈소스 Spark Connect 프로토콜을 활용해 워크로드를 Snowflake 내부로 푸시다운하여 네이티브 방식으로 실행합니다. 기존 Spark 코드를 그대로 유지하면서도 복잡한 ETL 작업에서 평균 42% 비용 절감과 5.1배 더 빠른 성능을 실현합니다.#


기존 워크로드 연결
워크로드에서 외부 Spark 환경이나 기존 API(RDD 및 MLlib 포함)가 필요한 경우, Snowflake Connector for Spark가 고성능 브리지 역할을 합니다. 데이터 전송 과정에서도 Snowflake의 보안 및 거버넌스 정책이 계속 적용됩니다.
사용 중인 도구 그대로 활용
Jupyter Notebooks, VS Code 및 Apache Airflow™ 같은 익숙한 환경에서 Spark 클라이언트를 연결해 Spark 작업을 실행할 수 있습니다.


인플레이스 데이터 처리
비용이 많이 드는 데이터 이동과 데이터 반출 비용을 방지할 수 있습니다.
데이터 수명 주기 전반에 걸쳐 통합된 거버넌스 제어를 한 번만 적용하면 됩니다.
Snowpark Connect for Apache Spark
Snowpark Connect for Apache Spark 및 Snowflake에서 Spark 워크로드 실행을 지원하는 방식에 대해 자주 묻는 질문의 답변을 확인해 보세요.
Snowpark Connect를 사용하면 PySpark 같은 Spark 클라이언트를 통해 Snowflake에 연결하여 최신 Apache Spark DataFrame, Spark SQL 및 UDF 코드를 Snowflake 엔진에서 직접 실행할 수 있습니다. 이를 통해 별도의 Spark 환경을 유지 관리하는 부담을 줄일 수 있습니다.
Snowpark Connect는 모든 작업을 쿼리 푸시다운 방식으로 Snowflake 엔진 내부에서 실행하는 관리형 컴퓨팅 서비스입니다. 따라서 별도의 Spark 클러스터 프로비저닝이 필요 없으며, 데이터 이동과 이에 따른 데이터 송수신 비용도 제거할 수 있습니다. 반면 Spark Connector는 별도의 Spark 클러스터가 필요하고 데이터 전송이 수반되며, 일부 Spark SQL 작업만 푸시다운할 수 있습니다.
Snowpark Connect는 CSV, JSON 및 Parquet 같은 일반적인 파일 포맷을 읽고 쓸 수 있습니다. 또한 Snowflake 네이티브 테이블은 물론, Snowflake 관리형 및 외부 관리형 Apache Iceberg™ 테이블을 사용하는 개방형 레이크하우스의 데이터도 지원합니다.
Snowpark Connect는 클라이언트와 실행 엔진을 분리하는 오픈소스 Spark Connect 프로토콜 기반으로 구축되었습니다. Snowpark Connect는 경량 Spark Connect 서버를 사용해 Spark 논리 계획을 파싱한 뒤 전체 워크로드를 Snowflake 벡터화 엔진으로 푸시다운하여 실행합니다. 즉, 별도의 Spark 클러스터를 실행하지 않아도 되며 모든 연산은 Snowflake 내부에서 처리됩니다.
대부분의 DataFrame 중심 코드는 세션 연결 대상만 Snowflake로 변경하면 그대로 실행할 수 있습니다. 또한 Snowpark Migration Accelerator(SMA)를 사용하면 규모와 관계없이 기존 코드베이스의 호환성을 확인할 수 있습니다.
Spark 워크로드를 Snowflake로 마이그레이션한 고객은 평균적으로 5.1배 더 빠른 성능과 42%의 비용 절감 효과를 경험했습니다.