Barc Data Fabric Survey 2026 - Results for Snowflake

Funktion

Apache Sparkauf Snowflake

Setzen Sie auf Snowpark Connect for Apache Spark™ – für maximale Performance und geringere Kosten ohne zusätzlichen Betriebsaufwand.

demo ansehen
time icon

Schnellere Workloads im Produktiveinsatz

Ihre komplexen Spark-Workloads werden im Durchschnitt 5,1-mal schneller# ausgeführt als bei anderen Managed Spark-Anbietern – dank einer vektorisierten Engine, die speziell auf Skalierbarkeit ausgelegt ist.

cost savings icon

Senkung der Gesamtbetriebskosten (TCO)

Sparen Sie sich die Cluster-Bereitstellung und vermeiden Sie teure Datenverschiebungen – dank einer vollständig verwalteten Umgebung.

consolidate icon

Minimierung des Betriebsaufwands

Entlasten Sie Ihr Team von der aufwendigen Bereitstellung und Optimierung von Spark-Clustern. Fokussieren Sie Ihre Engineering-Ressourcen lieber auf wertschöpfende Datenprodukte statt auf das Infrastrukturmanagement.

Vorteile

Die volle Leistung von Snowflake, Jetzt für Ihren Apache Spark™-Code

NATIVE AUSFÜHRUNG VON SPARK

Beschleunigung von Spark-Pipelines mit Snowpark Connect

  • Führen Sie Spark-DataFrames, SQL und UDFs direkt auf der vektorisierten Engine von Snowflake aus – ganz ohne Bereitstellung oder Verwaltung externer Spark-Cluster. 
  • Snowpark Connect nutzt das Open-Source-Protokoll Spark Connect, um Workloads nativ direkt in Snowflake zu verarbeiten. Dadurch erzielen Sie im Durchschnitt 42 % Kosteneinsparungen bei komplexen ETL-Aufgaben und eine 5,1-mal schnellere# Performance – ohne Ihren bestehenden Spark-Code ändern zu müssen.

snowpark connect diagram
snowflake spark interaction diagram

ANBINDUNG BESTEHENDER WORKLOADS

Integration externer Spark-Cluster

 

Wenn Ihre Workloads auf externe Spark-Umgebungen oder bestehende APIs (einschließlich RDDs und MLlib) angewiesen sind, bietet der Snowflake Connector for Spark eine leistungsstarke Brücke. Sämtliche Sicherheits- und Governance-Kontrollen von Snowflake greifen nahtlos auch bei dieser Datenübertragung.

NUTZUNG GEWOHNTER TOOLS

Nahtloses Arbeiten in vertrauten Umgebungen

  • Verbinden Sie Ihren Spark-Client mit Ihren bevorzugten Umgebungen wie Jupyter Notebooks, VS Code und Apache Airflow™, um Spark-Jobs mühelos auszuführen. 

  • Zudem lassen sich Workloads direkt in Snowflake Notebooks sowie über Spark Submit starten.
snowpark connect for apache spark diagram
enterprise lakehouse

IN-PLACE-DATENVERARBEITUNG

Spark-Ausführung direkt dort, wo Ihre Daten gespeichert sind

  • Führen Sie Spark-Code direkt in nativen Snowflake-Tabellen oder interoperablen Lakehouse-Formaten wie Apache Iceberg™ aus.
  • Vermeiden Sie kostspielige Datenverschiebungen und teure Egress-Gebühren. 

  • Wenden Sie einheitliche Governance-Kontrollen ein einziges Mal auf Ihren gesamten Datenlebenszyklus an.

PARTNER: SNOWPARK CONNECTfor Apache Spark™

Weltweit

Nordamerika

accenture logo
CAPGEMINI logo
Deloitte logo
Infosys logo
BlueCloud Logo
Infostrux logo
Kipi.ai logo
LTI Mindtree Logo
phData logo
Slalom logo
Tredence logo

SNOWPARK CONNECT FOR APACHE SPARK

Häufig gestellte Fragen

Hier finden Sie Antworten auf häufig gestellte Fragen zu Snowpark Connect for Apache Spark und erfahren, wie Sie Ihre Spark-Workloads auf Snowflake ausführen.

Mit Snowpark Connect können Sie Spark-Clients (wie PySpark) verwenden, um eine Verbindung mit Snowflake herzustellen und modernen Apache Spark DataFrame-, Spark SQL- und UDF-Code direkt mit der Snowflake-Engine auszuführen. Dadurch reduziert sich der Betriebsaufwand für separate Spark-Umgebungen deutlich.

Snowpark Connect ist eine vollständig verwaltete Compute-Lösung, die alle Operationen innerhalb der Snowflake-Engine per Query-Pushdown ausführt. Dadurch entfallen die Bereitstellung separater Spark-Cluster, teure Datenverschiebungen sowie die damit verbundenen Egress-/Ingress-Kosten. Spark Connector erfordert dagegen ein separates Spark-Cluster, bringt Datenübertragungen mit sich und unterstützt Pushdowns nur für eine Teilmenge der Spark-SQL-Operationen.

Snowpark Connect kann gängige Dateiformate wie CSV, JSON und Parquet lesen und schreiben. Die Lösung unterstützt Daten direkt in nativen Snowflake-Tabellen sowie in einem Open Lakehouse über von Snowflake verwaltete oder extern verwaltete Apache Iceberg™-Tabellen.

Snowpark Connect basiert auf dem Open-Source-Protokoll Spark Connect, das den Client von der Execution-Engine trennt. Die Lösung nutzt einen schlanken Spark Connect-Server, um den logischen Spark-Plan zu analysieren, und führt anschließend einen Pushdown des gesamten Workloads auf die vektorisierte Snowflake-Engine zur Ausführung durch. Sie müssen also keinen eigenen Spark-Cluster betreiben – die gesamte Verarbeitung erfolgt direkt in Snowflake.

Der Großteil des Codes für DataFrame-Operationen funktioniert direkt, indem die Session einfach auf Snowflake umgestellt wird. Mit dem Snowpark Migration Accelerator (SMA) können Sie zudem die Kompatibilität von Codebasen jeder Größenordnung analysieren.

Kunden, die ihre Spark-Workloads auf Snowflake migrieren, erzielen im Durchschnitt eine 5,1-mal schnellere Performance und 42 % Kosteneinsparungen.