Bessere Daten-Pipelines entwickeln: Aufbau und Orchestrierung mit SQL und Python in Snowflake

Datentransformationen sind der Maschinenraum des modernen Datenbetriebs und ermöglichen Innovationen in KI, Analytics und Anwendungen. Als Kernbausteine jeder effektiven Datenstrategie sind diese Transformationen entscheidend für den Aufbau robuster und skalierbarer Daten-Pipelines. Heute freuen wir uns, die neuesten Produktfortschritte in Snowflake für die Entwicklung und Orchestrierung von Daten-Pipelines anzukündigen.

Im schnelllebigen Zeitalter der KI sind Pipelines das Fundament für den Erfolg nachgelagerter Daten. Data Engineers befinden sich damit in einer kritischen Position. Doch viele müssen ständig mit konkurrierenden Prioritäten jonglieren:

Konfiguration und Verwaltung von Rechenressourcen und -infrastruktur
Debugging über verschiedene Stacks hinweg
Nachverfolgung und Reaktion auf Upstream-Datenänderungen
Gewährleistung von Entwicklungsagilität und -sicherheit
Bewältigung komplexer Vorgänge im Zusammenhang mit wachsenden Datenmengen, insbesondere unstrukturierten Daten

An diesen Reibungspunkten glänzt Snowflake in der Vergangenheit. Snowflake konzentriert sich schon seit Jahren darauf, diese Komplexitäten zu reduzieren, und entwickelt eine Plattform, die organisatorische Workflows optimiert und Datenteams in die Lage versetzt, sich auf das zu konzentrieren, was wirklich zählt: die Förderung von Innovation. Indem wir uns tiefer in die Rohdatenebene begeben, um Daten von der Quelle bis zum Bestimmungsort als kuratierte Datasets zu hirten, ermöglichen wir es Data Engineers, sich nicht mehr durch betriebliche Gemeinkosten blockieren zu lassen, sondern zu Innovationstreibern zu werden.

Um dies zu erreichen, kündigen wir neue und verbesserte Funktionen an, die komplexe Workflows in der gesamten Data-Engineering-Landschaft vereinfachen – von SQL-Workflows, die die Zusammenarbeit unterstützen, bis hin zu komplexeren Pipelines in Python.

Figure 1: Snowflake supports building data pipelines with both SQL and Python transformations, as well as flexible orchestration options to streamline the data lifecycle and support a wide range of use cases and data engineering personas.

Zugängliche Daten-Pipelines in SQL

Für viele Unternehmen bieten SQL-Pipelines den am besten zugänglichen Einstieg in die Datentransformation, wodurch eine größere Bandbreite von Teammitgliedern, wie z. B. Datenanalyst:innen, unterstützt und somit Data Engineers entlastet werden. Die Modularität dieser Pipelines, die von Nutzenden mit unterschiedlichen SQL-Kenntnissen entwickelt werden können, ermöglicht die skalierbare und zuverlässige Ausführung von Hunderten von Workflows. Dieser demokratisierte Ansatz trägt dazu bei, eine starke und anpassungsfähige Grundlage zu schaffen.

Vorstellung von dbt Projects on Snowflake (demnächst in Public Preview)

Datenteams auf der ganzen Welt lieben dbt, weil es bewährte Software-Engineering-Praktiken und -Effizienz in die Datentransformations-Workflows von SQL und Snowpark in ihren Data Warehouses integriert. Durch die Integration von dbt direkt in die Automatisierung und verwalteten Dienste von Snowflake können sich Data Engineers nun auf die Entwicklung, Bereitstellung und Überwachung dieser Pipelines konzentrieren, anstatt die Infrastruktur zu verwalten oder die Beobachtbarkeit über mehrere Systeme hinweg zusammenzuführen.

Snowflake-Benutzer:innen können nun dbt-Projekte nahtlos nativ in Snowflake (Public Preview) innerhalb einer neuen Workspaces-Oberfläche erstellen, hochladen, bearbeiten und ausführen. Diese native Integration optimiert die Entwicklung und beschleunigt die Bereitstellung transformierter Daten.

Updates für Dynamic Tables

Dynamic Tables bietet ein deklaratives Verarbeitungsframework für Batch- und Streaming-Pipelines. Dieser Ansatz vereinfacht die Konfiguration der Pipeline und bietet automatische Orchestrierung und kontinuierliche, inkrementelle Datenverarbeitung. Benutzer:innen erhalten umfassende Einblicke durch DAG-Visualisierung, erhalten Echtzeit-Benachrichtigungen und profitieren von integrierten Datenqualitätsfunktionen, was zu einem effizienteren und zuverlässigeren Daten-Pipeline-Management führt. Updates umfassen:

Unterstützung für Apache Iceberg (jetzt allgemein verfügbar): Dynamic Tables enthält jetzt erweiterte Funktionen mit Unterstützung für offene Tabellenformate, einschließlich Apache Iceberg. Benutzer:innen können Batch- und Stream-Verarbeitungs-Pipelines auf Apache Iceberg™-Tabellen (mit Snowflake oder einem externen Katalog) mit deklarativen Definitionen, automatischer Orchestrierung und inkrementeller Verarbeitung erstellen. Die resultierenden Daten können von jeder Iceberg-Engine abgefragt werden.
Niedrigere Latenz (Private Preview): Erstellen Sie Echtzeit-Pipelines mit einer End-to-End-Latenz (von der Erfassung bis zur Umwandlung) von ~15 Sekunden.
Performance-Verbesserungen (allgemein verfügbar): Nutzen Sie verbesserte inkrementelle Aktualisierungen von OUTER JOINs, QUALIFY RANK () = 1, Fensterfunktionen und Clustertabellen sowie neue inkrementelle Optimierungen für CURRENT_TIMESTAMP und IS_ROLE_IN_SESSION.
Definieren von Vollständigkeit (allgemein verfügbar): Neue SQL-Erweiterungen – IMMUTABLE WHERE und INSERT ONLY – bieten mehr Kontrolle über die Vollständigkeit der Daten. So können Benutzer:innen Aktualisierungen oder Löschungen verhindern, Datenänderungen aufgrund von Bedingungen einschränken und Daten aus bestehenden Pipelines für Migrationen backfillen.

Python-Entwicklung auf Unternehmensstandard

Snowpark ermöglicht die Python-Entwicklung für Unternehmen zur Erstellung und Skalierung von Daten-Pipelines direkt in Snowflake. Mithilfe der vertrauten Python-Syntax und pandas DataFrames können komplexe Transformationen nahtlos mithilfe unserer elastischen Engine ausgeführt werden, wodurch Datenbewegungen eliminiert werden, um eine effiziente, groß angelegte Datenverarbeitung zu ermöglichen. Snowpark erfüllt die wachsenden Datenmengen und Verarbeitungsanforderungen ohne Infrastrukturaufwand und bietet eine leistungsstarke und skalierbare Python-Lösung.

Updates von pandas on Snowflake

pandas on Snowflake integriert die Flexibilität von pandas mit der Skalierbarkeit von Snowflake und vereinfacht so die Entwicklung robuster Python-Daten-Pipelines. Benutzer:innen können jetzt:

Mit verschiedenen Datenquellen integrieren, einschließlich Zugriff auf Snowflake-Tabellen, Ansichten, Iceberg Tables, Dynamic Tables und gängige Dateiformate (CSV, Parquet, Excel, XML)
pandas-Pipelines entwickeln, die von ersten Prototypen bis hin zu vollständigen Produktionsbereitstellungen ohne Codeänderungen skaliert werden können
Die vertraute pandas-Syntax nutzen, um die analytischen Funktionen von Snowflake für flexible Datentransformation zu nutzen, einschließlich Snowflake Cortex AI LLM-Funktionen zur Entwicklung KI-gestützter Workflows

Mit pandas on Snowflake können Entwickler:innen End-to-End-Python-Daten-Pipelines erstellen, indem sie aus einer Iceberg-Tabelle lesen, Daten mit Pandas umwandeln und die resultierende Pipeline als dynamische Iceberg-Tabelle speichern.

Ein weiteres neues Update, pandas on Snowflake mit Hybrid Execution (Private Preview), unterstützt pandas-Pipelines über alle Datenskalen hinweg. Diese innovative neue Funktion bestimmt auf intelligente Weise das optimale Backend für die Ausführung Ihrer pandas-Abfragen – entweder durch Drücken auf Snowflake für große Datasets oder im Speicher mit Standard-pandas, um schnelle interaktive Tests und Entwicklungen zu unterstützen.

Figure 2: Hybrid execution for pandas on Snowflake intelligently determines whether to run queries by pushing down to Snowflake or locally in-memory with vanilla pandas.

Snowpark-Updates

Snowpark beschleunigt die Datenentwicklung, indem es die Datentransformation mit Python und anderen Sprachen in Snowflake ermöglicht. Diese Erweiterbarkeit ist eng mit der Sicherheit und Skalierbarkeit der Plattform von Snowflake integriert, sodass Entwickler:innen vertraute Tools ohne Datenverschiebung oder separate Infrastrukturverwaltung verwenden können.

Dank der Snowpark-Ausführung konnten Kunden im Vergleich zu herkömmlichen Spark-Lösungen im Durchschnitt eine 5,6-mal schnellere Performance und 41 % Kosteneinsparungen erzielen. ^[1]

Snowpark bietet nun erweiterte Funktionen für die sichere und effiziente Übertragung von Code auf Daten über verschiedene Sprachen hinweg, mit erweiterter Unterstützung für Datenintegration, Paketmanagement und sichere Konnektivität. Updates umfassen:

Datenintegration: Dank Python DB-API Support (Private Preview) können Entwickler:innen jetzt mit Snowpark Daten aus externen relationalen Datenbanken direkt in Snowflake ziehen. Python XML RowTag Reader (Private Preview) ermöglicht das Laden großer, verschachtelter XML-Dateien mit einer einfachen rowTag-Option. Benutzer:innen können nur die relevanten Teile eines XML-Dokuments erfassen und erhalten strukturierte tabellarische Ausgaben für die nachfolgende Verarbeitung.
Paketmanagement: Mit Artifact Repository (allgemein verfügbar) vereinfachen wir dank unserer flexiblen Paketunterstützung die Paketverwaltung, um Pakete ganz einfach von PyPI in Snowpark User-Defined Functions (UDFs) und Stored Procedures herunterzuladen und zu installieren. Für diejenigen mit benutzerdefinierten Paketen können Sie jetzt Pakete mit nativem Code hochladen und als Teil Ihrer UDFs oder Stored Procedures importieren.
Dateischreiben aus Python UD(T)F (jetzt allgemein verfügbar): Die Einführung dieser Funktion erweitert die Gesamtfunktionen von Snowpark für Data-Engineering-Anwendungsfälle, insbesondere dort, wo paralleles Schreiben benutzerdefinierter Dateien mit UDFs erforderlich ist. Solche Beispiele umfassen das Schreiben benutzerdefinierter Dateien (z. B. Modelldateien, unstrukturierte Dateien wie PDFs und Bilder oder semistrukturierte Dateien wie JSON) von Funktion zu Stages und das Transformieren von Dateien als Teil von Daten-Pipelines auf der Stage. Jetzt können Sie zeilenorientierte avro-Dateien in JSON-Dateien umwandeln und große Dateien in kleinere Dateien aufteilen, die als Teil nachgelagerter Anwendungen verwendet werden können.

Wir haben den Zugriff auf externe Datenquellen und Endpunkte aus Snowpark mit Funktionen erleichtert, wie z. B. Unterstützung für Platzhalter in Netzwerkregeln, Unterstützung für den Zugriff auf alle Endpunkte in Netzwerkregeln und Integration mit AWS IAM zur Vereinfachung der Konnektivität mit AWS-Ressourcen. Darüber hinaus ist External Access Outbound Private Connectivity jetzt in weiteren Regionen verfügbar, darunter AWS Gov (allgemein verfügbar), Azure Gov (allgemein verfügbar) und Google Cloud Platform (Private Preview).

Automatisierung von Pipelines

Automatisierte Orchestrierung ist in Transformationsworkflows mit Funktionen wie Dynamic Tables eingebettet, wobei zusätzliche native Unterstützung mithilfe von Snowflake Tasks bereitgestellt wird, um ein zuverlässiges und skalierbares Framework für eine einheitliche Ausführung ohne den betrieblichen Overhead zu bieten.

Updates von Tasks und Serverless Tasks

Snowflake Tasks und Serverless Tasks glänzen mit Orchestrierung, da Sie komplexe Workflows als eine Reihe von abhängigen SQL-Anweisungen oder Python-Code definieren können, die direkt in Snowflake ausgeführt werden, wodurch externe Orchestrierungstools entfallen. Diese enge Integration vereinfacht die Verwaltung und nutzt die robusten Rechenressourcen von Snowflake für eine zuverlässige und kostengünstige Automatisierung. Im Laufe des letzten Jahres haben wir diese nativen Orchestrierungsfunktionen kontinuierlich verbessert, darunter:

Task Graph Erweiterungen: Definieren Sie umfassendere Workflows zur Modellierung von Daten-Pipelines mit neuen Ansichten und Benachrichtigungen. Sie können nun Benachrichtigungen an Cloud-Messaging-Dienste senden, wenn ein Task-Graph erfolgreich abgeschlossen wurde (der Downstream-Aktionen auslösen kann), und sich die Graphdarstellung der Task-Ausführungsabhängigkeiten mit Metadateninformationen für Tasks anzeigen lassen.
Ausgelöste Tasks: Führen Sie Tasks sofort aus, wenn neue Daten in Quelltabellen mit ereignisbasierter Verarbeitung für SQL und Snowpark eintreffen. Sie können nun auch einen Task erstellen, ohne einen Zeitplan oder ein virtuelles Warehouse angeben zu müssen. Darüber hinaus können Sie Tasks automatisch ausführen, wenn Daten von einem Data Share oder in Verzeichnistabellen eintreffen (zusätzlich zur vorherigen Unterstützung für Tabellen, Ansichten, Dynamic Tables und Iceberg).
Taskplaner mit niedriger Latenz: Orchestrieren Sie zuverlässig Daten-Pipelines mit 10-Sekunden-Zeitplänen, um Daten häufig zu verarbeiten.
Optimierung und Governance-Kontrollen: Kontrolle für Kosten- und Performanceoptimierungen bei Serverless Tasks.
Tasks in Snowsight bearbeiten: Bearbeiten Sie vorhandene Tasks aus dem Aktionsmenü, um Zeitplan, Rechenressourcen, Parameter oder Kommentare zu ändern.
Automatisierung von Python/JVM: Automatisieren Sie UDFs (Python/JVM) und Stored Procedures mit Serverless Tasks.

Eine umfassendere Pipeline-Erfahrung mit Snowflake

Snowflake entwickelt sich kontinuierlich zur zentralen Engine für moderne Datenoperationen und bietet eine umfassende Suite von Tools, mit denen Daten-Pipelines einfach und effizient erstellt und orchestriert werden können. Von der Verfügbarkeit von SQL und der Leistung von dbt bis hin zur Flexibilität von Python durch Snowpark und pandas ermöglichen diese neuesten Fortschritte es Data Engineers, betriebliche Komplexitäten zu überwinden und sich auf die Förderung von Innovationen zu konzentrieren. Durch die Annäherung von Code an Daten, die Optimierung von Workflows und die Verbesserung der Performance über verschiedene Anwendungsfälle und Skillsets hinweg hat sich Snowflake zum Ziel gesetzt, Datenteams in die Lage zu versetzen, das volle Potenzial ihrer Daten in der schnelllebigen, KI-basierten Landschaft von heute zu erschließen.

Wenn Sie mehr über diese Funktionen und mehr erfahren möchten, seien Sie dabei am 29. Juli 2025 bei Data Engineering Connect.

Zukunftsgerichtete Aussagen:

Dieser Artikel enthält zukunftsgerichtete Aussagen, unter anderem über künftige Produktangebote. Diese Aussagen stellen keine Garantie dar, dass diese Angebote wirklich bereitgestellt werden. Die tatsächlichen Ergebnisse und Angebote können abweichen und unterliegen bekannten und unbekannten Risiken und Unsicherheiten. Weitere Informationen finden Sie in unserem jüngsten 10-Q-Formular.

¹ Basierend auf Produktions-Anwendungsfällen von Kunden und Proof-of-Concept-Projekten, in denen die Geschwindigkeit und die Kosten von Snowpark im Vergleich zu verwalteten Spark-Services zwischen November 2022 und Mai 2025 verglichen werden. Alle Ergebnisse basieren auf tatsächlichen Kundenergebnissen mit realen Daten und repräsentieren keine fiktiven, als Benchmarks verwendeten Datasets.