Erleichterte ML-Entwicklung und -Bereitstellung mit Snowpark ML, Snowflake Notebooks und Snowflake Feature Store
Snowflake hat umfassend investiert, um die Data Cloud auf KI/ML-Workloads ausweiten zu können. Den Beginn machte 2021 die Einführung von Snowpark, einem Set von Bibliotheken und Runtimes in Snowflake, mit denen Python und andere beliebte Programmiersprachen sicher bereitgestellt und verarbeitet werden können.
Seitdem konnten wir eine Vielzahl neuer Möglichkeiten eröffnen, wie die Plattform von Snowflake, einschließlich ihrer elastischen Computing-Engine, verwendet werden kann, um den Weg von der KI/ML-Entwicklung zur Bereitstellung zu beschleunigen. Snowpark profitiert von der Skalierbarkeit und Performance der logisch integrierten, aber physisch getrennten Speicher- und Rechenressourcen von Snowflake. Das ermöglicht unseren Kund:innen eine im Durchschnitt 3,5-mal schnellere Performance und um 34 % niedrigere Kosten bei ihren KI/ML- und Data-Engineering-Anwendungsfällen. Bereits im September 2023 haben wir beobachten können, wie zahlreiche Unternehmen davon profitieren, ihre Daten dort zu verarbeiten, wo sie gespeichert sind. Dabei greifen 35 % der Snowflake-Nutzer:innen mindestens einmal pro Woche auf Snowpark zurück.
Um den gesamten ML-Workflow von der Entwicklung bis zur Produktion weiter zu beschleunigen, wird die Plattform von Snowflake kontinuierlich verbessert, unter anderem mit einer neuen Entwicklungsschnittstelle und größerer Funktionalität zum sicheren Einsatz von Funktionen und Modellen. Sehen wir uns die neuesten Ankündigungen im Detail an!
Interaktives Entwickeln mit SQL und Python in Snowflake Notebooks
Snowflake Notebooks befindet sich derzeit in Private Preview. Es handelt sich dabei um eine neue Entwicklungsschnittstelle, deren interaktive, zellbasierte Programmierumgebung es Python- und SQL-Nutzer:innen ermöglicht, in Snowpark Daten zu entdecken, zu verarbeiten und mit ihnen zu experimentieren. Mit den integrierten Notebooks von Snowflake können Entwickler:innen Code schreiben und ausführen, mit Snowpark ML Modelle trainieren und bereitstellen, mit Diagrammen von Streamlit Ergebnisse visualisieren und vieles mehr – alles innerhalb der einheitlichen und sicheren Plattform von Snowflake. Und da die Notebooks nativ in die rollenbasierten Zugriffskontrollen (RBAC, Role-Based Access Controls) von Snowflake integriert sind, können Code und Ergebnisse einfach und sicher bearbeitet und geteilt werden, ohne dabei Unternehmensdaten einem Risiko auszusetzen. Für Data Science und maschinelles Lernen eröffnet das zellbasierte Layout von Snowflake Notebooks neue Tasks zum Experimentieren und Untersuchen, denn nun können Entwickler:innen an einem einzigen Ort Code schreiben und ausführen, Ergebnisse visualisieren, Notizen erfassen und Erkenntnisse teilen.
Optimieren von KI/ML-Workflows mit der Snowpark ML-Bibliothek
Snowpark ML beinhaltet die Python-Bibliothek und die zugrunde liegende Infrastruktur für End-to-End-ML-Workflows in Snowflake, einschließlich der Snowpark ML Modeling API und der Snowpark ML Operations API. Snowpark ML fasst Datenvorverarbeitung, Feature Engineering, Modelltraining und integrierte Entwicklung zu einer einheitlichen, intuitiv nutzbaren Python-Bibliothek zusammen. Die kürzlich angekündigte Snowpark ML Modeling API (demnächst allgemein verfügbar), ermöglicht den Einsatz beliebter ML-Frameworks wie Scikit-learn und XGBoost für Feature Engineering und Modelltraining, ohne dass Daten aus Snowflake exportiert werden müssen. Dank bekannter Python APIs macht Snowpark ML eine intuitive Modellentwicklung anhand dieser Frameworks möglich. Hinter den Kulissen nutzt Snowpark ML die skalierbare Rechenplattform von Snowflake, um Datenverarbeitungsvorgänge parallel ablaufen zu lassen.
Die Snowpark Model Registry (demnächst in Public Preview) ermöglicht für Snowpark ML Operations die skalierbare und sichere Bereitstellung und Verwaltung von Modellen in Snowflake. Es umfasst außerdem erweiterten Support zur Bereitstellung von Deep-Learning-Modellen von Tensorflow und Pytorch sowie von Open-Source-LLMs von Hugging Face für Snowpark Container Services (zu denen auch GPU-Rechen-Pools gehören). Die Snowpark Model Registry basiert jetzt auf einer nativen Modellentität von Snowflake mit integriertem Versionierungssupport, rollenbasierter Zugriffskontrolle und einer SQL-API, die SQL- und Python-Nutzer:innen optimierte Verwaltungsoptionen bietet.
Speichern, Verwalten und Automatisieren von Feature-Pipelines mit dem Snowflake Feature Store
Beim Snowflake Feature Store (in Private Preview) handelt es sich um eine integrierte Lösung, mit der Data Scientists und ML Engineers ML-Funktionen für Modelltraining und -inferenz entwickeln, speichern, verwalten und bereitstellen können. Es besteht aus Python-APIs, die über die Snowpark ML-Bibliothek verfügbar sind, und SQL-Schnittstellen zum Definieren, Verwalten und Zurückziehen von Funktionen, sowie einer verwalteten Infrastruktur für das Management von Funktionsmetadaten und zur kontinuierlichen Funktionsverarbeitung. Der Snowflake Feature Store gibt ML-Teams Zugriff auf eine stets aktuelle Single Source of Truth für Modelltrainings- und -inferenzfunktionen.
So geht es weiter:
Snowflake erleichtert seinen Kund:innen auch weiterhin die nahtlose und sichere Entwicklung und Bereitstellung von Funktionen und Modellen auf einer einheitlichen Plattform und ermöglicht den Einsatz weiterer KI/ML-Entwicklungen in der Datenverarbeitung. Sehen Sie sich die im Rahmen von Snowday gezeigte Snowpark ML-Demo mit den aktuellen Neuerungen an. Darüber hinaus macht es Snowflake für alle Anwender:innen einfacher, einen Nutzen aus GenAI (generativer KI) zu ziehen. Hier erfahren Sie mehr über die aktuellen Ankündigungen einschließlich Snowflake Cortex, und hier erhalten Sie weitere Informationen zur Entwicklung von LLM-gestützten Erfahrungen mit Snowflake Cortex.
Ressourcen: