Schnellere und bessere Entscheidungen dank der ML-gestützten Funktionen von Snowflake
Datenanalyst:innen stehen vor komplexen Herausforderungen. Um mit dem explosionsartigen Wachstum der Daten in ihrem Unternehmen Schritt zu halten, müssen sie den Arbeitsaufwand für die Gewinnung präziser Erkenntnisse mit der Notwendigkeit, schnelle Entscheidungen zu treffen, in Einklang bringen.
Damit Anomalien schnell verstanden und erklärt werden können, ist es notwendig, tief in die Daten einzutauchen, was viel Zeit und Mühe kostet. Bereits vorhandene Tools für übliche Analysen sind nicht immer in der Lage, die täglich anfallenden Datenvolumen zu verarbeiten. Doch dies ist nicht die einzige Schwierigkeit, mit der Analyst:innen konfrontiert sind. Zugleich müssen sie Sorge dafür tragen, dass die für komplexe Analysen verwendeten Daten sicher verarbeitet werden.
Einige dieser Schwierigkeiten lassen sich durch Algorithmen lösen, die auf maschinellem Lernen (ML) basieren. Mangelnde Kenntnisse bei Programmierung und Data Science sowie eine komplexe Datenverarbeitungsinfrastruktur hindern Analyst:innen jedoch daran, ML zu nutzen.
Wir bei Snowflake sind davon überzeugt, dass Analyst:innen die Vorteile von ML nutzen können – wenn es uns gelingt, einen Teil der Komplexität von ML-Frameworks zu abstrahieren.
Aus diesem Grund haben wir beim Summit 2023 verschiedene ML-gestützte Funktionen als Public Preview vorgestellt: Diese vertrauten SQL-Funktionen verwenden ML, um fundierte Entscheidungen von Analyst:innen zu beschleunigen. In diesem Blog zeigen wir Ihnen Schritt für Schritt, wie das mithilfe dieser ML-gestützten Funktionen gelingt.
Prognosen
Analyst:innen können ab sofort mit der neuen Forecasting-Funktion genauere Zeitreihenprognosen mit automatischer Behandlung von Saisonalität, Skalierung und mehr erstellen.
Mithilfe dieser Funktion können Analyst:innen ML-Modelle trainieren, die sich immer wieder zur Erstellung von Prognosen verwenden lassen. Mit Forecasting können sowohl einzelne prognostizierte Schätzungen als auch eine Spanne von Schätzungen, die als Prognoseintervalle bezeichnet werden, erstellt werden. Dabei wird eine wahrscheinliche Spanne aufgezeigt, innerhalb derer die Prognosen voraussichtlich liegen werden.
Diese Funktion erleichtert die Arbeit von Analyst:innen, die zum Beispiel zukünftige Umsätze prognostizieren möchten und an genauen Prognosen der Umsatzvolumen in den einzelnen Filialen interessiert sind, ohne hierfür das Data-Science-Team zu Rate ziehen zu müssen.
Mit Forecasting können Analyst:innen Prognosen für einzelne Zeitreihen oder verschiedene Kategorien innerhalb einzelner Zeitreihen generieren. Im Handel können Sie zum Beispiel nicht nur den Gesamtabsatz eines Artikels für alle Filialen prognostizieren, sondern auch den Absatz pro Filiale. Mit dieser Forecasting-Funktion können Sie eine höhere Granularität für jede Prognose festlegen – mit nur einer zusätzlichen, einfachen Codezeile.
Die Qualität der Prognosen lässt sich weiter verbessern, wenn Sie exogene Variablen einbeziehen – unabhängig davon, ob es sich um numerische oder kategoriale Variablen handelt. Wenn Sie beispielsweise wissen, dass sich Feiertage stark auf Ihre Handelsumsätze auswirken, lässt sich die Genauigkeit Ihrer Prognosen verbessern, wenn Sie Feiertage als exogene Variable einbeziehen.
Mit der Forecasting-Funktion können Sie auch Prognosen für benutzerdefinierte Zeithorizonte erstellen, z. B. 4 Stunden, 1 Tag oder 7 Tage. Dank dieser Flexibilität können Sie maßgeschneiderte Prognosen für Ihren spezifischen Bedarf und Ihre Zeithorizonte erstellen, ohne dabei auf die Hilfe des Data-Science-Teams angewiesen zu sein.
Erkennung von Anomalien
Wie wäre es, wenn Analyst:innen mithilfe von ML Ausreißer erkennen und Warnmeldungen auslösen könnten? Mit der neuen Funktion Anomaly Detection ist das jetzt möglich. Analyst:innen können damit auch Ausreißer-Ereignisse ermitteln, die bezüglich verdächtiger Aktivitäten untersucht werden sollten. Außerdem können Situationen mit einer geringen Wiederholungswahrscheinlichkeit ermittelt und aus zukünftigen Analysen ausgeschlossen werden.
Anomaly Detection prognostiziert Anomalien für eine einzelne Zeitreihe oder mehrere Kategorien innerhalb einer Zeitreihe. Diese ML-gestützte Methode zur Erkennung von Anomalien ist dann hilfreich, wenn Sie anstelle statischer Schwellenwerte zur Ermittlung von Ausreißern auf ein Modell setzen möchten, das eine intelligente, dynamische Baseline für Ihre Daten erstellt.
Um sicherzustellen, dass die Anzahl der falsch-positiven Ergebnisse dieser Funktion kontrollierbar bleibt, können Sie mit dieser Funktion die Größe des Prognoseintervalls anpassen, das zur Kennzeichnung von Anomalien verwendet wird. Sie können dann mithilfe von Snowflake Tasks und Alerts automatisch benachrichtigt werden, wenn eine Anomalie gekennzeichnet wird, wie unten gezeigt.
Contribution Explorer
Analyst:innen können ab sofort mithilfe von ML ohne Zeitverzug die Dimensionen identifizieren, die zur Veränderung einer gegebenen Kennzahl über zwei unterschiedliche benutzerdefinierte Zeitintervalle beitragen. Wenn Sie eine Anomalie bei einer wichtigen Geschäftskennzahl wie dem Umsatz oder der Nutzung feststellen, möchten Sie erfahren, welche Faktoren zu dieser Anomalie beitragen und die Grundursache dafür finden. Contribution Explorer untersucht Millionen Kombinationen von Dimensionen und ihren Werten, um die ungewöhnlichsten Dimensionen und zugehörigen Werte – auch als „Segmente“ bezeichnet – zu ermitteln. Sie erkennen zum Beispiel, dass ein bestimmter Kunde in einer bestimmten Region plötzlich aufgehört hat, Ihr Produkt zu benutzen.
Sie können mit dem Contribution Explorer auch regelmäßig die Kennzahlen analysieren, um verborgene Informationen zu finden – selbst wenn es auf der aggregierten Ebene keine offensichtlichen Anomalien gibt. So kann zum Beispiel der Gesamtumsatz unauffällig sein, jedoch kann der Umsatz des einen Kunden gestiegen, der eines anderen Kunden gleichzeitig gesunken sein.
Was macht die ML-gestützten Funktionen von Snowflake so einzigartig?
Elastizität, geringer Betriebsaufwand, Data Governance und mehr
Bei Nutzung der ML-gestützten Funktionen von Snowflake ist es ein Kinderspiel, zwischen einer und mehreren Millionen von Dimension-Wert-Kombinationen zu skalieren. Möglich gemacht wird dies durch die Elastizität und den geringen Betriebsaufwand der Engine von Snowflake. Außerdem können Sie Aufrufe an Forecasting, Anomaly Detection und Contribution Explorer genauso wie jede andere SQL-Funktion in Ihre Daten-Pipelines integrieren. Mit diesen Funktionen in Verbindung mit Snowflake Tasks und Alerts können Sie jede Woche automatisch neue Modelle trainieren, wenn Sie neue Daten erhalten, täglich oder stündlich (je nach Bedarf) Prognosen erstellen und Warnungen erhalten, wenn eine Anomalie entdeckt wurde und Sie diese untersuchen sollten.
Unabhängig davon, wie Sie die ML-gestützten Funktionen nutzen, Sie profitieren von der konsequenten Data Governance von Snowflake für alle Funktionsinputs und -outputs.
Bandbreite der ML-Funktionen
ML-gestützte Funktionen sind die perfekte Ergänzung zu den auf Data Science ausgerichteten Snowpark ML-Funktionen. Erstere übernehmen das Modelltraining, die Auswertung und vieles mehr mit minimalem Aufwand für Analyst:innen oder vielbeschäftigte Entscheidungsträger:innen, während letztere ein umfangreiches und flexibles Instrumentarium für Data Scientists bereitstellen, mit dem sie ihre eigenen Modelle entwickeln können.
Gemeinsam eröffnen sie eine Reihe von Möglichkeiten, aus denen Sie je nach Art des Problems und dem Data-Science-Aufwand, den Sie zur Lösung des Problems einsetzen möchten, wählen können.
Gewinnung von Erkenntnissen für maschinelles Lernen aus BI-Tools wie Sigma
Wir sind besonders glücklich über die Partnerschaft mit Sigma, einem BI-Tool, das die ML-gestützten Funktionen von Snowflake unterstützt und eine benutzerfreundliche Oberfläche für geschäftliche Benutzer:innen bietet, um Erkenntnisse aus ML zu gewinnen. Die Lösung bietet Frontend-Unterstützung für das Time Series Forecasting und den Contribution Explorer von Snowflake.
Durch Aktivierung dieser Funktionen in Ihrem Snowflake-Konto und Gewährung des Zugriffs für die Sigma-Rolle können Sie die Sigma-Datasets als einen vereinfachten Ausgangspunkt für tabellarische und visuelle Analysen nutzen. Wenn Sie Time Series Forecasting oder den Contribution Explorer nutzen möchten, identifizieren Sie die gewünschte Tabelle oder das gewünschten Dataset, gruppieren Sie die Daten auf der Grundlage der benötigten Granularität und erstellen Sie aggregierte Kennzahlen für die Exploration. Bereiten Sie die Tabelle vor, erstellen Sie eine Warehouse-Ansicht, definieren Sie mithilfe von CustomSQL ein Dataset und wenden Sie die entsprechende Funktion mithilfe der bereitgestellten Syntax an.
Time Series Forecasting gibt eine Reihe von zeitbasierten Prognosen aus. Contribution Explorer liefert eine sortierte Liste der Segmente, die am meisten zum Wachstum der Schlüsselkennzahl beigetragen haben. Beide Datasets lassen sich nahtlos in Workbooks integrieren und ermöglichen so die Visualisierung, Untersuchung und Verknüpfung mit anderen Warehouse-Tabellen. Zur Verbesserung der Interaktivität können Sie statische Variablen in Custom SQL durch Parameter ersetzen, damit die Benutzer:innen die Funktionen innerhalb des Workbooks ändern können.
Prognosen
Contribution Explorer
Dieses Dataset kann nahtlos in jedem Workbook verwendet werden und bietet eine einfache Möglichkeit zur Visualisierung, Untersuchung und Verknüpfung mit anderen Tabellen in Ihrem Warehouse. So erhalten Sie ein umfassendes Verständnis der erwarteten zukünftigen Kennzahlen – probieren Sie es selbst aus.
Der nächste Schritt
Dank dem Feedback unserer Erstanwender konnten wir die oben genannten Funktionen weiterentwickeln und den Funktionsumfang auf neue und interessante Weise erweitern. Der Ausgangspunkt für die Erkennung von Anomalien und den Contribution Explorer sind Zeitreihendaten, aber das ist bei weitem nicht alles. Diese Funktionen können auch auf andere Daten angewendet werden – um Ausreißer unter den Kunden zu finden oder um Nutzerkohorten zu vergleichen und die interessantesten Segmente zu finden, die zu den Unterschieden zwischen den Kohorten beitragen. Wir arbeiten sogar schon daran, die Daten, die von ML-gestützten Funktionen unterstützt werden, zu erweitern.
Bei der Weiterentwicklung dieser Funktionen fokussieren wir uns auf ausgewählte Kunden, die wir befragen und um Feedback bitten. Damit Sie keine unserer Neuentwicklungen verpassen, wenden Sie sich bitte an Ihre Account-Teams, um bei Verfügbarkeit Zugang zu den zukünftigen Previews zu erhalten. Und bitte veröffentlichen Sie Ihre Anwendungsfälle hier. Die Zukunft der Möglichkeiten von ML ist nahezu grenzenlos – deshalb planen wir, die Möglichkeiten der ML-gestützten Funktionen zu erweitern. Wir wollen, dass Sie bessere Geschäftsergebnisse erzielen können, ohne mit der rasanten Entwicklung der ML-Forschung Schritt halten zu müssen.
Weitere Informationen zu den ML-gestützten Funktionen finden Sie in der Snowflake-Dokumentation.