RANGEベースのウィンドウフレームで時系列分析を加速(一般提供)

時系列分析の課題への対応
Snowflakeでは、お客様がシンプルかつ迅速にデータから有意義なインサイトを得られるよう取り組んでいます。そこで私たちは、時系列分析の高速化に役立つ強化されたRANGEベースのウィンドウフレームの一般提供を発表できることを嬉しく思います。
さまざまな業界の顧客にとって、時系列分析を実行する能力は極めて重要です。これには多くの場合、ギャップや不均一な時系列データがあってもロバストなローリング統計量の計算が含まれます。データにギャップがある理由が何であれ、より正確な結果を得るためにはアナリティクスがギャップを把握する必要があります。
私たちのソリューション

これは、次の擬似SQLに示すように、RANGEベースのウィンドウフレームでSnowflakeがINTERVALをサポートしているため、簡単に実行できます。この機能により、顧客は面倒なデータの前処理を回避し、ギャップを解消できます。データから価値あるインサイトを引き出すという極めて重要なタスクに注力できます。

私たちのソリューションの仕組みは?
RANGEベースのウィンドウフレームをネイティブにサポートしていない場合、お客様は通常、範囲結合で集計関数を実行するか、行ベースのウィンドウフレームに合わせてデータが均一に分散されるように前処理するなどの方法を使用します。これらの対策は多くの場合、効率が悪く、メンテナンスが面倒になります。
当社が提供する新機能は使いやすく、SQL標準に準拠しています。パーティション対応のソートを適用し、可変サイズのウィンドウと各行に対応する出力を効率的に計算し、特定のウィンドウが巨大な場合は必要に応じてローカル/リモートストレージにスピルします。
RANGEベースのウィンドウフレームを使用したパフォーマンスの向上を説明するために、5Kパーティションに分割された、均等に分散された時系列と2,200万行のサンプルデータセットを使用しました。RANGEベースのウィンドウフレームは、「集約 + 範囲結合」の回避策より6倍高速であることが分かりました。データサイズを10倍の2億2,000万行に拡張した場合、RANGEベースのウィンドウは回避策より9倍高速になります。まとめると、RANGEベースのウィンドウフレームは、通常データギャップのある実際の時系列ユースケースでローリング統計を計算するためのシンプルで効率的な方法となります。

お客様がRANGEベースのウィンドウフレームを使用している目的は何ですか?
さまざまなユースケースで、RANGEベースのウィンドウフレームの採用が急速に進んでいます。以下に、さまざまな業界の一般的なユースケースをいくつか紹介します。
製造のお客様は、リソース監視、設備性能分析、サプライチェーン分析などのユースケースでこれらのデータを使用しています。
金融サービス顧客は、アセット パフォーマンスのトラッキング、時間ベースのトランザクション分析による不正検出、ロイヤルティ プログラム分析にこれらを使用しています。
小売企業は、需要計画、移動在庫分析、販売配分、顧客支出分析などのユースケースにこれを使用しています。
電気通信企業は、通話量の分析や問題の監視と検出などにこれらのデータを使用しています。
業界を問わず、これらの機能はユーザー分析、顧客支出分析、販売およびキャンペーンのモニタリングなどの一般的なオペレーションに使用されています。
次の展開
この機能はすべてのSnowflakeアカウントで利用可能になりました。この機能を使用して関連するアナリティクスを開始したり、既存の回避策をこの高性能で使いやすいソリューションに移行したりできます。サポートされるウィンドウ関数のリストなどの詳細については、Snowflakeドキュメントをお読みください。Snowflakeでの時系列データの操作について詳しくは、時系列ユーザーガイドも参照してください。