
WHOOP Improves AI/ML Financial Forecasting While Enhancing Members’ Experiences
SnowflakeとApache Icebergの活用により、WHOOPのチームはデータアクセスの一元化を実現しました。同時に、複雑さの軽減、コストの削減、そして機能開発や財務予測といった重要なプロセスの改善も達成しています。
Snowflake Connect: AI(1月27日開催)
Snowflakeの最新イノベーションでデータとAIの可能性を最大限に引き出します。
時系列分析は、変数を一定の時間間隔で測定する手法です。この手法により、そのデータの特徴を観測して分析できます。経時的なメトリクスを追跡し、履歴データを分析してトレンドを把握できるため、さまざまなユースケースにおいて欠かせないツールとなっています。ヘルスケア、金融、テクノロジー、物流など、特に大量のデータを収集する多くの業界で利用されています。
アナリストは、過去のトレンドや相関関係を特定することで、時系列分析を使用して製品の需要やコンピュートのニーズなどについての根拠に基づいた予測を行えます。経済のほぼあらゆるセクターにおけるデータ収集、処理、ストレージの増加と、機械学習とAIの導入によって、この手法の有効性は高まっています。この記事では、時系列分析の詳細と、その有用性、ビジネス成果の改善への活用方法について解説します。
時系列分析という言葉は、一見シンプルに聞こえますが、その実体は柔軟である一方、想像以上に複雑になり得ます。すべての時系列データは、等間隔の時間経過とともに収集されたデータの順序付きコレクションとして表示されます。 たとえば、企業が1年間に毎月受け取るニュースレターのサインアップの数です。時系列の時間尺度を拡大することで、長期的なトレンドを観測し、たとえば、変化する経済環境の逆風、公共政策の転換、サプライチェーンの混乱の影響を的確に特定できるため、履歴データに適用すると特に強力です。
この手法の最大の特徴は、その名の通り時間の経過を絶え間なく捉え続ける点にあります。これは、変数間の関係を分析する回帰分析や、単一時点のデータを扱うクロスセクション分析とも対照的です。
時系列データの作成に使用するデータには、いくつかの特性が見られる場合があります。それらの特性は、以下の要素に分解して考えることができます。
トレンドは、メトリクスが向かう方向(何らかの方向性があれば)を示します。ここまでの例を続けると、ニュースレターの登録数は前月比で増加していることがわかります。つまり、サインアップのトレンドは増加傾向にあります。
季節性は、データ内のあるサイクルで発生する反復パターンを表します。通常は、予測可能で一貫したイベントに関連付けられます。最も一般的な例の一つは、ホリデーシーズン前後の消費者支出の増加ですが、より粒度の高い例としては、毎月1日と15日に賃貸可能なアパートが急増するケースが考えられます。
サイクルは、特定の季節やイベントによって定義されない長期的なパターンを表します。サイクルとは、多くの場合、景気の拡大と縮小を指します。景気の拡大と縮小は長期間にわたって起こる傾向があり、1つのイベントや事象に縛られることはありません。たとえば、不況時のエンタープライズソフトウェア支出の削減や、経済成長期の増加などが考えられます。
ノイズは、標準からの逸脱を引き起こす技術的な問題、単発の発生、その他の未定義のイベントなど、他の要素では説明できないデータポイントを表します。機械設備のセンサーエラーや刻々と細かく変動する株価は、ノイズの良い例です。
時系列データは、変数の数、データの収集方法、時系列に関するその他の統計情報に基づいて、さまざまなタイプに分類できます。時系列データの3つの主要な分類方法をご紹介します。
一変量時系列は、設定された間隔で単一のメトリクスを追跡します。一般的な例としては、人の心拍数の標準的な尺度である1分あたりの心拍数(BPM)が挙げられます。多変量時系列は同じ間隔を使用しますが、期間にわたって複数のメトリクスを追跡します。たとえば、病院は患者の心拍数と血中酸素濃度を同時に収集して追跡することで、循環器の健康状態についてより包括的なビューを得られます。
一定間隔とは、一貫した時間間隔で記録される値です。たとえば、部屋の温度は1分に1回記録される場合です。不規則な時間間隔では、個別のイベントが発生したときに記録されます。たとえば、クラウドサービスが要求を処理するたびに追跡されます。こうしたイベントは、短期間に集中して発生することもあれば、まったく発生しないこともあります。
時系列予測モデルは定常データに依存しており、そこではデータ範囲が時間の経過とともに予測可能で、平均や分散といった統計的特性が変化しません。非定常データは、季節性やその他の変動要因によって変化が生じる性質を持っています。定常系列は非定常系列よりも信頼性が高く分析も容易ですが、差分法などの統計的手法を用いることで、非定常データを予測に適した安定した状態に変換することが可能です。
時系列は、リスク緩和やサービスの稼働時間に重点を置いた分析から、有用なパターンを明らかにするための履歴データの深い分析に特化したものまで、さまざまな分析に使用できます。
よりシンプルなユースケースとしては、アクティビティのベースライン設定に焦点を当てたものがあり、ITサービスのレイテンシー、マーケティング活動が1日あたりに獲得するエンゲージメントの数などが考えられます。時系列によって、こうしたケースの異常な挙動を監視できます。たとえば、レイテンシーの異常な急増はネットワークのメンテナンスが必要であることを意味し、マーケティングエンゲージメントの急激な増加は、どのメッセージが最も効果的かという貴重なインサイトを提供する可能性があります。
時系列を使用して、情報に基づいた意思決定を行うこともできます。その代表例が在庫管理です。顧客需要の過去の増減を分析することで、サプライチェーンと生産スケジュールを最適化して、製品やサービスが需要に応じてスケールアップとスケールダウンを行えるようにし、コスト削減を最大化できます。
時系列分析から有用なインサイトを引き出すには、さまざまな方法を使用できます。どちらの方法を選択するかは、時系列の特性と履歴データの可用性に依存します。以下に、最も一般的な時系列分析手法をいくつか紹介します。
いずれの方法も、メトリクスの変動の影響を軽減するために履歴データの平均値を使用します。移動平均は、ノイズやその他の異常な変化を取り除くことで、データの長期的な全体の傾向を明らかにするのに役立ちます。株価の移動平均は、上下の予測不可能な変化ではなく、設定された期間におけるその価格の全体的な軌跡を捉えます。指数平滑化は、古いデータよりも最近のデータを優先する手法です。これにより、最近の変更を反映した平均値が得られ、データの現状を反映したトレンドを予測できます。
自己回帰和分移動平均(ARIMA)は、自己回帰、差分、移動平均の3つの手法を組み合わせて将来の変数を予測します。これらの手法を組み合わせることにより、ARIMAは非定常時系列を使用して、履歴データの移動平均に基づいて変数がどのように変化するかを推定し、正確な予測を提供できます。SARIMA(季節性自己回帰和分移動平均)は、データの季節的な変化を把握します。季節性を示すデータを使用して予測できます。
多くの組織は、リカレントニューラルネットワークや決定木モデルなどのML手法を分析プロセスに取り入れています。こうしたモデルは、より正確な予測を生成して非常に大量のデータを取り込むことができるためです。また、時間と労力のかかる分析も自動化できるため、組織の効率が向上します。
強力な機械学習ツールを使用しても、時系列分析の実装を成功させるためには、プロジェクトの目標と制約を慎重に検討する必要があります。以下に、新しい時系列分析プロジェクトを開始する際の5つのステップを示します。
何を知りたいのかを明確に把握することは、成功の評価だけでなく、データセットの限界を理解することも重要です。
目標が明確になったら、データセットを収集し、スムージング技術を使用して、外れ値、データ値の欠落、データセット内のその他の問題に対処します。
データをグラフィカルに可視化することで、季節性や全般的な傾向などの一般的なパターンを検出できます。自動相関関数(ACF)を使用すると、データセットが定常かどうかを判断しやすくなります。
データと目標に応じて、季節性が特定の目標に関連しているデータセットにARIMAまたはSARIMAを適用できます。より大規模なデータセットや複雑なデータ分析では、結果を得るためにMLやディープラーニングの技術が必要になる場合があります。
多数の手法により、結果が正確かどうかを検証できます。通常は、予測結果と実際の結果を比較します。モデルが将来の結果を正確に予測していることを検証できたら、その予測を使用してステップ1で概説した目標について決定します。たとえば、今後6か月間の消費者需要の変化を予測します。
今日では、経済のあらゆるセクターは何らかのデータ分析を使用して意思決定に役立てています。時系列分析の最も一般的な業界のユースケースの一部を以下に挙げます。
時系列分析は、顧客の関心や購買活動の追跡、サービスの稼働時間の確保など、小売業界のコンテキストで大いに活用されています。予測面では、多くの組織がサプライチェーン管理の決定に時系列分析を組み込み、履歴データを使用して供給中断の可能性を回避し、今後の販売促進のための在庫レベルを計画しています。
ヘルスケア・ウェルネス組織は、心電図マシンからウェアラブルテクノロジーまですべてに適用できるため、時系列分析を広範に利用しています。この手法は学術研究でも利用されており、特定のリージョンや固定集団から得られる大規模なデータセットの分析に役立てられています。たとえば、下水から特定のウイルスの増加傾向を検知するための調査などが、その代表的な活用事例です。
時系列分析は、さまざまな種類のマーケティングキャンペーンのパフォーマンスを追跡するうえで重要なツールとなり得ます。これにより、たとえば、毎週の新規顧客数の基準を確立できます。これを用いて新しいメッセージや広告などのマーケティング活動の効果を測定するための基準として使用できます。
履歴データに基づいて過去への理解を深め、将来の計画を立て、変化する市況に適応し、製品のパフォーマンスを改善できるため、時系列分析は多くの業界で人気があります。以下に、主なメリットについて詳しく解説すると次のようになります。
時系列手法の構造には、広範なデータクレンジングと安定性チェックが必要であり、予測に非常に役立つモデルとなっています。ノイズ、欠損変数、その他の潜在的な外れ値を考慮し、サンプル外の観測に対して予測をテストすることで、予測精度を高めることができます。
時系列分析は、消費者の需要、サプライチェーンのコスト、非効率性、ITシステムのコンピュート需要の変化を正確に予測することで、製品のパフォーマンスや稼働時間に影響を与えることなく無駄を最小化します。
リアルタイムアプリケーションでは、強力な予測能力に加え、時系列分析を使用して、レイテンシーの急増、需要の急増、その他の変化などの問題を迅速に検出できます。
時系列分析は、データ分析ツールボックスの1つのツールに過ぎません。そのため、すべてのユースケースに完璧な方法とは限りません。加えて、その有用性は信頼性の高い処理が可能な高品質のデータの存在に依存しますが、そうしたデータが常に利用できるとは限らないのが実状です。以下に、この分析手法における代表的な課題をいくつか挙げます。
どんなに綿密に考え抜かれたアプローチであっても、データの一貫性が失われていたり欠損値が多かったりすると、時系列モデルの精度と有用性は大きく低下します。
差分などの手法を用いてデータセットを定常化することは可能ですが、ノイズの発生といった新たな問題が生じるおそれがあります。時系列分析モデルでは、時間、曜日、月ごとに変動する複数の季節性パターンを持つメトリクスなど、複雑なデータへの対応に苦慮することがあります。こうした複雑な要因により、データの定常化や精度の高い予測値の算出が困難になる場合があります。
時系列予測は履歴データに依存するため、大規模なデータセットを使用して時系列モデルを適合、テスト、実行することは容易ではありません。これはつまり、データセットのサイズが大きくなるにつれて、運用がアーキテクチャ上の限界に達したり、実行コストがかさむことを意味します。
時系列分析は、企業にとって最も価値のある分析手法の一つであり、正確な予測に基づいて情報に基づいた選択を行い、構造効率と改善の機会を特定できます。MLとAIのツールの成長と強化により、この方法はより効率的で利用しやすくなり、非技術系のチームもモデルを構築してパフォーマンスを測定し、予測を改善できるようになりました。時系列分析が、モダンアナリティクスプラットフォームで使用される主要な分析手法の一つであり続けていることは、決して不思議ではありません。
以下に、時系列分析に関する最も一般的な質問のいくつかを紹介します。
時系列分析とは、現在と過去のデータを分析して新たなインサイトを抽出することです。たとえば、クリックスルーや条件を満たす見込み客などのメトリクスに基づいて、過去のキャンペーンに対するマーケティングキャンペーンのパフォーマンスを測定することなどです。時系列予測では、履歴データを使用して一連の将来の価値を予測するモデルを提案します。たとえば、過去のパフォーマンスに基づいて、新しいマーケティングキャンペーンの潜在的な影響を予測できます。時系列予測は、時系列分析のサブセットと見なされます。
予測モデルは、時系列データセットの将来価値について情報に基づいた正確な予測を行うために使用される手法です。時系列予測を成功させるためには、適切なモデルの選択が不可欠です。アナリストは、データセットの定常性、複雑さ、全体的な目標などの要因を考慮して最適なモデルを選択します。
時系列分析は強力なツールですが、すべての状況において理想的なツールとは限りません。多くの時系列手法では、正確な分析を行うために大量の履歴データが必要になります。また、ARIMAやSARIMAのようなモデルは通常、正確な予測を行うためには大幅なチューニングを必要とします。さらに、多くのモデルは、複数の季節性が混在するような複雑な傾向の処理を苦手としています。MLやAIのツールを使用してこれらの問題に対処することはできますが、データの前処理の量によって過剰適合などのエラーが発生する可能性があります。
マンスリーニュースレターを購読する
Snowflakeの製品に関する最新情報、専門家の知見、役立つリソースを直接お届けします。
プロダクト
サポート