
Chicago Trading Company Replaces Managed Spark for 54% Cost Savings
Snowflakeへの移行により、CTCのリサーチプラットフォームではデータのある場所での開発が可能になり、費用対効果に優れた迅速で信頼性のあるデータ処理を行えるようになりました。その結果、トレーダーはいつでも必要なときに必要なインサイトを得られるようになりました。
SNOWFLAKE INTELLIGENCE
社内の誰もが、必要な答えにすぐたどり着ける。
グローバル金融システムにとって資金が原材料であるように、データは最新の組織、特にアナリティクスとAIに深く関わる組織にとっての通貨のような役割を果たします。
データオーケストレーションは、データパイプラインとも呼ばれるデータフローを自動化し管理する方法を提供することから、モダンデータエンジニアリングのバックボーンとなっています。オーケストレーションのプロセスには、データの編成、変換、アクティベーションが含まれます。その目的は、ビジネスアプリケーションですぐにデータを利用できるようにすることであり、そうすることで、情報に基づく適切な意思決定を下せるようになります。
銀行業務にたとえるなら、データオーケストレーションは、あらゆる国の通貨を価値で数値順に、国名をアルファベット順に編成して保持する巨大な仮想レジのようなものと考えることができます。このように資金の管理と編成を自動化すると、現金は入金されるたびに自動的に金種別に分類され、国別のドル合計が更新されます。
データオーケストレーションは、複雑なデータパイプラインとワークフローの調整、管理に関する自動化されたアクティビティとプロセスで構成され、多様なデータを収集、変換、処理してAIやアナリティクスで利用できるようにします。その定義における自動化の部分が鍵となります。大規模組織ではデータが大量に保存されています。しかし、そのデータは多くの場合、毎日データを生成して利用するグループ間でサイロ化されています。オーケストレーションツールを使用すれば、データワークフロー内のさまざまなタスクを自動化し、生データの処理に秩序と一貫性を持たせることができます。データ品質と可用性を高めながら、データセキュリティ規制に準拠できます。
ほとんどのデータドリブンな企業にとって、データオーケストレーションはメリットがあります。データパイプラインを自動化することで、社内のさまざまなソースやシステムのデータを活用するプロセスが高速化するとともに、データの品質と機械可読性も向上するからです。
組織の規模が大きくなるほど、そのデータ環境は複雑化すると考えられます。データオーケストレーションでは、そうしたデータを活用し、AIやアナリティクスのシステムで使用できるように準備できます。これは、意思決定の促進、運用の効率化、データのセキュリティ確保、顧客サービスの向上につながります。つまり、運用の複雑さを管理し、信頼性を確保し、ステークホルダーの信頼を強化するためには、データオーケストレーションが不可欠なのです。
データオーケストレーションは、データの保存や管理を行うだけの作業ではありません。多様なソースの生データをツールで処理し、さまざまなデータドリブン型のビジネス用途向けに準備する一連のプロセスです。具体的なステップは次のとおりです。
データオーケストレーションの最初のステップは、関連するシステムやソースからデータを抽出して一元化することです。データソースには、オンプレミスまたはクラウドベースの社内CRMやERPシステム、ソーシャルメディアやニュースウェブサイトなどの外部ソースが含まれる場合があります。データの編成には類似データ(すべての販売データや新規見込み顧客の電話番号など)を1か所に集約する作業も含まれ、次のステップで最適化するための準備を整えます。
変換ステップでは、オーケストレーションツールが生データを取得し、ビジネスルールや一貫した形式を適用して標準化します。情報が不足している場合は、データのエンリッチメントのためにツールで欠落部分を補完し、エラーを修正する必要が生じることもあります。最終的な目標は、正確で一貫性のある標準形式のデータを作成し、機械学習モデルやアナリティクスツールでより簡単にデータを活用できるようにすることです。そして、組織でダッシュボードや可視化ツールを通じてこのデータを操作し、情報を簡単に共有できるようにすることです。
データを読み取り可能な形式に正規化し、エラーをある程度なくした後は、データを分析システムで利用できる状態、あるいは可視化ツールやダッシュボードツールに提供できる状態にする必要があります。これをデータアクティベーションといいます。
データオーケストレーションツールにより、ビジネス上の意思決定、データ分析、AIアプリケーションにおいてデータを利用しやすくなります。これらのツールは、上記のステップを自動化して生のビジネスデータからより多くの価値を抽出することで、データをインサイトに変換するまでの時間を短縮します。では、これらのメリットを詳しく見ていきましょう。
クレンジングされた正確なデータを機械学習やデータ分析にフィードすることで、より信頼性の高い一貫した結果を得られます。
組織の規模が大きく複雑になるほど、生成されるデータは増加します。データオーケストレーションツールは、データサイロを解消してデータへのアクセスを容易にします。また、データ品質の向上にも効果を発揮します。これはデータドリブンなイニシアチブを拡張してアジリティを維持するために不可欠な要素です。
データオーケストレーションを自動化して最適化するツールは、特定の情報を迅速にドリルダウンして異常を見つけやすくし、時間の経過とともにデータ品質を改善します。
データ利用までの時間(TTD)とは、データが作成されてから、ビジネスアセットとして利用できるようになるまでにかかる時間を指します(データレイテンシーとも呼ばれます)。データオーケストレーションツールはレイテンシーの短縮に役立つため、より簡単で高速なデータ処理が実現します。また、TTDの短縮はデータから価値を抽出するまでの時間短縮や意思決定プロセス全体のスピードアップにもつながります。
グローバル企業はGDPR、HIPAA、CCPAなどのデータセキュリティとプライバシーの規制を受けています。データオーケストレーションツールは、特定のデータセキュリティ制御を自動化して、これらのルールへの準拠を簡素化します。
データオーケストレーションにも潜在的な落とし穴があり、データ量と複雑さの増大によって状況が悪化する可能性があります。よくある3つの課題をご紹介します。
データオーケストレーションツール自体の扱いが難しい場合があります。これはプロセスの一部を自動化するためにチームで使用するツールにも当てはまります。さらに、ツール同士が簡単に連携できるとは限らないため、すべてのツールを統合するには、特定のニーズに合わせてソフトウェアをカスタマイズしたりデータ処理プロセスを変更したりする必要が生じる場合もあります。
プログラミングにおいて依存関係とは、決められた順序で完了しなければならないタスクを指します。依存関係は、順次プロセスにおいて、あるステップの完了が直前の操作の結果に依存する場合に発生します。データワークフローが複雑になればなるほど、追跡すべき依存関係も増加します。データエンジニアは、有向非巡回グラフ(DAG)を使用してデータフローを視覚的にマッピングし、依存関係を図解します。
さまざまなシステムから入ってくるデータが増えるほど、そのデータをさまざまなデータオーケストレーションステップで処理するために要する全プロセスを効率化する作業も膨大になります。つまり、データストレージを拡張する必要があるだけでなく、オーケストレーション機能自体も拡張可能である必要があります。
データシステム、そしてデータ自体の統合は、必ずしも簡単ではありません。前述のとおり、データシステムはカスタマイズや再構築なしでは相互に円滑に連携しない場合があります。また、異なるソースからのデータ統合も容易にできるとは限らず、データ形式の非互換性がよく問題となります。また、レガシーシステムのデータと最新のクラウドベースのデータプラットフォーム向けに最適化された新しいデータを組み合わせる場合も、問題が発生する可能性があります。
データオーケストレーションのベストプラクティスに従うことで、上記の課題の多くを克服できます。以下に、5つの重要なヒントを示します。
データワークフローは、企業のITシステム全体でデータがどのように移動し、変換されるかを示す手順です。抽出から編成、アクティベーションまで、このプロセスを網羅するシーケンスとステップを明確に定義することで成功につながります。
同様に、組織全体や特定のプロジェクトのニーズに最適なデータオーケストレーションツールを選択する必要があります。この選択を行う際の参考として、ツールの使いやすさ、既存システムとの互換性、複雑なワークフローを処理できるかどうか、またその処理能力などを考慮します。
データオーケストレーションが機能しているかどうかを判断するために、プロセスをモニタリングしてボトルネックやデータ処理エラーがないか確認し、全体をファインチューニングする方法を模索します。
データオーケストレーションを開始したばかりの場合は、最初の数件のプロジェクトで範囲を絞り込みます。概念実証(PoC)を活用してワークフローやツールのパフォーマンスを評価し、その後さまざまな改善を加えながら繰り返し、最適な方法を見つけ出します。
データオーケストレーションのワークフローで使用するプロセスは、常に文書化しておくことを推奨します。この記録があれば、ワークフローの定期的な見直し、エラーの文書化、必要な変更を簡単に行えます。
データオーケストレーションはデータを活用してビジネスを戦略的に改善できる可能性を高めます。データを収集、変換、アクティベーションするためのワークフローを定義して自動化する能力は、高い成果を上げるデータドリブンな組織の特徴です。データオーケストレーションは、データ管理の域を超え、複雑さを軽減してデータからより迅速かつ確実に価値を引き出すインテリジェントな統合システムを提供します。
データオーケストレーションツールはデータオーケストレーションのプロセスを自動化します。他のデータ処理ツールや可視化ツールと統合することで、生データからインサイトを取得するプロセスを加速します。
ストリーミングメディアサービスを利用したことがあれば、実際にデータオーケストレーションを体験しているはずです。なぜなら、消費しているメディアはデータであり、サービスはオーケストレーションを使用してユーザーの検索や好み、「いいね」したコンテンツやリストに追加したコンテンツに基づいてデータを提供しているからです。
おそらく皆さんも直接体験されているであろう、例をもう一つあげます。小売企業がオンラインストアと実店舗の在庫を同期する必要がある場合、オーケストレーションを使用して両方の場所から販売データを取得します。これには、オンライン販売の供給元である実店舗や倉庫からの最新の在庫データが含まれます。これにより、企業は需要パターンを追跡できるようになり、最適な在庫管理方法を把握できます。
データ取り込みとデータオーケストレーションは、異なるものの、データ管理における関連性の高い構成要素です。取り込みはデータオーケストレーションの一要素であり、企業内のあらゆる場所から生データを収集するプロセスを指します。データオーケストレーションは、AIやその他のデータドリブンなシステムで使用できるように、データの取り込み、編成、処理を行う、より広範なプロセスです。
マンスリーニュースレターを購読する
Snowflakeの製品に関する最新情報、専門家の知見、役立つリソースを直接お届けします。
プロダクト
サポート