注:本記事は(2021年10月13日)に公開された(Benchmarking Snowflake Versus Spark with LTI Mosaic Decisions)を翻訳して公開したものです。

現在、組織はより迅速で、より高品質で、かつビジネス変動に耐えるデータとアナリティクスを求めています。そのような中、データとアナリティクスを担当するリーダーたちが、アジャイルでコラボレーティブなデータ管理フレームワークであるDataOpsに注目するのは当然と言えるでしょう。

Gartner®は、DataOpsを「組織中のデータ管理者とデータ利用者間のコミュニケーション、統合、データフローの自動化を改善することに焦点を置いた、コラボレーティブなデータ管理手法」と定義しています。1 エンタープライズ各社は、拡張性が高く、コスト効率的で、管理しやすいDataOpsプラットフォームやソリューションの導入を目指していますが、そのような条件を満たしているプラットフォームの1つが、LTI Mosaic Decisionsです。このプラットフォームを利用することで、企業は収集したデータを活用し、データプロダクトの独立したライフサイクルを確立し、実用的なインサイトを生成するための基礎を構築できます。

迅速かつ大規模なデータ処理は、DataOpsプラットフォームの中核です。データ処理エンジンにはさまざまなものがあるため、各オプションを徹底的に評価し、ビジネス目標にぴったり合うものを選択する必要があります。各企業が固有のニーズを満たす最も効果的なデータ処理エンジンを選択できるようにするため、LTIは最近、人気の高い2つの製品、SnowflakeとApache Sparkの機能を比較する詳細な調査を実施しました。2 この比較調査では、DataOpsプラットフォームとしてLTI Mosaic Decisionsが用いられました。この調査により、さまざまなパラメーターにわたっていくつかの興味深いインサイトが明らかになりました。

  • 性能: Snowflakeのデータ処理容量は、通常でApache Sparkアナリティクスエンジンの200%です。パフォーマンスとTCOの点では、ETLサイクル全体で、SnowflakeはSparkよりも大幅に高いスピードと性能を発揮します。他の機能が利用者のビジネスに適合していると仮定すると、SnowflakeはMosaic Decisionsと組み合わせて使用する上で自然かつ推奨される選択肢となります。
  • アジリティ: Snowflakeは、真のSaaSソリューションであるという点からも、使用開始のハードルが低く、ハードウェアやソフトウェアのインストール、設定、管理が不要であるだけでなく、コンポーネントのメンテナンス作業も不要です。一方、Sparkはアナリティクス専門家のために構築されたテクノロジーであるため、技術に詳しくないユーザーは扱いが難しいと感じることでしょう。さらに、Sparkクラスター上でデータパイプラインを実行すると、始動までに約5分かかり、全体の処理に遅れが生じましたが、Snowflakeの場合、すべてのデータ実行が瞬時に開始されます。
  • 安定性: Sparkを使用したとき、メモリの問題のほか、その他のデバッグやRCA(根本原因分析)がしにくい問題に起因するジョブの失敗が見られました。一方、Snowflakeの場合、ジョブの失敗は1件も見られませんでした。
  • 使いやすさ: 組織は今や、拡張性が高く、コスト効率的で、管理しやすいデータソリューションへの戦略的な投資が不可欠であることに気づいています。Sparkの場合、性能を得るために多くのパラメーターを設定しなければならないのと比較して、Snowflakeでは設定の手間なしにすべてが機能します。
  • 同時実行性:同時実行ユーザーが多すぎる場合、ニーズに対応できるようシステムを拡張する必要があります。SparkのインタラクティブクラスターとSnowflakeの仮想ウェアハウスはどちらも自動拡張機能を提供していますが、Snowflakeの場合、リソースの25%のみを使用しながら3倍優れた性能を実現するのに比べ、Sparkクラスターは100名以上の同時実行ユーザーの管理に苦戦していました。

所見、インサイト、および推奨事項

結果として、LTI Mosaic DecisionsとSnowflakeの組み合わせが、各プロダクトの機能を生かし、補完するウィンウィンのソリューションであることが分かりました。LTI Mosaic DecisionsにはデフォルトでSnowflakeプラットフォームへのサポートが付属しており、Mosaic Decisionsのアーキテクチャは、Snowflakeアーキテクチャの高い拡張性と性能を活用することで、その能力を最大限に引き出します。つまり、Snowflakeの高性能指向のアーキテクチャがフルに生かされることになります。

Mosaic Decisionsは、クラウドネイティブなプッシュダウン型データ変換に対応しています。これにより、Snowflakeにすでに格納されているプロシージャを活用できるだけでなく、将来、Snowparkなどの新しい製品やサービスと容易に統合することも可能となっています。Mosaic Decisionsには、Snowflakeを簡単に設定するための機能がネイティブに組み込まれているほか、あらゆるSnowflakeウェアハウスの実行を簡単に管理できる特別なアプリケーションも備わっています。さらに、ドラッグアンドドロップでSnowflakeワークロードを簡単に作成できる機能も提供しています。

まとめると、LTIのMosaic Decisionsプラットフォームは、SnowflakeとSparkの両方をサポートしていますが、SnowflakeとMosaic Decisionsの組み合わせこそが、解決までの時間とROIの両方を最適化するDataOpsプラットフォームを実現させることができます。このブログの基となる調査について詳しくは、LTI社のホワイトペーパーBenchmarking Snowflake Versus Spark for Optimized DataOps(最適化されたDataOpsに向けたSnowflakeとSparkの比較)を参照してください。


1 Gartner IT社の用語集、「DataOps」より(2021年9月)[https://www.gartner.com/en/information-technology/glossary/dataops]。GARTNERは、Gartner, Inc.とその関連会社の米国およびその他の国における登録商標およびサービスマークであり、本書では同社の許可のもと使用されています。

2 lti.co/CyTwFD4