製品 & テクノロジー

データクラウドにおけるデータウェアハウス、データレイク、データレイクハウスの新たなイノベーションを発表

データクラウドにおけるデータウェアハウス、データレイク、データレイクハウスの新たなイノベーションを発表

長年にわたって、データ管理に関するテクノロジー環境は、さまざまなアーキテクチャパターンを生み出してきました。これらはそれぞれ、特定のユースケースや要件に対応するよう綿密に設計されています。このパターンには、 データウェアハウスデータレイクデータレイクハウスなどの集約されたストレージパターンと、データメッシュなどの分散パターンの両方が含まれます。これらのアーキテクチャには、それぞれ固有の強みとトレードオフがあります。また、従来、ツールや商用プラットフォームは1つのアーキテクチャパターンに合わせて設計されることが多かったため、組織はビジネスニーズの変化(この変化は、もちろんデータアーキテクチャにも影響を与えます)に適応するために苦労してきました。

Snowflakeでは、すべてのお客様に対して単一の同じパターンを提供する方法では、お客様の問題には対応できないと考えています。組織に合ったアーキテクチャは、経時的に変化する可能性があります。Snowflakeでは、そうしたアーキテクチャを構築するためのプラットフォームを提供することで、お客様の支援に努めています。Snowflakeのお客様の多くは、コンウェイの法則に当てはまる状況に陥っていました。ユースケース、ニーズ、テクノロジーは変化します。従って、データインフラストラクチャは、変化に合わせたスケーリングと進化が可能でなければなりません。Snowflakeは、強固なセキュリティとガバナンス、優れたパフォーマンス、シンプルさというコアとなる理念を維持しながら、お客様に選択肢と適応力を提供することにコミットしています。

たとえば、JSON、テキストファイル、ドキュメント、画像、動画など、大量かつ多様なデータの一元的な保存を必要とするお客様は、Snowflakeを利用してデータレイクを構築しています。さらに、SQL向けに高度に最適化されたテーブルの全社レポジトリと、同時実行性の高いビジネスインテリジェンスワークロードとレポートを持つ多くのお客様は、Snowflake上にデータウェアハウスを構築しています。さまざまなツールや言語をサポートするためにこの2つのハイブリッドを必要とするお客様は、データレイクハウスを構築しています。また、(コアとなる単一のデータチームではなく)すべてのチームのそれぞれがデータを所有し、標準に準拠することでインフラストラクチャを管理する方法を選択したお客様も多く存在します。その場合は、データメッシュのプラットフォームとしてSnowflakeを使用しています。

データ管理に対するニーズは、これまでになく高まっています。Snowflakeはこうしたニーズに対応するため、これらのパターンすべてにわたってお客様をサポートする新機能を発表します。

Apache Icebergのためのオープンデータレイクハウス

データレイクハウスアーキテクチャは、データレイクのスケーラビリティと柔軟性のメリットを、データウェアハウスのガバナンス、スキーマ適用、トランザクションプロパティと組み合わせるために生まれました。Snowflakeプラットフォームは、最初からサービスとして提供されており、最適化されたストレージ、伸縮性のあるマルチクラスターコンピュート、クラウドサービスで構成されています。2015年の最初のローンチ以来、Snowflakeのテーブルストレージは、実際にはオブジェクトストレージの上に実装されるフルマネージドのテーブルフォーマットであり、今日、Apache Iceberg、Apache Hudi、Delta Lakeなどのオープンソースとして市場で目にしているものと類似しています。Snowflakeのテーブルフォーマットはフルマネージドであるため、暗号化、トランザクションの一貫性、バージョン管理、タイムトラベルなどの機能が自動的に提供されます。

多くのお客様は、フルマネージド型ストレージと、さまざまなワークロードを強化する単一のマルチ言語およびマルチクラスターのコンピュートエンジンがもたらすシンプルさを非常に有用だと考えています。しかし、一方でオープンフォーマットを使用して自社のストレージを管理したいと考えているお客様もいます。そのため、SnowflakeはApache Icebergのサポートを追加しました。他にもオープンテーブルフォーマットは存在しますが、SnowflakeではApache Icebergを多くの理由からテーブルフォーマットの代表的なオープンスタンダードと捉えており、お客様に最適なサービスを提供するためにこのフォーマットのサポートを優先しています。

Icebergテーブル(近日中にパブリックプレビュー開始)は、オープンフォーマットで外部に保存されたデータにSnowflakeの管理のしやすさと優れたパフォーマンスをもたらす単一のテーブルタイプです。また、Icebergテーブルでは事前取り込みが不要なため、より簡単かつ安価にオンボーディングできます。お客様がSnowflakeをアーキテクチャに柔軟に組み込めるように、IcebergテーブルではSnowflakeとAWS Glueなどの外部サービスのどちらも、テーブルのカタログとして使用してメタデータを追跡するように設定できます。メタデータのみの操作で、簡単に1行のSQLコマンドでSnowflakeに変換できます。

Icebergテーブルでは、カタログ構成にかかわらず多くのことが一貫しています。 以下に例を挙げます。

  • データは、お客様が用意したストレージバケットに外部保存される
  • Snowflakeのクエリパフォーマンスは、外部テーブルより平均で2倍以上優れている
  • データシェアリング、ロールベースのアクセス制御、タイムトラベル、Snowpark、オブジェクトのタグ付け、行アクセスポリシー、マスキングポリシーなど、その他の多くの機能

また、Icebergテーブルがメタデータを管理するためのテーブルカタログとしてSnowflakeを使用する際には、以下のメリットを得られます。

  • Snowflakeは、INSERT、MERGE、UPDATE、DELETEなどの書き込み操作を実行できる
  • 圧縮、スナップショットの有効期限、孤立ファイルの削除などの自動ストレージメンテナンス操作が可能になる
  • (オプション)クエリを高速化する自動クラスタリングを使用できる
  • Apache Sparkは、SnowflakeのIcebergカタログSDKを使用して、Snowflakeのコンピュートリソースを必要とせずにIcebergテーブルを読み取ることができる

データレイクの半構造化データと非構造化データのサポートを拡張

データレイクは、実質的にあらゆるスキーマのあらゆるファイル形式を大規模にかつ比較的低コストで保存できるオブジェクトストアであるため、魅力的なアーキテクチャパターンです。ユーザーは、事前にスキーマを定義する代わりに、ユースケースに必要なデータとスキーマを決定できます。Snowflakeはすでに長期にわたって、JSON、XML、Parquetなどの半構造化データ型とファイル形式をサポートしており、その後、PDFドキュメント、画像、動画、音声ファイルなどの非構造化データのストレージと処理もサポートするようになっています。ファイルがSnowflakeマネージドストレージ(内部ステージ)と外部オブジェクトストレージ(外部ステージ)のどちらに格納されているかにかかわらず、新機能ではこれらのデータ型とユースケースをサポートしています。

Snowflakeは、データレイク内のJSONファイルとCSVファイルのスキーマを簡単に推論する機能(近日中に一般提供開始)を提供することにより、半構造化データのサポートを拡張しました。半構造化データのスキーマは、時間の経過とともに進化する傾向があります。データを生成するシステムは、追加情報に対応するために新しい列を追加し、それに応じて下流のテーブルを進化させる必要があります。これをサポートするために、テーブルスキーマ進化のサポートを追加しました(近日中に一般提供開始)。

PDFドキュメント、画像、動画、音声ファイルなどのユースケースでは、Snowpark for Python and Scala(一般提供中)を使用することにより、あらゆるタイプのファイルを動的に処理することも可能になりました。データエンジニアとデータサイエンティストは、オープンソースライブラリへの安全なアクセスを提供するSnowflakeの高速エンジンを活用し、画像、動画、音声などを処理できます。

データウェアハウスのためのより高速で高度なSQL

SQLは、データウェアハウスのワークロードで現在最も一般的な言語です。Snowflakeは、SQLで実行できるコンピュートの種類の限界に挑戦し続けています。たとえば、AS OF JOIN(近日中にプライベートプレビュー開始)が新たにサポートされたことにより、データアナリストは時系列データを組み合わせた非常にシンプルなクエリを作成できるようになりました。このユースケースは、金融サービス、IoT、特徴量エンジニアリングで一般的です。タイムスタンプの結合が完全に一致するのではなく、最も近い前後のレコードで近似されます。また、Snowflakeの高度なアナリティクスのサポートを改善するため、ロードできるファイルのサイズ上限を増やします(近日中にプライベートプレビュー開始)。自然言語処理、画像分析、感情分析などのユースケースで必要とされるラージオブジェクト(最大128 MBのサイズ)をロードできるようになりました。

Snowflakeは、お客様のためにパフォーマンスを向上し、コストを削減することにコミットし続けます。新たに改善された最適化により、お客様はさまざまな面でパフォーマンス向上とコスト削減を実感できます。以下に例を挙げます。

  • Snowpark用に最適化されたウェアハウス向けのクエリアクセラレーションサービスにより、メモリ負荷の高いMLユースケースのウェアハウスに対するアドホッククエリが高速化し、コスト効率が向上した(一般提供中)
  • ORDER BY句とLIMIT句を含むSELECTステートメントが、特に大きなテーブルでTop-kプルーニングにより高速化する(近日中に一般提供開始)
  • 新しいウェアハウス効率により、マテリアライズドビューのメンテナンスコストを50%以上削減する(一般提供中)
  • ANY_VALUE()、MODE()などの非決定性関数を使用するクエリは、結果キャッシュを利用することでパフォーマンスを改善できるようになった。Snowflakeの分析によると、特定のクエリパターンについて影響を受けたクエリのジョブクレジットが13%減少した(一般提供中)
  • クエリアクセラレーションサービスに追加されたサポートにより、INSERTステートメントが高速化した(プライベートプレビュー中)
  • 特定のテーブルに対する自動クラスタリングの事前のメンテナンスコストと継続的なメンテナンスコストを見積もる新機能が追加された(プライベートプレビュー中)

使用を開始する

Snowflakeでは、これらの新機能をすべてシングルプラットフォームで提供します。そのため、お客様は引き続き、データクラウドで任意のアーキテクチャを構築して適合させることが可能です。上記のプライベートプレビュー中の機能のご利用については、Snowflakeの担当アカウントマネージャーにお問い合わせください。パブリックプレビュー中の機能と一般提供中の機能の詳細とご利用の開始については、リリースノートとドキュメントをご確認ください。

このブログ記事で説明しているアーキテクチャパターンに対するSnowflakeのサポートの詳細については、データウェアハウスデータレイクデータレイクハウスデータメッシュのページをご覧ください。

これらの機能の動作を確認したい場合は、Snowdayのセッションをご覧ください。

将来の見通しに関する記述について
このプレスリリースには、明示または黙示を問わず、(i)Snowflakeの事業戦略、(ii)開発中または一般に提供されていないSnowflakeの製品、サービス、テクノロジー、(iii)市場の拡大、トレンド、競争状況に関する考察、(iv)Snowflake製品とサードパーティプラットフォームの統合およびサードパーティプラットフォーム上でのSnowflake製品の相互運用性と可用性についての言及など、将来の見通しに関する記述が含まれています。これらの将来の見通しに関する記述は、さまざまなリスク、不確実性、前提に左右されます。これには、証券取引委員会への提出書類に記載されたリスクが含まれますが、これらに限定されません。これらのリスク、不確実性、前提を考慮すると、将来の見通しに関する記述において予想または暗示されている結果と比較して、実際には大きく異なる結果や反対の結果に至る可能性があります。これらの記述は、最初に記述された日付のみを対象としています。法律で義務付けられている場合を除き、Snowflakeには、このプレスリリースの記述を更新する義務または意図は、一切ありません。そのため、将来の見通しに関するいかなる記述も、未来の出来事についての予測として利用してはなりません。  

このプレスリリースの将来の製品情報は、一般的な製品の方向性を概説することを目的としています。最終的に利用可能になる製品、特性、または機能性の実際のタイミングは、このプレスリリースに提示のタイミングとは異なる場合があります。 

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

30日間の無料トライアルを開始する

Snowflakeの30日間無料トライアルで、他のソリューションに内在する複雑さ、コスト、制約の課題を解決するデータクラウドを体験できます。