Icebergテーブルとの相互運用性を備えたオープンストレージが一般提供開始
何千ものお客様が、増え続けるさまざまなビジネス上の問題をより多くのデータで解決するために、Snowflakeを利用してコスト効率の高い安全なデータファウンデーションを構築しています。その強力な基盤を会社全体のより幅広いデータセットに拡張しようとするお客様が増えています。Snowflakeは、Icebergテーブル(現在一般提供開始)により、お客様がより簡単にプラットフォームのユーザビリティ、パフォーマンス、ガバナンス、多くのワークロードをより多くのデータに取り込むことを可能にし、ストレージの完全な相互運用性を実現します。
Booking.com、Komodo Healthなどのお客様は、すでにIcebergテーブルを使用して、データレイクハウス、データレイク、データメッシュなどのオープンで柔軟なアーキテクチャパターンを実装し、パイプラインやモデルの開発をさらに簡略化しています。Icebergテーブルにより、組織はデータを自在に操作し、オープンデータに対する柔軟性とサポートを高めて価値を高めることができます。
Booking.comの最高データ責任者であるトーマス・デイビー氏は、次のように述べています。「Apache Icebergの大規模で多様なコントリビューターとプロダクトのエコシステムは、当社にとって、社内外のエコシステムにオープンで共通のデータレイヤーを提供するための明確な選択肢でした。「Icebergを利用することで、機械学習、AI、ビジネスインテリジェンス、地理空間分析のためのオープンデータレイクハウスとして、外部に保存されたデータも含め、Snowflakeのユースケースを拡大することができました。」
Icebergテーブルの機能、ユースケース、SnowflakeのIcebergサポートの概要について説明します。
Icebergテーブルを使用する理由
Apache Icebergは、相互運用性を実現するために、最初からエンジンやベンダーに依存しないよう設計されています。Apache Icebergは、Apache Software Foundationのプロジェクトとして、オープンなコミュニケーションとコンセンサスに基づく意思決定を採用し、単一の企業の利益よりも集団的利益を優先します。これは、ベンダーに依存しない長期的な取り組みにおいて非常に重要です。これこそ、Icebergの採用が加速している理由であり、Snowflakeやその他多くのテクノロジーベンダー、オープンソースプロジェクトが他のテーブルフォーマットに先駆けてIcebergをサポートしている理由です。
Icebergテーブルは、オープンソースのApache Icebergテーブル形式に基づくSnowflakeのテーブルタイプです。Icebergテーブルは、単一のデータコピーに対するコンピュートエンジンの相互運用性を提供します。Snowflake Icebergテーブルの実装により、データレイク内のIcebergおよびParquetデータと直接やり取りし、オープンレイクハウスアーキテクチャ内のIcebergに貢献して管理できるようになります。
Snowflakeのお客様がIcebergテーブルを採用する理由をいくつか紹介します。
1.エンドツーエンドのオープンレイクハウスの実装:ブロンズゾーン、シルバーゾーン、ゴールドゾーンでSnowflakeが管理するIcebergテーブルにより、単一のデータコピーでSnowflakeの幅広いプラットフォームをセキュリティ、パフォーマンス、ガバナンス、共有で活用できます。データはオープンフォーマットで保存され、外部コンピュートエンジン間で相互運用できます。
2.既存のデータレイクの強化:既存のデータレイクを使用しているお客様は、Snowflakeプラットフォームのパワーを活用したいと考えています。Snowflakeが管理するIcebergテーブルを活用して、データレイクに完全に参加し、自動テーブルメンテナンス、自動クラスタリング、Snowparkによる変換などの機能を活用できます。
3.ゼロサイロでゼロインジェスト:すでにデータレイクで管理されているIcebergデータには、Icebergカタログ統合を介してSnowflakeから直接アクセスできます。データの取り込みやコピーに伴う追加のレイテンシーなしで、Snowflake内のIcebergデータに迅速かつ簡単にアクセスできます。
4.最適化されたパフォーマンス:Icebergテーブルにより、Snowflakeの伸縮性のあるコンピュートエンジンの優れたコストパフォーマンスが、オープンフォーマットで外部に保存されたデータにも拡張されます。
5.テーブルカタログの変換:Icebergデータレイクの成長に伴い、データレイクの管理が複雑化する可能性があります。Snowflakeのシンプルなメンテナンスアプローチでは、データを書き換えることなく、Icebergテーブルのカタログを外部カタログからSnowflakeに変換し、Snowflakeにテーブルのメンテナンスを任せることができます。
一般提供の新機能
既存のSnowflake Icebergテーブルユーザーの場合、一般提供にはさまざまな機能強化が含まれています。
1.セキュリティとガバナンス:Icebergテーブルが依存オブジェクトのUSAGE権限を継承できるようになり、Icebergテーブルのセキュリティが合理化されました。外部ボリュームとテーブルの作成に柔軟性があり、外部IDを指定することもできます。行アクセス ポリシーやダイナミック データ マスキングなどのHorizonのガバナンス機能は、Icebergテーブル上ですぐに機能します。
2.データシェアリングとコラボレーション:外部管理されたIcebergテーブルに対するクロスクラウド/クロスリージョンのサポートにより、どこからでもIcebergデータを活用。Icebergテーブル用のSnowflakeのシームレスで安全な共有機能により、Icebergデータでコラボレーションすることもできます。
3.柔軟で堅牢なデータ処理:無効な文字の置き換え機能を利用して、オープンレイクハウスのブロンズゾーンでクレンジングやスクラブを行います。Icebergテーブルの運用面の新しいビューにより可観測性が向上します。
4.メタデータと進化のサポート:ソースシステムやビジネスレポートのニーズの変化に柔軟に対応できるよう、構造化タイプのスキーマ進化を追加しました。Icebergテーブルのメタデータにプライマリキー情報を追加して、Icebergエコシステムの相互運用性を向上。
5.さらに優れたパフォーマンス:コアSnowflakeエンジンの強化を続ける一方で、自動クラスタリングのサポートを追加し、パフォーマンスをさらに最適化しました。
御社のデータ、御社のやり方:圧縮とエンコードの設定を、ストレージと相互運用性の要件に合わせてください。Parquetファイル内の非マテリアライズドパーティション値のサポートを追加することで、HiveスタイルのパーティショニングでIcebergを使用できるようになります。
オープンで相互運用可能なストレージ上で多くのアーキテクチャとワークロードをサポート
ビジネスやユースケースは、同じ業界であっても大きく異なる場合があり、時間の経過とともに必然的に変化します。データインフラストラクチャーは、現在の一連のビジネスニーズに対応し、変化に応じて拡張および進化できる必要があります。SnowflakeとIcebergテーブルにより、お客様はこれらの変化に適応し、業界をリードするセキュリティ、パフォーマンス、シンプルさを維持しながら、お好みのデータアーキテクチャを展開できます。
Apache Icebergは当初、Apache Hiveデータレイクの信頼性とパフォーマンスの問題を解決するために開発されました。データレイクまたはオープンレイクハウスアーキテクチャにIcebergを導入することで、クエリプルーニングの効率化によるパフォーマンス向上のメリットを享受できます。Icebergでは、データレイク上でアトミックトランザクションを実行することもできます。
Snowflakeのプラットフォームは、データエンジニアリング、人工知能(AI)、機械学習(ML)、ビジネスインテリジェンス(BI)などのさまざまなワークロードをIceberg上で実行できます。たとえば、データサイエンティストはPythonを使用してBronzeレイヤーの生データにアクセスし、特徴量エンジニアリングを実行できます。また、お好みのBIツールを統合して、GoldレイヤーのIcebergテーブル上の高同時実行のワークロードに対応できます。Icebergでは、必要に応じて他のエンジンから柔軟にクエリを実行でき、Snowflakeで実行されるすべてのワークロードのエンドツーエンドの可視性とガバナンスが得られます。
Icebergに対するSnowflakeのサポートの今後
Snowflakeは、お客様の声に耳を傾け、Snowflakeプラットフォームとのオープンで相互運用性のあるストレージで、より幅広いユースケースを実現するお手伝いをし続けます。
- Polarisカタログ統合:オープンなREST API実装に基づくオープンソースのApache Icebergカタログは、今後もデータサイロを解消していきます。
- OneLakeの統合:最近発表されたFabric OneLakeとのパートナーシップの拡大では、Icebergを使用して双方向アクセスを提供します。
- より簡単なIcebergのバッチおよびストリーミングパイプライン:動的テーブルは、Snowflakeプラットフォームで非常に人気のある機能です。動的テーブルのストレージフォーマットとしてIcebergをサポートすることで、データレイクやレイクハウスのデータ処理を簡略化できます。
- 合理的なカタログ統合:自動的に更新されるIcebergテーブルにより、Snowflakeと外部管理されたIcebergテーブルの統合が簡素化され、合理化されます。
- 柔軟なソース:摩擦のないソリューションは、Snowflake Icebergテーブルエクスペリエンスを始めるためのカギです。ParquetとDelta Lakeの両方の「直接」サービス(現在プライベートプレビュー中)では、データをSnowflakeにロードすることなく、所定の場所でデータにアクセスできます。
さあ はじめましょう
7月16日のこのラボに登録すると、Icebergテーブル上でSnowflake NotebookやCortex AIなどのSnowflakeの最新機能を実際に使用して学習できます。それまでの間、今すぐIcebergのハンズオンを体験していただけます。このクイックスタートガイドに従って順を追って説明していくか、Cortex AIをIcebergテーブルでどのように使用できるかを示すこのデモをご覧ください。