製品 & テクノロジー

Apache Iceberg Avalanche(雪崩):オープンテーブル形式がデータレイクのあり方を変える

Digital illustration of an iceberg in a ring with a blue background with white dots

データストレージは、データベースからデータウェアハウスや広範なデータレイクへと進化しており、各アーキテクチャはさまざまなビジネスやデータニーズに対応しています。従来のデータベースは、構造化データとトランザクションワークロードには優れていましたが、データ量の増加に伴って大規模なパフォーマンスに難がありました。データウェアハウスはパフォーマンスとスケールの点で解決されましたが、先行するデータベースと同様に、垂直統合されたシステムを構築するために独自フォーマットに依存していました。データレイクシステムはよりオープンなフォーマットに移行しましたが、ACID準拠のトランザクションや包括的なガバナンスなど、ウェアハウスが提供する機能的なメリットが不足していました。最終的には、ユーザーは2つの選択肢に行き詰まりました。1つは、独自ソリューションしか利用できない完全に統合されたプラットフォームで、もう1つは、リソースを大量に消費し、ベンダーに依存しないデータレイクを常に移行した状態で、最終的に約束された価値を獲得しようとする方法です。    

これで、選択する必要がなくなります。Apache Iceberg™の登場と幅広い採用により、オープンデータレイクハウスが登場しました。オープンストレージとコンピュートを分離することでデータウェアハウスとデータレイクの長所を統合し、データチームがオープンアーキテクチャとデータウェアハウスの優れたパフォーマンスを柔軟に制御できるようにします。そのため、Snowflakeはこのオープンテーブル形式を全面的に採用しています。お客様は、Snowflakeのコネクテッドで信頼性の高い使いやすいプラットフォームのパワーを活用しながら、フルオープンで相互運用可能な形式でデータを保存できるというメリットを得られます。その結果、組織はオープンレイクハウス戦略を加速させ、高度なアナリティクスとAIをより迅速に提供できるようになります。 

Icebergとは

このオープンデータレイクハウス革命の中核は、大規模な分析ワークロード向けのオープンソーステーブルフォーマットであるIcebergです。Icebergはコンピュートエンジンでもデータベースでもありません。ファイル一式がデータベーステーブルのように振る舞う方法を説明するものです。この説明はオープンでエンジンに依存しないため、Icebergテーブルは本質的にベンダーニュートラルです。このような機能とベンダー中立性の組み合わせは、アーキテクチャ進化の次の段階、つまりコンピューティング、フォーマット、ストレージがすべて分離されるオープンレイクハウスの先駆けとなります。  

Icebergテーブルは、ユーザーのオブジェクトストレージにあるデータファイルにメタデータのレイヤーを追加することで、ACIDコンプライアンスを維持しながら相互運用性を確保できます。外部カタログは、最新のテーブルメタデータを追跡し、複数のリーダとライタでの一貫性を確保します。

Diagram showing the Iceberg architecture from data layer to metadata layer to Iceberg Catalog.
Source: iceberg.apache.org

簡単に言うと、Icebergはメタデータです。データファイルは、マニフェストファイル、マニフェストリスト、メタデータファイルではなく、ディレクトリレベルで個別に追跡されます。この適切に調整されたメタデータレイヤーは、Icebergが他の一般的なテーブル形式(e.g.、Apache Hive™)で遭遇する、物理ディレクトリ構造への厳格な依存に起因するより危険な問題の犠牲にならないことを意味します。

Icebergに注目する理由

Icebergテーブルを採用しないと、データチームは、新しいテクノロジーやソリューションがもたらす機会を獲得するまでに、移行やガバナンスの管理に多大な時間とリソースを費やさざるを得ません。Icebergはこのトレードオフを解消します。Icebergは、データエンジニアがストレージレイヤーを所有、管理できる完全な相互運用性を備えたストレージフォーマットを提供することで、互換性のある最新のデータプラットフォームやコンピュートエンジンを柔軟に活用できます。つまり、データチームは妥協することなく、記録的なスピードでアイデアからインパクトを生み出し、今日のビジネスが求めるスピードでインパクトを与えることができます。 

データチームがオープンレイクハウスアーキテクチャをIcebergテーブルに接地することから得られるメリットは次のとおりです。

  • 開発者の生産性:Icebergでは、開発者とデータエンジニアはPostgresなどの標準的なリレーショナルデータベースを使用しているかのように作業でき、データをペタバイトまでスケールアップできます。

  • 一度書けばどこでも読める機能:Icebergは、移行なしで最新のアナリティクスツールすべてと互換性があります。ペナルティなしでエンジンを切り替えたり、複数のエンジンを同時に使用したりできます。

  • コンピュートの高速化:Icebergのメタデータレイヤーはクラウドストレージ向けに最適化されているため、IOオーバーヘッドを最小限に抑えながら、ファイルとパーティションの高度なプルーニングを行うことができます。

これはオープンソース標準であり、サポートし活用するツールやエンジンを問わず利用できるため、Icebergはあらゆる組織にこのような驚異的なメリットをもたらします。最終的に、このオープンさは皆さんにとってのメリットとなります。 

よりオープンマインドになる

Snowflakeは常にユーザーを優先します。テクノロジーの進化が続く中、Snowflakeはオープンソースイニシアチブをサポートすることでお客様を優先し続けています。メリットは明らかです。ユーザーに選択肢があればWinです。このオープンソースへのコミットメントは、スキーマ進化、パーティショニング、トランザクション管理により、統制された効率的なデータレイク管理を実現するというSnowflakeのIcebergへの貢献からも明らかです。 

Icebergはカタログの挙動を指定していますが、Icebergコミュニティは意図的にカタログの提供を避けています。カタログがテーブルのメタデータを管理し、複数のリーダとライターにわたって一貫性を確保するのに役立つことを考えると、標準化されたカタログがないため、Icebergが解決すべきトレードオフを再導入するリスクが生じていました。この場合も、企業は2つの選択肢を迫られます。1つはカタログの実装、管理、維持を自ら行うか、もう1つはロックインの可能性があるベンダーソリューションを利用するかです。このギャップに気付いたSnowflakeは、2024年7月にIcebergカタログを構築してオープンソース化し、Apacheソフトウェア財団(現在のApache Polaris(インキュベーション))に貢献することで、オープンスタンダードとコミュニティ主導の開発へのコミットメントを強化しました。

Polarisは、フル機能のオープンソースIcebergカタログです。設計上ベンダーニュートラルであり、Polarisのガバナンス構造とコミュニティ主導の開発がそれを徹底しています。PolarisによるIcebergのREST APIの実装は、複数のリーダとライタでの一貫性を確保し、ある状態から次の状態にテーブルをアトミックに更新する手段を提供します。 

それだけではありません。Polarisは、組織のデータを保護するための一元化された手段も提供しています。当初は相互運用性のあるIcebergカタログとして作成されたPolarisロードマップは、ユーザーが1つの場所からすべてのデータをカタログ化できるように、より幅広いデータフォーマットとデータオブジェクトタイプをサポートするようになりました。 

オープンデータレイクハウスの構築 

Snowflakeの目標は、組織がオープンレイクハウスの野望を確立して加速し、複雑さを軽減してより大きなインパクトを引き出せるようにすることです。  

さっそく始める: 

  1. Snowflakeの既存のParquetファイルから直接Icebergテーブルを作成し、ロックインされることなく、クラウドストレージプロバイダーに保存されているデータのアクティベーションを開始。

  2. Horizon Catalogを使用して、Snowflakeプラットフォーム内で包括的なセキュリティおよびガバナンスコントロールを適用します

  3. Snowflakeのオープンカタログで、安全なマルチエンジンアクセスを管理しましょう。オープンカタログはPolarisのフルマネージドサービスであり、カタログがホストされている場所に関係なく、ロールベースのアクセス制御(RBAC)、名前空間、定義を保持することでセルフマネージドのオプションを保持し、移行の複雑さをほぼ排除します。

さらに、Snowflakeの伸縮性のあるゼロオペデータエンジンは、Icebergテーブルのクエリ性能と効率を向上させることに特化した機能により、進化を続けています。お客様には、クラウドストレージリクエストを減らしてクエリ実行を高速化するプルーニング技術の向上や、スキャン負荷の高いクエリの高速実行を実現するAdaptive Scanなどのメリットがあります。これらの機能は、新しい実装を行うことなくすぐに利用できるため、パフォーマンスの向上と運用オーバーヘッドの低減が実現します。 

SnowflakeとIcebergによってWHOOPがいかにデータアーキテクチャを再構築し、毎日20時間分のコンピュートを節約し、会社全体のデータアクセシビリティを向上させている方法をご紹介します。 

詳しくはこちら

  • 4月8日とバーチャルで4月9日にサンフランシスコで開催される2日間のイベント、Iceberg SummitでSnowflakeをご体験ください。こけら落としイベントのヘッドラインスポンサーとして、コミュニティをサポートできることを楽しみにしています。

  • 当社のウェビナーをご覧ください「Data Engineering Connect:Building Pipelines for Open Lakehouse」(4月29日、2つのバーチャルデモとハンズオンラボあり)。 

  • The Essential Guide to Modernizing Data Lakes for AI with Snowflake」では、データとAIの可能性を最大限に引き出すための基礎作りに関するエキスパートガイダンスを提供します。

eBook

The Essential Guide to Modernizing Data Lake for AI with Snowflake

データレイクを構築するか、新しいプラットフォームにモダナイズするかを決定する方法と、どこから始めるかについて、エキスパートのガイダンスを受けます。
記事をシェアする

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

30日間の無料トライアルを開始する

Snowflakeの30日間無料トライアルで、他のソリューションに内在する複雑さ、コスト、制約の課題を解決するAIデータクラウドを体験できます。