AL ML

データがある場所でエンジンを動かす:ビッグブランド3社のレイクハウス上でのアナリティクスとAIの強化方法

powering

データへのアクセスがかつてないほどに増加するなかで、企業は信頼性の高いアナリティクスとAIを大規模に提供することがかつてないほど困難になっていることに気づいています。データレイクがビジネスクリティカルなアナリティクスや意思決定のための共有基盤になるにつれて、信頼性、同時実行性、コスト予測可能性に関する課題が急速に浮上しています。

オープンテーブルとデータフォーマットは、この課題の一部に対処しつつあります。Apache Icebergなどのフォーマットは、データの保存とアクセスの方法を標準化することで、組織のデータ制御を強化し、エンジン間で相互運用可能なアナリティクスの基盤を構築します。しかし、オープン性だけではアナリティクスの問題は解決しません。

データが複数のクラウド、カタログ、ツールにまたがっているなかで、多くのチームはいまだにビジネスの期待に応えるアナリティクスの提供に苦労しています。パフォーマンスチューニング、運用オーバーヘッド、断片化されたセキュリティモデルは、生データと信頼できるインサイトの間に立ちはだかることがよくあります。

効率化を念頭に置き、アナリティクスアーキテクチャを再考する組織が増えています。ツールをデータのある場所で使用したいという動機は、オープンストレージで単一のガバナンスの確保されたデータを維持することにあります。それにより、チームはデータセットの移動や複製ではなく、価値の抽出に集中できます。

ここに新しいアプローチが形づくられつつあります。Apache Icebergなどのオープンテーブル形式をベースに、Deltaなどの追加形式をサポートすることで、Snowflakeはビジネスクリティカルなワークロード向けに設計された強力なアナリティクスエンジンをデータ自身に直接提供します。チームは、データを別のシステムに移行することなく、データの存在する場所ですべてのデータを扱えます。パフォーマンス、信頼性、コストに対する信頼を損なう必要はありません。

このアプローチは原理的には魅力的ですが、実践するとさらに効果的です。このラウンドアップでは、BMW Group、Indeed、WHOOPの3社のお客様が、このアプローチを自社のデータ資産全体にわたってアナリティクスとAIを強化し、オープンデータアーキテクチャを測定可能なビジネス成果に結びつけるためにどのように活用しているかを明らかにします。

ビジョンから実証へ

Indeed:コストを43%削減しながらセルフサービスデータアクセスをスケーリング

Indeedは、52ペタバイトのデータレイクを運営しており、ビジネス全体にわたってミッションクリティカルなレポート作成、分析、実験をサポートしています。セルフサービスアクセス(つまり、Apache Iceberg™テーブルの読み取りと書き込みの機能)の需要が高まるにつれて、データエンジニアリングチームはボトルネックを発生させることなくアナリティクスを拡張する方法を必要としていました。

Indeedは、データレイクをHive-ORCからApache Icebergに変換することで、オープンデータ戦略に沿った「write once, read anywhere (一度書いたらどこからでも読める)」アプローチを採用しました。Snowflakeでは、アナリストはHorizonカタログを通じて列レベルのセキュリティやマスキングなどのセキュリティとガバナンスの制御を維持しながら、Icebergテーブルを直接読み書きできます。

Indeedは社内テストにおいて、IcebergテーブルでSnowflakeを使用した場合、その環境で評価した他のアナリティクスエンジンと比較して、クエリコストが43%~74%低いことを確認しました。Indeedは、オープンフォーマット、ガバナンスの確保されたアクセス、高性能アナリティクスの組み合わせにより、拡張性に優れたレイクハウスでの実験、製品分析、インサイト生成を加速しています。

Indeedは、SnowflakeのApache Icebergネイティブサポートにより、膨大なデータレイクを、ガバナンスの効いたセルフサービス型の分析プラットフォームへと変貌させました。

WHOOP:リアルタイムの健康インサイトを強化しながらコンピュート時間を短縮

​​WHOOPは、ウェアラブルデバイスから毎日何十億もの生体信号を分析し、会員のインサイト、製品イノベーション、ビジネス予測を強化しています。同社が規模を拡大するにつれて、機密性の高い医療情報のための強力なガバナンスを維持しながら、複数のシステムにわたっているデータを統合する方法が求められていました。

WHOOPは、Snowflake上にデータを統合し、Apache Icebergを使用することで、Horizonカタログを通じてセキュリティを維持しながらデータアクセスと管理を簡素化しました。同社は、新しいAI/ML財務予測モデルの実行速度が3倍になったことに気づき、運用の複雑さを軽減したことで、毎日20時間のコンピュートを削減しました。

WHOOPはSnowflakeを活用することで、分析とAIを強力な競争優位性へと昇華させています。財務予測の迅速化に加え、メンバーの一人ひとりに最適化されたパーソナライズ体験の提供を加速させています。

BMWグループ:1万人のユーザーをグローバルなインサイトに接続し、25%の効率向上を実現 

BMWグループは、クラウドデータハブを通じて大規模なグローバルデータ環境を運用し、組織全体にわたって製造、サービス、サプライチェーン、持続可能性のユースケースのデータを集積しています。このプラットフォームは、柔軟性と一貫したガバナンスの両方が大規模に求められる、15のビジネスドメイン上の6,000以上のデータセット、月間1万人以上のユーザーへのサービス提供にまたがっています。

このベストオブブリードのアーキテクチャをサポートするために、BMWはApache IcebergとAWSネイティブのツールを使用してオープンな分散データを管理しており、高速で信頼性の高いアナリティクスが必要な場所ではSnowflakeを統合しています。Snowflakeは、BMWの既存のデータ資産に高パフォーマンスのコンピュートをもたらし、確立されたシステムの中断や不要なデータのコピーなしに複雑な運用分析を可能にします。

このアプローチは測定可能な結果をもたらしています。

BMWは、特定のサービスデータ・ワークロードにおいて平均25%のコスト削減を達成したと報告しています。同社はすでにSnowflake上で60以上のデータ活用事例を実用化しており、地域やワークロードを問わず一貫したガバナンスを維持しながら、各チームがより迅速にインサイトを獲得できる環境を構築しています。

複雑さから明確さへ

BMW Group、Indeed、WHOOPはそれぞれ異なる圧力に直面しましたが、共通のパターンがあります。それぞれが、アーキテクチャの効率性を維持し、ガバナンスの確保されたオープンな単一の基盤を維持するために、自社のデータのある場所でツールを使用することを優先しました。Apache Icebergのようなオープンテーブルフォーマットへの移行は、データ管理を大規模にするために必要な構造、一貫性、相互運用性を提供することを可能にしました。そして、Snowflakeは、オープンデータ上で直接実行できる信頼性の高いアナリティクスとAIエンジンを提供し、チームが利用規模に応じて同時実行性とコストを管理できるよう支援しました。

​こうした組織は、複数のエンジンやガバナンスレイヤーをつなぎ合わせるのではなく、データのある場所でSnowflakeを実行することで、すでにSnowflakeで実行されている作業を補完しました。統合された強力なアナリティクスエンジンをすべてのデータ資産に適用し、Snowflakeに保存されているオープンデータに対して直接作業を行いました。この変化により、データプラットフォームを再構築することなく、より迅速な移行、運用の簡素化、信頼性の高いアナリティクスとAIの提供が実現しました。

これらの例で、アーキテクチャの3つのコア原則が一貫して示されています。

  • データの存在する場所にアクセス:IcebergDeltaテーブルParquetファイルなど、データの存在する場所で、データの移動や複製なしに作業できます。

  • 大規模な高パフォーマンスの提供:ビジネスクリティカルなワークロードの同時実行をサポートし、利用の増加に応じて、スピード、パフォーマンスの信頼性、予測可能性を実現します。

  • アナリティクスとAIの統合:単一のアナリティクスプラットフォームで、データの保管場所に関係なく組織全体のチームの意思決定を加速できます。

Snowflakeは、こうした組織のオープンアーキテクチャを置き換えたわけではありません。つまり、データに必要なパフォーマンスと信頼性をもたらし、オープン性と運用上の信頼性の間のトレードオフを排除しました。WHOOPのSLA遵守、BMWのコスト削減、Indeedのデータチームの影響力強化につながりました。 

以下の機能は、チームがデータの保管場所を変更することなく、実稼働グレードの分析エンジンをオープンデータに持ち込む仕組みを示しています。

機能

概要

ビジネスへの影響力

任意のIcebergテーブルでの読み取り/書き込み/管理 機能

物理的な場所やカタログソースに関係なく、すべてのIcebergデータアセットの運用とライフサイクル管理を一元化

インサイトの加速とコスト削減:インプレースデータの分析により、一貫したグローバルセキュリティとパフォーマンスを大規模に実現

自動最適化

バックグラウンドでファイルサイズ、パーティション、クエリを継続的にチューニング

クエリ速度の向上と総保有コストの自動削減

事業継続性とレプリケーション

重要なIcebergテーブルのクロスリージョンフェイルオーバーを提供する

アップタイムの維持と事業継続性の保護

Snowflake Cortex AIとSnowpark

データの存在する場所でML推論とデータアプリを直接実行

生データからアクション可能なインサイトへのサイクルを短縮


セマンティックビュー

ビジネスメトリクスとエンティティ関係を一元的に定義して保存し、AIエージェント、BIダッシュボード、SQLクエリに一貫したロジックを提供する

生データとビジネスコンテキストの間のギャップを埋め、すべてのツールにわたって正確なLLM応答と統合されたガバナンスの確保されたインサイトを促進する

データの存在する場所でアナリティクスとAIを実行するためのシンプルな方法

組織がアーキテクチャの効率性を追求するなかで、次のようなコンセンサスが生まれています:システム間でデータを移動するのではなく、ガバナンスの確保された単一のデータコピーを保持し、そこにアナリティクスとAIエンジンを導入します。Snowflakeは、そのデータを信頼できるアナリティクスとAIに変換する統合されたエンジンとワールドクラスのプラットフォームを提供します。BMW、Indeed、WHOOPは、さまざまな業界が意思決定の迅速化、ガバナンス制御の強化、業務の効率化を実現できる仕組みを示しています。

データの準備が整いました。さあ、いよいよ本番です。

必携ガイド

レイクハウスの分析とAI

AIの新時代に向けたエンタープライズアナリティクスを設計する
記事をシェアする

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Where Data Does More

  • 30日間の無料トライアル
  • クレジットカード不要
  • いつでもキャンセル