Snowflakeインターナルマーケットプレイスを使用したAI-readyデータプロダクトを提供するベストプラクティス

AIの実験段階から、測定可能な成果を出す段階への移行を求めるプレッシャーが、かつてないほど高まっています。あらゆる場所の経営幹部や取締役会では期待が高まっており、ROIの提示、AI投資による効率性の向上の証明、より賢明な意思決定の支援、そして革新的な製品開発の促進をチームに要求しています。また、信頼できるアクセス可能なコンテキスト化されたデータの基盤がなければ、AI戦略は完了しません。残念ながら、多くの組織やビジネスリーダーは質の高いデータを簡単に利用できるように整備することに苦労しており、その結果、最も高度なAI戦略でさえ失敗に終わってしまいます。
AI-readyの課題とデータプロダクトが重要な理由
AIの成功の鍵は、MLのモデルトレーニング、アルゴリズム、コンピュート能力だけにかかっているわけではありません。実際にはデータがなければ始まりません。生データだけでなく、ビジネスチームやマシンが構築、共有、容易にアクセスできる、高度にキュレーションされた、コンテキストリッチなデータプロダクトの整備も必要です。こうしたデータプロダクトの共有に対する従来のアプローチは、次のような障害をもたらします。
- サイロ化したデータが部門間で共有されない
- 信頼できるデータセットを見つける際に重複作業と無駄な時間が発生
- 負荷の高い中央データチームからのアクセスのボトルネック
- データオーナーシップ、完全性、信頼性に関する不確実性
簡単に言うと、生データだけでは不十分です。AIには、「コンテキストのあるキュレーション済みのデータや、信頼できる高品質なデータ」、つまりチームが信頼して使用できるデータが求められます。
そこで登場するのがデータプロダクトです。単なるデータセットではなく、メタデータ、セマンティックモデル、ビジネスに合わせた定義で内容をエンリッチした、キュレーション済みのデータコレクションです。信頼できる一貫したデータソースを使用することで、組織はイニシアチブの整合性を確保し、効果的なモデルをトレーニングし、ビジネス全体でAIを真に実用可能にすることができます。
Snowflakeインターナルマーケットプレイスによるデータプロダクトの構築と提供
この課題に対処するため、Snowflakeインターナルマーケットプレイスは、チームが信頼できるデータプロダクトを発見、共有、利用できる、一元化されたセキュアなハブを提供します。インターナルマーケットプレイスは、従来の断片的な共有アプローチとは異なり、次のことが可能になります。
複数のチームにわたってデータを簡単に発見し、再利用できるようにする
重複作業を削減しAI-readyを加速する
組織でアドホックな生データ共有する方法から、信頼できる認定済みの利用可能なデータプロダクトを中心とした戦略的アプローチに移行する
単なるデータダンプではなく、信頼できる内部カタログを作成する
インターナルマーケットプレイスは、データ共有やデータプロダクトリスティングなどのSnowflakeのネイティブ機能を活用し、チームが複数のクラウドやリージョンにまたがってAI-readyデータの構築、共有、利用を自信を持って行えるという点が重要です。また、より広範なSnowflake Horizonカタログにも組み込まれており、ディスカバリーとコラボレーションの機能だけでなく、ガバナンスとセキュリティのソリューションも提供します。Horizonカタログは、インターナルマーケットプレイスで利用可能な、信頼できるキュレーション済みのデータプロダクトのサポートを可能にし、AIのユースケース構築が可能な、ガバナンスの確保されたアクセス可能なデータを可能にする機能を提供します。
グローバルを牽引するモビリティテック企業として、忘れられない旅の体験をお客様に提供するために、データの可能性を最大限に活用することが不可欠です。Snowflakeインターナルマーケットプレイスは、私たちのデータチームがデータプロダクトを組織内で安全に共有し、促進することを可能にし、Flix全体で情報に基づいたデータ主導の意思決定を推進します。
—Tobias Hadem氏
Snowflakeインターナルマーケットプレイス活用のベストプラクティス
組織がデータプロダクトに重点を置いた戦略を採用し、インターナルマーケットプレイスの性能を探求する際には、ベストプラクティスが強固な基盤を提供する一方で、時には個別の設定が必要だと理解することが重要です。
Snowflakeでは、データドメインがデータプロダクトを所有することを推奨し、アカウンタビリティと専門知識を醸成しています。ただし、リスティングの設定、ロールの定義、データセットの活用、コンシューマーへの採用促進など、インターナルマーケットプレイス固有のアーキテクチャランドスケープや組織構造に合わせた調整が必要な場合があります。
そこで、ここでは9つのベストプラクティスをご紹介します。これらの推奨事項は、特にAIイニシアチブを推進する際に、Snowflakeインターナルマーケットプレイス内でデータプロダクトの価値を最大化するための、出発点と主な考慮事項を提供することを目的としています。
1.ビジネス成果を特定し、データプロダクト戦略と整合させる
重要である理由:データプロダクトの価値を最大化するには、収益成長、顧客獲得、製品導入、運用効率など、ビジネス上の最重要優先事項と直接関連付ける試みから開始します。この連携がなければ、チームは孤立したデータアセットを構築することになり、真の成果を生み出すことができないリスクがあります。ビジネスに整合したアプローチは、データプロダクトの取り組みに焦点を当て、測定可能でスケーラブルな取り組みにするのに役立ちます。小さなことから始めても大丈夫と心得ておきましょう。特定のユースケースを選択し、それをサポートするデータプロダクトを構築し、そこから拡大します。
方法:優先順位の高いビジネスイニシアチブを3~5つ(または1つだけ)マッピングします。それぞれについて、成功を実現するために必要な具体的なデータセットやインサイトを特定し、その成果を実現するために必要なデータプロダクトをリストします。複数のイニシアチブをサポートしている場合は、共通の基盤データプロダクトを必要とするユースケース間で重複がないか探します。重複したところが構築を開始する優先リストとなるため、影響力の高い再利用可能なユースケースをすぐにサポートできます。
2.インターナルマーケットプレイスで組織内リスティングを使用して、キュレーション済みのデータプロダクトを構築する
重要である理由:断片的な生のデータセットは、データコンシューマーの摩擦を引き起こし、AIやアナリティクスのイニシアチブにリスクをもたらします。キュレーション済みのデータプロダクトは、複雑さの軽減と定義の標準化を支援し、ビジネスニーズに合わせてすぐに使用できる、信頼性の高いリソースを提供できるようにします。
方法:組織内リスティングを使用して、信頼できるAI-readyのデータプロダクトをパッケージ化し、セキュアに共有できます。Snowsightインターフェイスを通じて、リスティングの作成、アクセス権限の定義、ディスカバリーパラメータの設定を実施できるため、チームはデータを簡単に見つけて利用できます。リスティングは、すぐに使用できるように構築された高品質なデータセットへの、ガバナンスとキュレーション済みのアクセスを提供します。これによって、顧客セグメンテーション、モデルトレーニング、収益予測など、さまざまなユースケースをサポートします。
3.セマンティックモデルを統合して真のAI-readyを実現する
重要である理由:構造とコンテキストは、AIがデータを確実に消費し、データからインサイトを生成するために不可欠です。セマンティックモデルはその基盤を提供し、機械可読のビジネス定義、関係、用語によってデータプロダクトをエンリッチします。AIモデルがなければ、生データの一貫性のない解釈に依存し、精度とスケーラビリティが損なわれる可能性があります。
方法:最初から堅牢なセマンティックレイヤーを使用してデータプロダクトを設計します。Snowflakeセマンティックビュー機能は、セマンティック定義を組織全体に拡張する際に役立ちます。これにより、データプロダクトの発見可能性、コンテキストリッチ性、AI利用の最適化が確保されるため、曖昧さの軽減、データ品質の向上、AIモデルの開発の加速が実現します。
4.インターナルマーケットプレイスの組織プロファイルを通じて、ドメイン表現の信頼を確立する
重要である理由:大企業では、無数のチームがデータを公開し、利用しています。オーナーシップとデータ品質が明確でなければ、信頼を失い、定着も停滞します。データプロバイダープロファイルは、組織プロファイルとも呼ばれ、構造と透明性をもたらし、コンシューマーがデータの出所とメンテナンスの責任者を正確に把握できるようにします。
方法:インターナルマーケットプレイス内で、セールス、マーケティング、製品などのビジネスユニットに結びついた組織プロファイルを作成して、ユーザーがビジネスドメインを特定して信頼できるようにします。これらのプロファイルは、SnowflakeのUniform Listing Locatorの中核的な部分であり、リスティングをマウントすることなく簡単に公開、発見、クエリできます。プロファイルは信頼を築き、ディスカバリーを簡素化し、アカウンタビリティを促進するため、チームは信頼性の高いデータプロダクトを簡単に見つけて使用できます。
5.セキュアでガバナンスの確保されたアクセスワークフローの実装
重要である理由:すべてのユーザーがすべてのデータにアクセスするべきとは限りません。幅広いデータディスカバリーと強力なガバナンスのバランスをとることは、コンプライアンスと組織の信頼の維持の両方にとって重要です。適切なアクセスワークフローにより、データを安全に民主化して不正使用を防止しながら、承認されたユーザーが必要な情報を簡単に検索してリクエストできるようになります。
方法:「発見可能だがアクセス不可」(DNA)などの機能を使用して、データアクセスを正確に制御し、特定のユーザーには即座のアクセス権限を与えることなく、データプロダクトの発見のみを許可します。これにより、セキュリティを維持しながら利用可能なデータセットを効果的に示すことができます。実際のデータ消費については、アクセスリクエストのワークフローによってプロセス全体が合理化されます。データを発見できるユーザーを定義し、アクセスリクエストの承認者を指定し、レビューとフルフィルメントを自動化することで機密データを保護しながら、許可されたユーザーにAI-readyの価値あるデータプロダクトへの円滑でセキュアなアクセスを提供します。
6.データプロダクトをすぐに利用できるように設計する
重要である理由:チームは、モデル、パイプライン、その他のプログラムに直接統合できる、すぐに使用できる構造化されたデータプロダクトを必要としています。大規模な手戻りや手作業でのデータ準備は望んでいません。セルフサービスのAI-readyデータプロダクトを構築することで、チームは迅速に行動し、価値創造に集中し、インサイト獲得までの時間を短縮できます。
方法:(マーケティング、セールス、プロダクトなどの)データコンシューマーやアナリティクスチームと緊密に連携し、テーブル、スキーマフォーマット、エンリッチメントニーズなどのデータ要件を把握します。こうしたニーズを念頭に置いてデータプロダクトをパッケージ化することで、モデルトレーニング、マーケティングプログラム、収益モデリング、リアルタイムAIワークフローの用途において、データプロダクトを適切にフォーマットし、セマンティックに整合させ、すぐに利用できるようにします。ユーザー定義関数(UDF)を活用して、データプロダクト作成の一部として一貫したビジネスロジックを適用したり、生データをエンリッチしたりできます。UDFでは、リスティング内に再利用可能な変換を埋め込むことで、手作業の削減、標準化の改善、一貫したアクセスの確保を実現できます。
7.社内でのデータプロダクトの認知度と導入の促進
重要である理由:世界最高水準のデータプロダクトであっても、その存在や使用方法をチームが把握できなければ、価値はありません。データプロダクトの取り組みのROIを最大化するためには、社内での導入が不可欠です。認知度の向上により、再利用の促進、重複の削減、AIプロジェクトのタイムラインの加速がもたらされます。
方法:インターナルマーケットプレイスで利用可能なデータプロダクトを促進する社内イネーブルメント戦略をローンチする:
Slack、Eメールニュースレター、イントラネットサイトを通じて新しいデータプロダクトを発表する
インタラクティブなワークショップ、デモ、または「マーケットプレイスロードショー」を開催して、利用可能なアセットをアピールする
チームがAIのモデルトレーニング、顧客の360度ビューのイニシアチブ、収益予測などにデータプロダクトをどのように活用しているかを強調するサクセスストーリーを公開する
より多くのチームが関与すればするほど、データプロダクトのエバンジェリストが生まれ、組織は信頼できるデータとAIドリブンな成果をより迅速に拡大できるようになります。
8.データメンテナンス戦略を確立する
重要である理由:鮮度に欠けるデータプロダクト、または低品質のデータプロダクトは、信頼を損ない、AIの有効性を低下させます。継続的なメンテナンスにより、データプロダクトは鮮度と関連性を維持し、進化するビジネスやAIのニーズとの整合性を確保できます。
方法:明確なプロセスによるオーナーシップと維持の運用化:
データプロダクトオーナーとデータスチュワードを割り当てて、各プロダクトを管理する
更新スケジュール、品質モニタリング、バージョン管理ポリシーを定義する
廃止プロセスを確立して、古い製品や未使用の製品を安全に廃棄する
正式なメンテナンス戦略によってデータプロダクトの信頼性が維持されるため、リスクが軽減され、チームはAI-readyの高品質なデータに一貫してアクセスできます。
9.データプロダクト作成の自動化による大規模化
重要である理由:組織が成熟するにつれて、リスティングの作成と更新を手動で行うようになると、作業が遅延します。自動化は、進化するデータニーズに対するスケーラビリティ、一貫性、即応性を加速します。
方法:SnowflakeプログラマティックなListing APIを使用して、SQLおよびYAMLマニフェストによる組織リスティングの作成、更新、管理を実施できます。これにより、リスティングの一貫性、ガバナンス、AI-readyを維持しながら、新しいデータプロダクトをチームやリージョン間で迅速にロールアウトできます。リスティングの自動実行と組み合わせることで、チームは運用効率とAIイニシアチブの両方をサポートする、スケーラブルでグローバルなデータプロダクトのエコシステムを維持できます。
Snowflakeインターナルマーケットプレイスは、アイデアを共有データから実用的なインサイトを得る段階へと迅速に進めることを可能にし、業務効率と開発者のエクスペリエンスを向上させています。様々なチームのデータを利用できるようになるまでの時間が、劇的に短縮されました。
—Patrick Boucher氏
発見可能で信頼できるデータプロダクトを利用してAIイニシアチブを強化する
AIはビジネス運営を変革しています。そして、信頼性が高く、キュレーションされ、アクセスしやすいデータは、AIイニシアチブの成功の核となります。
Snowflakeインターナルマーケットプレイスでデータプロダクトを構築すると、AI戦略の次のフェーズへの準備に役立ちます。AIイニシアチブを成功に導く基盤を提供し、チームが自信を持ってAI-readyデータプロダクトを発見、共有、利用できるようにします。本ブログ記事でご紹介した9つのベストプラクティスを実行することで、組織はデータサイロを解消し、重複作業を削減し、高品質で信頼できる、組織で必要とされるデータでAIプロジェクトを推進できます。