強固なデータ基盤が生成AIの成功のカギ
注:本記事は(2024年3月18日)に公開された(Why a Solid Data Foundation Is the Key to Successful Gen AI)を機械翻訳により公開したものです。
ほんの数年前、ほとんどの企業がクラウドへの移行を計画しているか、導入を検討していた頃を思い出してください。パンデミックが襲い、働き方を根本から変える必要に迫られたことで、クラウドへの移行が一気に進みました。コスト効率の良い適応性が不可欠でした。パンデミックをうまく乗り切ったのは、迅速にスケールアップまたはスケールダウンできる企業でした。それがクラウドへの移行です。
現在、生成AIの画期的なメリットにより、同じくらい迅速かつ果敢に行動するための新たな推進力が生まれています。今回は、データとそれが処理されるプラットフォームが新しいAIモデルに対応できるようにする必要があります。
しかし、データやデータ型の量、速度、複雑さが常に増している環境では、まだ先は長いです。2021年には毎日2.3ペタバイトのデータが生成されていたのに対し、2025年には毎日7ペタバイトのデータが生成されるようになると推定されています。データの種類は問いません。現在、その大半(80%)は画像、動画、文書などの非構造化データと推定されており、企業はこれらのデータから大きな価値を得ることができていません。
願望と現実の大きなギャップ
データが溢れるこの世界において、組織はこれからの競争に勝つために必要なデータの可用性、真実性、アクセシビリティにかかっていることを認識しています。しかし現時点で、Accentureのクライアントの83%が今後2年間の競争優位性のためにリアルタイムデータが重要になると回答している一方で、31%がデータを効果的に管理していると回答しています。
つまり、願望と現実の間には大きなギャップがあるということです。また、社内外で安全にデータを共有する必要性がミッションクリティカルなものとなる中、堅牢で信頼性の高いデータパイプラインを管理、構築できるかどうかがカギとなります。しかし現在では、55%の企業がソースからエンドポイントまでのデータの系統をトレースできないと回答しています。また、構造化データと非構造化データが、クラウドベースとオンプレミスのさまざまなロケーションにある複数のサイロに保持されているということは、大きな課題です。しかし、これは企業が競争力を維持するために解決しなければならない課題です。
私たちの調査が裏付けています。最も優れたパフォーマンスを発揮している企業では、データをクラウド上の最新の専門データプラットフォームに保存する可能性が2.4倍高いことが分かっています。差別化の主なアクションは?データサイロの解消、重複の除去、信頼性の高いデータ製品の作成、データリワークのコストの削減、よりタイムリーなインサイトと多機能なユースケースの確保、ユーザー採用の改善。
独自データの価値を実現
大規模な機械学習(ML)と生成AIの最大の価値は、企業が独自のデータに基づいてパフォーマンスを根底から揺るがす独自のインサイトと推奨を提供できるときに実現されます。その後、一般的なインターネットトレーニング済みのチャットボットとの対話から、最新の機密情報や潜在的機密情報を活用した関連性の高いコンテンツの生成へと移行できるようになります。
自社のデータを効果的に管理している企業は、このテクノロジーをより的を絞った価値ある方法で活用することができます。たとえば、ライフサイエンス企業が、自社の治験データや製品データに基づいて狭い範囲でトレーニングを行い、競合他社よりもはるかに正確、効率的、迅速に新薬の成功の可能性を予測しているとしましょう。
現代の企業の多くは、グローバルかつフェデレーテッドな方法でデータを生成する広範囲な事業、製品、バリューチェーンを抱えています。上の例のように、より的を絞った個別のモデルを構築するには、チームが複数のクラウドに保存されたデータを安全かつ統制された環境で共有し、アクセスする方法を見つける必要があります。
理想的なソリューションは、AIによって進化し続ける関連規制要件を満たしながら、1次的な最新データを別の場所にコピーすることなく利用できるようにすることです。
このアプローチを採用すると、大量の不要なデータストレージコストを回避できるほか、データサイロの発生も防止できます。また、たとえばきめ細かいデータアクセス制御を維持することで、強力なガバナンスとセキュリティを実現するための重要な手段でもあります。最後に、サードパーティが管理する貴重なデータセットへの、信頼性の高い仮想「クリーンルーム」を介したシームレスなアクセスは、価値創造の新たな機会をもたらします。
セキュリティとガバナンスを優先する
企業が迅速に行動し、同時に安全を確保するには、どうすればよいでしょうか? セキュリティとガバナンスをデジタルコアに据えた包括的なデータ基盤は譲れません 。この基盤では、企業独自のデータやエコシステムパートナーなどの他のソースから取得したデータなど、あらゆるチームが使用するすべてのデータを信頼できなければなりません。
この基盤では、これまで以上に複雑な構成でデータへのアクセスを制御する必要があります。生成AIの素晴らしい点の1つは、これまでAIの専門家やデータサイエンティストしか利用できなかったインサイトへのアクセスを民主化することです。しかし、障壁を下げるとリスクも高くなります。セキュリティとガバナンスがさらに際立つ。
次に何が起こるでしょうか?
多くの企業は、データに関する課題のフェーズ1、つまり構造化データを企業間やサードパーティと共有できるようにすることに、完全ではありませんが成功しました。第2段階では、急増する非構造化データやストリーミングデータを信頼できるようになることは、ほとんどの企業にとってまだ道半ばです。第3フェーズでは、オーダーメイドの大規模言語モデル(LLM)と、このデータで調整またはトレーニングされた大規模なMLモデルを利用します。
第2段階で特に重要なのは、データに対する信頼の獲得です。そのためには、必要なすべてのコンピュートをデータに取り込み、同じガバナンス境界内で利用できるようにするデータプラットフォームが必要です。Snowflakeのパートナーと協力して、クライアントの目標達成をサポートしています。Snowflakeのプラットフォームは、データレイヤーとクラウドをまたいで制御を提供することで、データの近くで処理を行えるようにします。つまり、AIモデルが信頼できるデータを毎回使用していることを全社的に把握していることになります。その保証がなければ、モデルが誤ったインサイトを提供するリスクが常にあります。
そして、業界をリードするAIとLLMのメリットを民主化し拡張するフェーズ3に必要なのは、(AIスペシャリストだけでなく)すべての人がこれらの最先端のテクノロジーにアクセスして使用し、信頼できるすべてのデータを適用してカスタム構築LLMとオープンソースLLMの両方をトレーニングし、プロンプトを出せるようにすることです。
クラウドデータプラットフォームへの投資
組織がどのような段階に到達しているか、または目指しているかにかかわらず、デジタルコアのための最新のデータプラットフォームに今すぐ投資することは、「後悔のない」投資です。最も価値の可能性がある事業領域を特定し、それらに供給するデータパイプラインの管理とセキュリティ方法を最適化するために投資します。
私たちは、クライアントが最優先事項としてこれに投資しているのを見る機会が増えています。生成AIとMLの機能は、さまざまな業界の企業にとって急速に重要な差別化要因となりつつあります。この世界では、すべての企業がこれらの機能へのアクセスを民主化し、使用するデータの信頼性を確保する必要があります。
それができれば、3つの主要な方法で競合他社をリードして競争力を確保できます。
- すべてのビジネスチームが数秒で日常的なアナリティクスにAIを活用できるようにする
- 技術ユーザーがわずか数分でAIアプリを構築、展開できるようになり、イノベーションの提供が促進されます。
- すべてのデータとモデルのセキュリティとガバナンスの維持。