データだけではなく、データプラクティスもAI-readyが必要

AI-readyデータとは、昔から言われてきた「ゴミを入力するとゴミが出力される」以上の意味があります。もちろん、誰もゴミはいらないのですが、「ある人のゴミは他の人の宝物」という別の言い方もあります。鍵となるのは、特定のイニシアチブに何が必要かを知ると同時に、あなたが何をすでに持っているかを把握することです。データは、詳細なラベル付けや公開を含め、評価、管理、ガバナンスを行う必要があります。このラベル付けや公開が再利用の鍵であり、効果的で効率的なAIが目指す究極の目的といえます。
料理にたとえると、AI-readyなデータの準備といっても、単にサラダをかき混ぜるだけではありません。キッチンでは、特定のレシピのために生の食材を準備する必要があります。ジャガイモは、作るものによってはスライス、角切り、すりおろしが必要になることもあります。そもそも、そのステップに進む前に、ジャガイモを見つける必要があります。おそらくは、ジャガイモを洗って綺麗にする必要もあるでしょう。そして、一緒に提供する他の食材を見つける必要があります。調味料にもラベルを付ける必要があります。砂糖を塩と間違えたり、スモークパプリカを辛いカイエンペッパーと間違えたりしたくはありません。
AI-readyデータは、あらかじめ用意された食材のようなもので、すぐにAIモデルに取り込むことができます。先日開催されたSnowflake Summitでは、AI-readyデータの主な特性に対応するAIデータクラウドの機能を発表しました。以下にその機能をいくつか挙げます。
- 品質:言うまでもなく、最高のシェフは質の高い食材を使用します。お客様は、Snowflakeを使用して品質基準(鮮度、重複、カスタム指標など)を定義し、データメトリック関数で監視できます。リアルタイムモニタリングにより、クエリパフォーマンスや変更されたデータに対するリアルタイムのフィードバックが可能になり、継続的なデータ品質モニタリングが容易になります。これからは、Snowflake Cortex AIを使用して、データクレンジングの自動化、異常検知、データセットの標準化のほか、欠損値の提示も行えるため、手作業の削減と一貫性の向上が実現するようになります。
- 多様性:食料庫にはさまざまな食材をストックする必要があります。同様に、データの多様性は、質の高いAI成果の確保に役立ちます。Snowflakeは、お客様が多様なタイプのデータを保存し、分析してAIを適用できるようにします。オープンソースフォーマットをサポートしているため、お客様はSnowflake環境の外部にあるデータなど、さらに幅広いデータにアクセスできます。さらに、トレーニングデータをパートナーデータまたは外部プロバイダーから取得したデータに拡張することで、多様性をさらに確保できます。また、合成データを生成することで機密データへのアクセスを改善し、欠落データのパラメータがわかっている場所でのデータ表現のバランスを取ることができます 。
- 鮮度:当然、原料は新しい方が望ましいです。料理の重要な食材が新鮮でないことがわかることほど、がっかりすることはありません。データが存在する場所でデータにアクセスできることは、Snowflakeプラットフォームの常に強力な価値提案であり、AIモデルに最も関連性の高いタイムリーな情報へのアクセスを提供してきました。また、Snowpipeの継続的データ取り込みサービスにより、データロードプロセスが自動化され、データ到着後すぐに分析を行えるようになるため、タイムリー性が向上します。
- ガバナンス:シェフも、トリュフの季節のように、特定の食材を厳重に管理したいと考えているかもしれません。Snowflake Horizonで利用可能なSnowflakeの新しいガバナンス機能により、アクセス権と利用権限を詳細に定義し、ロールベースのアクセス制御、データマスキング、オブジェクトタグ付け、監査などの機能で厳格に適用できます。Snowflakeの戦略は、機密エンタープライズデータを外部に移動するのではなく、セキュアな環境内のデータのある場所でAIモデルを実行することです。これにより、外部AIツールに関連するセキュリティとガバナンスのリスクが大幅に軽減されます。食材を近所の家に持っていくのではなく、自分のキッチンで確実に調理するようなものです 。
- ディスカバリー:当然ながら、シェフはできればラベル付きの容器で食材を判別する必要があります。そして、原料や製造元など、できるだけ詳細な情報を知る必要があります。食材の栄養成分表示はメタデータのようなものです。Snowflake Horizonカタログなどのデータカタログは、メタデータ、コンテキスト、アクセシビリティの詳細を含むデータアセットのインベントリを提供し、データの検索と理解を容易にします。SnowflakeのSnowsightインターフェイスは、オートコンプリート、自動データプロファイリング、可視化、ダッシュボードによる迅速なデータ探索を可能にします。また、Snowflakeマーケットプレイスでは、内部データと外部ソースの両方を使用して、多様なデータセットや事前構築されたアプリケーションを簡単に発見し、アクセスできるようになります。これは、どのシェフにとっても非常に使いやすいキッチンのようなものです。
結論としては、AI-readyデータは、あれば便利というだけではありません。効果的で効率的なAIを求めるなら、適切な学習が必須です。関連性が高くクリーンなデータは、AIモデルのパフォーマンスの改善を意味します。データの検索と理解が簡単であれば、準備に費やす時間が少なくて済みます。たとえば、小麦粉、砂糖、塩がたっぷり入った整理されたキッチン、ラベルと日付の入った容器が並べられたスパイスラック、新鮮な食材が詰まった冷蔵庫のようなものです。このようなデータがあれば、AIイニシアチブの構築、ローンチ、スケーリングをさらに迅速化し、複数のプロジェクトにわたってデータの再利用を促進できます。
ほとんどのAI-readyデータは「すぐに利用可能」な状態ではない
データは発生と同時にAI-readyになるわけではありません。パッケージ化された、すぐに利用できるバージョンのデータはまれです。運が良ければそのようなデータもあるかもしれません。しかし、優れたデータプラクティスを開発できれば、チームが必要とする食材を見つけることができる、独自の社内マーケットを構築できます。
AI-readyデータの責任は、1人の個人や部門にあるわけではありません。リーダーシップ、技術チーム、データオーナー、そしてAIデータを利用するユーザーなど、組織内の複数のステークホルダーが部門で共有する、機組織全体の複数のステークホルダーによる共有の部門横断的な取り組みです。キッチンにたとえると、シェフ以下のグループの連携が必要です。
新しい役割に焦点を当てるのではなく、責任に着目します。つまり、誰を雇う必要があるのかではなく、何を達成する必要があるのかに焦点を当てます。以下は、必要となる可能性のある責任の概要です。
- サポート役のエグゼクティブは、組織全体で展開するAIイニシアチブの成功に不可欠です。エグゼクティブは、どのAIとデータ戦略を整合させる必要があるかという、全体的なビジネス目標を定義します。こうした目標の達成をサポートするために必要な予算、人員、テクノロジーインフラストラクチャを割り当て、データとAIの効果的で責任ある利用を促進する文化を支援します。四半期末に報告される利益や週末に発生したデータ侵害など、組織内の事象については最終的にエグゼクティブが責任を負います。AIのエグゼクティブ運営委員会は、リーダーシップに情報を与え、関与させる必要があります。
- データリーダーシップ(CDO:最高データ責任者)は、エグゼクティブ運営委員会の一員として、データ品質、セキュリティ、アクセシビリティを確保するためのデータ戦略、ポリシー、手順の定義と実装の責任を負います。CDOまたは同等の役職者は、他のビジネスユニットと連携し、データオーナーシップとデータスチュワードシップに関する明確な役割と責任を定め、収集から保管、処理、使用に至るまでのデータライフサイクルの管理に関するガイドラインを策定します。CDOの役割は企業ごとに異なりますが、たとえタスクがビジネスユニットに分散していても、(料理のたとえに戻りますが)エグゼクティブシェフとしての役割は果たすべきです。CDOは、ポリシー、要件、使用を調整するためのデータ審議会を主導します。
- データオーナーシップとデータスチュワードシップは、特定のデータセットに最も精通した特定のビジネスユニット内に存在します。オーナーシップはアカウンタビリティを意味します。スチュワードシップは、データの正確性、完全性、一貫性について責任を負います。こうしたタスクを持つ組織は、データが適切にキュレーションされ(つまり確立されたガバナンスポリシーに従って収集、文書化、維持され)、ドメインのデータが関連する規制や内部ポリシーに準拠していることを確認します。そして、実際にキッチンで調理をする一連のコックがいます。小規模な組織や一元化された組織は、単一のデータチーム内でデータオーナーシップとスチュワードシップを維持しますが、大規模になると、一元化された各チームがボトルネックになります。ただし、すべてのビジネスユニットに均等にタスクを配分する必要はありません。ハイブリッドのオーナーシップとスチュワードシップが一般的であることに変わりはありません。
- プラットフォームとデータエンジニアリングのタスク(データを収集、保存、処理し、AIモデルからアクセスできるようにするデータインフラストラクチャ、パイプライン、プラットフォームの構築と維持)は、多くの場合、IT部門内で実行されます。しかし、こうした役割を持つ組織は、異なるソースからのデータの統合、一貫性と相互運用性の確保、データセキュリティ、アクセス管理、プライバシーの制御の実装において、コラボレーションを行っています。データエンジニアリングの作業を分散することもできます。
- コンプライアンス、法務、倫理レビューは通常、特定の専門チームが行います。特に機密情報や個人情報に関するすべてのデータプラクティスが、関連するデータプライバシー規制(GDPRやCCPAなど)や新たなAI規制(EU AI法など)に準拠するよう、コンサルタント的な役割を果たします。Salesforceのように、製品チームや顧客全体にわたるAIの使用を監視する倫理部署を持つ企業もあります。このような企業はデータやAIモデルのバイアスを特定して緩和するためのフレームワークを開発し、公平性、透明性、アカウンタビリティの確保のために使用状況を監視しています。
- データサイエンティストやAI/MLエンジニアは、タスクではなくロールであり、その呼び方にふさわしい役割を持っています。AI-readyデータの主な消費者として、AIモデルの特定のデータニーズ(量、種類、関連性、ラベル要件など)を明確にする必要があります。データを分析し、品質の問題、バイアス、AIトレーニングへの適合性を確認し、モデルのパフォーマンスを改善するために対処すべきデータ品質、アクセシビリティ、ギャップについて、データオーナーやガバナンスチームにフィードバックします。
新しい役割に焦点を当てるのではなく、責任に着目します。つまり、誰を雇う必要があるのかではなく、何を達成する必要があるのかに焦点を当てます。
これらの役割と責任は重要ですが、効果的なAIプログラムには、要件を調整し、計画と実践を共有する「コラボレーション型」で「部門横断型」のワーキンググループが含まれます。各参加者は、データライフサイクルにおける自身の部分を理解しているだけでなく、活用、スケーリング、効率性向上のための手段として再利用を促進する責任も負っています。役割と責任の分散は、すべてにおいて自由であることを意味しません。効果的なAIを確保するためには、協調が必要です。同様に、プロフェッショナルなキッチンでは、エグゼクティブシェフが業務全体を監督しますが、明確なコミュニケーション、タイミング、チームワークによって各役割を連携させ、現場のコックが正確に料理を提供できるようにします。
ただし、1つのサイズですべてのケースに対応できるわけではありません。ビジネスユニットによっては、他のユニットよりも自律性が高い場合があります。すべての責任において、新たな役割の定義や人員配置が必要になるわけではありません。最近のSnowflakeのラウンドテーブルでは、あるお客様が、各データプロダクトに3つの新しいロールが必要だと主張しました。全員が同意したわけではありません。責任をリスト化して管理することがより重要です。既存のロールを横断して割り当てられるものもあります。そのうえで、既存のロールを持つ従業員に新しいタスクへのチャレンジを促すインセンティブを与えたり、既存のタスクを効率的で新しい働き方に置き換えることが課題となります。小さくて簡単なことから始めて、新しい働き方を示し、変化を促します。