注:本記事は(2022年3月24日)に公開された(Data Mesh Perspectives: A Q&A with Roche Diagnostics)を翻訳して公開したものです。

デジタルトランスフォーメーションがデータの爆発的増加を促進する中、ヘルスケア業界にも劇的な変化が生じています。ウェアラブルデバイスから遠隔医療、リフィル処方箋、そして患者アウトカムまで、ライフサイエンスデータが収集され、患者、パートナー、ラボ、サービスプロバイダー、その他の関係者へと提供される量は、爆発的に増えています。企業のAI導入が進むにつれ、研究開発、製造、流通といったプロセスがさらに自動化され、インテリジェントになってきています。さらにこの2年間はCOVID-19流行の影響により診断分野への注目が高まり、迅速で正確なスクリーニング、検査、およびモニタリングに焦点が当てられるようになりました。これらすべてが、膨大な量のデータと、そのデータへの多大な需要を生み出しています。

それでは、データチームがデータ重複、処理のボトルネック、アクセス不能なリソースを回避しながら規模を拡大し、ビジネスに一貫して真の価値を提供するにはどうしたらよいでしょうか?医薬およびライフサイエンス大手、Rocheグループの事業部門であるRoche Diagnosticsによれば、その答えはデータメッシュという新しいアプローチにあります。

データメッシュアーキテクチャは、データのスケーリングに付随する障壁を排除し、組織全体のユーザーがデータを利用できるようにします。データメッシュは単なる技術ソリューションではなく、データを資産として捉え、面倒さや複雑さなしに各事業領域のチームに提供するという企業文化面の変革も伴います(データメッシュについて詳しくは、当社の過去のブログをご覧ください)。

Roche DiagnosticsのBIおよびアナリティクス部門統括者であるOmar Khawaja氏と彼のチームは、セルフサービスデータ機能やアナリティクスインフラストラクチャ機能を含むデータメッシュを実装する仕事に取り組んできました。私たちはKhawaja氏と、同じくRoche Diagnosticsのデータ管理およびアーキテクチャ部門統括者であるPaul Rankin氏に、データメッシュの魅力とは何か、またそれがRocheにとってどのような意味を持つか、RocheのフレームワークにおけるSnowflakeの役割、さらには今回の取り組みで得た教訓などについて、お話を伺いました。

どのようないきさつでデータメッシュに興味を持たれたのですか?

Omar Khawaja:私がRoche Diagnosticsに入社して初めて任された仕事は、BI & アナリティクス戦略でした。その戦略における優先事項の一つが会社のテクノロジーおよびアーキテクチャ環境を最新化することでした(その取り組みは今も続いています)。従来のあらゆるアプローチを試してみたものの、当時の私たちはデータの真の価値を引き出すまでには至っておらず、できたとしてもそれは限定的な成功でしかありませんでした。そこで私は、この戦略をどのように実行すればよいか、スケーラブルでありながらRocheの分散型で現場に権限を持たせる文化に沿ったやり方で課題に対応するにはどうすればよいかを考えました。

Khawaja氏は、データメッシュ方法論のパイオニアであるThoughtworks社のZhamak Dehghani氏および彼女が率いるチームと接触を図りました。Zhamak氏およびThoughtworksチームとの協議の末、Rocheグループ全体でウェビナーが開催され、大きな関心を集めることができました。その後最初の実装モデルを作成し、データメッシュフレームワークを確立する方法を学んだ上で体系的に各チームをオンボーディングしました。

Khawaja:2021年2月、私たちは最初の成功をもとにデータメッシュプログラムの基礎を構築しました。この頃から私たちは、より包括的なアプローチを用いて課題に取り組むようになりました。2021年5月、初めは1事業領域のみの導入でしたが、前述のとおり今では6つ以上の事業領域でオンボーディングが完了しており、多数のプロダクトチームがこのプラットフォームを用いて作業しています。

Rocheでデータメッシュを選択した理由は何ですか?成功に向けて組織を準備する上で、どのような改革を行いましたか?

Khawaja:私は多くの企業でデータに携わる人の数がどれくらい増えているかを現場でじかに目にしてきました。それはRocheでも同様で、事業部門やITチームには、ダッシュボードを作成するアナリストだけでなく、データサイエンティストやデータエンジニアもいます。そこからプロダクト思考が芽生えたわけですが、今のところチームの大多数にとって良い選択だったと考えています。

Paul Rankin:(当社の)当社ではいまデータプロダクトについての意識が非常に高まっています。6か月前、あるいは1年前には、皆の頭の中にはデータレイクから得られるダッシュボードとデータセットしかありませんでした。データ中心のアプローチの成熟度とデータプロダクトについての理解度を深めて初めて、データプロダクトの実装を検討できるようになります。

データメッシュの設計と技術に関して何を基本理念としていますか?

Khawaja:データメッシュには4つの基本的柱があります。私はそれらをデータの理性(mind)、心(heart)、魂(soul)、および身体(body)と呼んでいます。「魂」が第一の柱で、事業領域主導の設計です。

次にデータメッシュの「心」とは、プロダクトとしてのデータです。これはプロダクト思考の対比としてのプロジェクト思考に多くの変化をもたらします。プロダクトとしてのデータとは、1つのチームとして作業し、DevOps/DataOpsの概念に命を吹き込む最新の方法です。こうして、データを他の誰かの責任と考えるのではなく、データに対してメンバーそれぞれが自ら責任を持ち、共同でものづくりに取り組むようになります。これこそが、私たちが必要とする一番重要な意識の変革です。このようにして私たちは、カスタマーやエンドユーザーのための価値の創出に努めています。

3つ目として、セルフサービス式のデータアナリティクスインフラストラクチャを、私はデータメッシュの「身体」と呼んでいます。私たちは、機能の観点からプラットフォームを構築し、それらの機能を支えるテクノロジーをプラグインする上で、従来と大きく異なるアプローチを取りました。Snowflakeは、ツールチェーンのエコシステムと共に、これらの機能要件の多くを満たしてくれています。

最後となりましたが重要なこととして、これほどまでの分散化を実行するにあたっては、強力なガバナンスが必要です。これがデータメッシュの「理性」です。可能な限りの広範な自動化と、フェデレーションガイドラインやコンピューティングガイドラインがあって初めて各データドメインはソリューションの一部になります。データインフラストラクチャがもたらす自動化がなければ、大混乱になるでしょう。

データメッシュの方法論で、どのような課題に直面しましたか?

Khawaja:それも4つの基本的柱の観点から見ていきましょう。それぞれに異なる課題があるからです。まずデータドメインから始めますが、私がRocheに入社する前、Rocheのデータチームはすでに将来のデータ戦略について検討していました。チームのアプローチはデータメッシュに非常に近いもので、データドメインの概念はその時に導入されました。事業部門とIT部門のリーダーシップの連携により、ドメインの概念がすでにいくつかできあがっていたのです。ただし、その時にドメインを定義づける基礎となったのは、プロセスの境界線がどこにあるかであり、会社の機能構造に100%基づくものではありませんでした。

これはスタートとしてはまずまずでしたが、依然として対応すべき領域が残っていました。いわば、90%は定義に則しているものの、10%はグレー領域といった感じでした。今では(定義の)確立が完了したので、私たちはそれらを実装する方法を学び、調整することもできるようになっています。結局のところ重要なのは、ソースシステム内で生成されるデータの近くにオーナーシップの意識を置くことでしょう。

次の柱、つまりプロダクトとしてのデータですが、これはシンプルでありながら同時に非常に難しい面があります。プロダクトとしてのデータとは、基本的にデータ内の物事のエンドツーエンドなオーナーシップについての話であり、特定のダッシュボードについての話ではありません。また、Snowflake固有の問題でもありません。個別のダッシュボードやユースケースは、データプロダクトと1対1で結びつけることはできません。実際これを行うには、段階を追ったプロセスを踏む必要があります。

そして3つ目、身体としてのプラットフォームに関してですが、プラットフォームの構築の方法に変革が生じるのはここです。「プラットフォームもまた、プロダクトである」という視点から構築するのです。従来、プラットフォームは中央集中型チームによって構築され、パイプラインもそうした中央集中型チームによって構築されるため、結果としてチームは、真面目に取り組んでいるにも関わらずボトルネックを生じさせていました。

私たちは、プロダクトチームに力をもたらし、権限を与え、仕事の妨げにならないようなプラットフォームをつくる必要があります。データプロダクトチームは、事業部門、IT部門、そしてベンダーなど、さまざまな人々で構成されるので、その一部は従来の(プロダクト)チームのようなスキルレベルに到達していない場合があります。ですから多様なユーザーをサポートでき、それぞれのチームが仕事をする上で多大な学習量を必要としないようなプラットフォームを選択するべきでしょう。

最後は「フェデレーテッドコンピューティングガバナンス」です。人々はガバナンスという言葉を聞くとたいてい官僚主義的なものをイメージしますが、フェデレーテッドガバナンスとはいわば人々を一堂に集めて君たちは今や意思決定者のひとりであると告げるアプローチであり、メンバーの賛同を集める手法としても用いられます。フェデレーテッドガバナンスにおいては、IT部門の意見と事業部門の意見の両方を組み込みながら、ポリシー、手順、標準の管理を行います。そしてもちろんコンピューテーションの部分、すなわちデータメッシュの「理性」の部分においては、こうした数多くのコントロールやポリシーは、自動化を通じて設計によって実現できます。ですから、データマスキングや個人識別情報に関して何らかのルールを執行する場合、またはデプロイメントを自動化する場合、あるいはパイプラインのデプロイを確認する場合、データプロダクトの形やフォームが何であれ、メタデータは偶然ではなく設計によってカタログへと流れます。

御社のデータメッシュにSnowflakeを選んだ決め手は何ですか?

Khawaja:うまく機能して、使い易く、シンプルなソリューションだからです。データを持ってくればすぐに使用を開始できますし、どこからでもアクセスできます。オンプレミスからアクセスした場合でも、もはやパフォーマンス上の課題など存在しないことに驚きます。要は必要とするパフォーマンスにどの程度お金をかけられるかという話で、それはまた別の問題となりますが。

Rocheは非常に分散化された文化を持ち、それぞれの国の現場のメンバーに権限を持たせることの意義を信じています。データメッシュの視点から見て、分散化とは、多種多様な経験を持つメンバーと彼らが提供するスキルセットの集合体に他なりません。私たちは、組織全体を網羅できる何かを必要としています。複雑なセキュリティ設定や境界線なしに、簡単にチームに力をもたらしてオンボーディングできれば、プロダクトチームの仕事は比較的容易になります。

私たちはこうしたさまざまなメリットをSnowflakeから得ています。そしてもちろんデータシェアリングと内部データ交換も。各事業領域で独自のSnowflakeアカウントを保有するレベルに達していたとしても、内部データ交換は依然として、あちらこちらで膨大な重複データセットを生じさせることなしに、データの再利用と共有を可能にする手段となります。

Rankin:このデータメッシュの世界で、Snowflakeが私たちに大いに貢献している最も重要な要素の1つは、ゼロコピークローニングです。CICDリリースサイクルやGitFlowプロセスにおいて、これはまさに画期的です。開発者は自動的に特徴量ブランチを作成し、特徴量に基づいて本稼働データベースのゼロコピークローンをスピンアップできるので、他の誰かの仕事に一切影響を与えることなく特徴量をテストし、本稼働に直接移行してから、クローンされたデータベース、特徴量データベースを破棄することを繰り返せばよいのですから、驚きです。

Khawaja:注意しなければならないことは、Snowflakeはデータメッシュとイコールではなく、データメッシュはSnowflakeとイコールではないということです。データメッシュはテクノロジーの先にあるもので、Snowflakeはその主要なイネーブラーです。Snowflakeはデータメッシュではなくデータウェアハウスの実装にも使用できますし、データレイクをやりたければそれもSnowflakeを用いて可能です。

データメッシュに興味を持つ他の組織にどのようなアドバイスを送りますか?

Khawaja:まず言いたいのは、企業によってはデータメッシュがソリューションとして合わないこともあるという点です。これが現実で、人々はこれを理解する必要があります。分散化に乗り気でない組織にはデータメッシュはお勧めしません。

2つ目に、データメッシュは大きなパラダイムシフトをもたらすもので、人々、プロセス、テクノロジーのすべてに影響を与えます。データのあらゆる側面でこうした変化を受け入れる準備ができているなら、データメッシュをやってみるべきです。思い切ってデータプロダクトチームに仕事を任せてみるのです。私としては、再利用できる標準的な定義とアーティファクトをいくつか作成し、それをもとに継続的に構築していくことを強くお勧めします。データプロダクトチームにとって境界を越えた自由なコラボレーションを可能にするテクノロジーを選択するべきです。

Roche Diagnosticsのデータメッシュとデータクラウド導入の経緯についてさらに詳しく知りたい方は、同社のデータメッシュ実装について取り上げているOmar氏のThoughtworksセッション動画や、Omar氏をゲストに招いてデータシェアリングや分散化についてディスカッションしているSnowflakeのポッドキャスト「Rise of the Data Cloud」をご視聴ください。