注:本記事は(2022年3月7日)に公開された(Building Iterable’s Data Mesh Using Snowflake: Three Components of an Innovative Data Management Strategy)を翻訳して公開したものです。

ビッグデータはデジタル市場のランドスケープを一新させつつあります。企業が膨大なデータ源からデータを収集する中、ストリームデータの収集速度はこれまでにないほど高まっており、ビジネスは、Eメールからユーザー挙動、さらには金融取引に至るまで多様なデータ構造の取り扱いに取り組んでいます。

ほぼすべての企業が自らを「データファースト」な組織であると標榜する一方で、データを価値あるインサイトへと変えるレベルのデータの民主化を支えるようなデータアーキテクチャを構築できている企業はごく一部に留まっています。つい最近まで、多くの企業は多様な情報源から取得した大量のデータを処理するのに中央集中化戦略に頼っていましたが、これには様々な異なるソースからデータをインポートした上でデータレイクへ転送してクエリする必要があり、多くの時間とコストがかかります。

私たちIterableでも、会社の成長に伴いそのような状況に直面していることを自覚していました。私たちは、多種多様な社内業務チームがビジネス全体をまたぐ周辺データにシームレスにアクセスして分析でき、一方でデータの可用性とアクセス性の大規模に実現に向けた課題を解消できるような新しいデータアーキテクチャ構築の必要性が高まっていることに気づいていました。

そこで私たちは、自社独自のデータメッシュ開発と、自社データ管理のための最新の分散型アーキテクチャ構築のためSnowflakeの導入を決定しました。ここからは、私たちがイノベーティブなデータ管理戦略を構築しデータ民主化に伴う重要課題を解決するにあたり役立った3つのコンポーネントについて説明していきます。

ドメイン駆動型オーナーシップ

有効なデータメッシュモデルの構築に向けた最初のステップは、ドメイン駆動型のデータオーナーシップとパイプラインの定義でした。

Snowflakeは、さまざまな言語(SQL、Python、Java、等)を用いた大規模でアドホックなデータパイプラインの構築を可能にしてくれました。私たちは多様なETL(抽出、変換、ロード)パートナーが提供するFivetrandbtをスムーズに統合し、数多くの自社GTM(Go-To-Market)アプリケーション内のデータサイロを解消してデータのアクセス性を高めることができました。いま当社のデータエンジニアは、Salesforce、Zuora、Zendeskなどのメジャーなアプリケーションからわずか数クリックでパイプラインを構築することができます。

一方、Iterableプロダクト部門が手掛けるデータパイプラインのユースケースはより複雑で、大量のデータを高頻繁に取得する必要がありました。そこでBIチームはSnowflakeのタスク機能を活用して、当社のAPIエンドポイントにリクエストをトリガーすることにより、Snowpipeで外部のS3バケットからデータを自動的に処理して自社Snowflakeデータベースへと取り込む仕組みを整備しました。

Snowflakeの導入により、ドメインをセットアップするプロセスをシンプル化すると同時に、各チームはそれぞれのデータやETLプロセスに対する自律性を高めることができました。

データを成果物として共有する

私たちのデータメッシュアプローチにおける2つ目の柱は、データを成果物として共有する能力の構築でした。

データを構造化し処理することに成功したら、企業にとっての次の重要なステップはそれをどのように部門横断的に活用できるかですが、Snowflakeのセキュアデータシェアリング機能を活用することで企業は社内部門間だけでなくカスタマーやパートナーといった社外組織ともデータセットをスムーズに共有できます。私たちのBIチームは、情報をスマートにキャプチャできるだけではなくエンドユーザーのデータドリブンな意思決定を支援できるようなシステムを構築したいと考えていました。

私たちが自社技術の活用を指すのに用いる用語で命名された「Iterable at Iterable」プロジェクトは、Marketo、Salesforce、そして自社Iterableアプリケーションからのクロスクラウドなコンタクトプロファイルの統合に成功しました。それはデータセット共有の真の力が私たちの社内で実現された瞬間でした。私たちはさまざまなソースからのクリーンな処理済みデータモデルに簡単にアクセスしてフレキシブルなプリファレンスを備えかつエンリッチメントされた自社顧客に関するマスタープロファイルを作成し、それをSnowflakeやSegment.ioを経由してダウンストリームに送信することができました。

私たちのBIチームにとっては、SnowflakeのPythonコネクタを使用してJupyterからデータサイエンスモデル出力を共有できるようになったことで、セールス予測、予測モデリング、および財務レポートといったさまざまな収益イニシアチブが加速されました。BIチームは現在、複数のサードパーティソースからのデータを取り込んで予測分析を実行し、社内でのトップアカウントの特定を支援しています。こうした予測分析から得られるアウトプットを主要なビジネスステークホルダーとも共有することで、部門をまたいだデータコラボレーションの真の価値を得ることができます。

私たちにとって最も強力かつデータメッシュアーキテクチャの必要性が高いユースケースは、顧客と安全にデータを共有する能力の整備でした。昨年Iterableは、Snowflakeセキュアデータシェアリングをサポートするネイティブ統合機能の構築に成功しました。これにより、当社顧客はそれぞれのSnowflakeインスタンス内で、ETLの関与を一切伴わずにシームレスかつ安全に自社システムイベントデータにアクセスできるようになりました。いま当社顧客は、データのサイロを解消しデータストレージ費用を削減する一方で、組織内で安全にライブデータを共有しビジネス意思決定能力の強化を実現しています。

データの集中化と分散化のバランス

データメッシュを最適なソリューションとする最後の柱は、データの集中化と分散化のバランス実現でした。私たちのBIチームは、自社データ戦略をハイブリッドモデルとして捉えています。つまり、核となるBIチームがデータの標準化と集中化を提供することにより、他のチームのビジネスステークホルダーやアナリストは各ドメイン固有のデータガバナンスポリシーに従ってそれぞれ自由に分析へのアクセスや実行が可能となります。

Iterableの収益データや請求データは、データやドメインユーザーのロールにいたるまできめ細かにセキュリティポリシーを定義するSnowflakeの機能によって保護されています。私たちのセールスチームやマーケティングチームはそれぞれ自社財務データモデルをクエリし、ユーザーロールやデータの機密性に基づいてデータビューを修正できるので、セキュリティの規模を組織全体に広げることができます。さらに当社のデータシェアを利用する外部組織も自らの既存のセキュリティポリシーを統合することができます。

今後に向けた展望

しかしながら、これまで説明したことはまだ単なる始まりにすぎず、私たちはデータメッシュアーキテクチャの構築を開始したばかりです。今後顧客ベースがいっそう拡大するにつれ、Iterableは業界ベンチマーキングを手掛けたり、あるいは同業他社もメリットを享受できるような重要KPIを共有できるようになるでしょう。

社内的には、私たちのBIチームはカスタマー成熟度モデルの改善と拡大を目指しています。私たちは引き続き組織全体の全データの一元化を推進し、よりロバストな(そして近い将来には機械学習ベースの)収益分析を加速していきたいと考えています。

データメッシュアーキテクチャの本当の力は事業の拡大と共にスケールアップする能力にあります。Iterableにとってデータドリブンな未来はまだ始まったばかりです。