SNOWFLAKE INTELLIGENCE

社内の誰もが、必要な答えにすぐたどり着ける。

データウェアハウスとは:包括的ガイド

データウェアハウスの特異性の理由、データウェアハウスの構築で使用される構成要素、データウェアハウスが組織に競争上の優位性をもたらす仕組みについて解説します。

  • 概要
  • データウェアハウスとは
  • データウェアハウスアーキテクチャ
  • データウェアハウスの主要なコンポーネント
  • データウェアハウスの種類
  • 従来型AIとクラウドデータウェアハウスの比較
  • モダンデータウェアハウスのメリット
  • データウェアハウス管理に関するよくある質問
  • AIデータクラウドのお客様事例
  • データウェアハウスに関するリソース

概要

電力と同様に、データは世界経済にとって不可欠な存在です。しかし、電気が点灯し続け、機械が動き続けるには発電所が必要なように、データを活用するにはデータを収集、保存、編成するシステムが必要です。

データウェアハウスでは、顧客プロファイル、金融トランザクション、製品カタログ、機器のログ、市場トレンドなど、さまざまな種類の膨大なデータを集約し、集約したデータをさまざまな方法で簡単に精査できます。データウェアハウスは、CFOによる来年の収益の予測、人事部門のリーダーによる従業員のニーズの予測、オペレーションマネージャーによる製造施設の最適化、CEOによるビジネスの将来についての戦略的意思決定を支援します。また、AIモデルのトレーニングのための高品質な情報源を提供することで、新しい人工知能ツールの基盤も構築します。

このページでは、データウェアハウスの特異性の理由、データウェアハウス構築のための構成要素、データウェアハウスが組織に競争上の優位性をもたらす仕組みを探ります。

データウェアハウスとは

簡単に説明すると、データウェアハウスは、組織内の複数のソースから収集した最新のデータと履歴データを保存する中央リポジトリであり、ビジネスインテリジェンス(BI)とアナリティクスをサポートするように設計されています。データウェアハウスは、ビジネスデータの信頼できる唯一の情報源を構築することによって、各種の部門が独自のデータリポジトリを使用する場合に発生する不整合や重複を解消します。

日々のトランザクションを処理するように設計された運用データベースとは異なり、データウェアハウスは複雑なクエリ、レポーティング、データ分析のために最適化されており、戦略的な意思決定をサポートします。運用データベースやリレーショナルデータベースには、企業のさまざまな部門のパフォーマンスに関するほぼリアルタイムの情報が含まれている場合がありますが、データウェアハウスは組織全体に対する履歴寄りの視点を提供します。その結果、トランザクションの処理には異なる組織構造と手法が使用されることになります。

データウェアハウスはまた、将来の分析で使用する生データの保存に利用されるデータレイクとも異なります。データレイクはいつか必要になるかもしれないデータを保存するストレージユニットのようなものですが、データウェアハウスでは保存内容とその使用計画が正確に把握されます。データレイクは後で抽出、変換してデータウェアハウスにロードできる生データのソースとしての役割を担うことができます。

データレイクハウスは、この2つの概念の新たなハイブリッドであり、構造化データと非構造化データを比較的低コストで保存するデータレイクの機能と、データウェアハウスの高度なアナリティクス機能が組み合わせられています。

データウェアハウスアーキテクチャ

データウェアハウスの具体的な機能セットはそれぞれ異なる場合がありますが、構造化データ、非構造化データ、半構造化データを迅速かつ効率的に処理するために、通常、データウェアハウスは3階層のアーキテクチャに依存しています。

最下層:取り込み

社内外のデータソースからの情報を取り込んで保存する階層です。このデータは元のソースから抽出され、不整合の解決、エラーの修正、ファイルの統一フォーマットへの変換、計算をサポートするフィールドの作成を通じて、変換されたり、エンリッチされたりします。データはその後中央リポジトリにロードされます。このプロセスは抽出、変換、ロード(ETL)と呼ばれます。モダンアーキテクチャでは、ロード後にウェアハウスの内部処理能力を利用してデータを変換します。この過程は一般にELTと呼ばれます。

中間層:分析

中間層ではデータ分析が実施されます。この階層で、ウェアハウスは、技術および運用に関するメタデータも取得してデータリネージを追跡し、信頼性を確認し、ユーザーがデータの意味と使用方法を理解できるようにします。次に、オンライン分析処理(OLAP)エンジンが展開され、数千行のデータを複数のディメンションで同時に分析します。たとえば、小売企業の販売データは、SKU、販売ごとの金額、商品のコスト、トランザクションの日時、地理的な場所、店舗ID、顧客セグメントなどに基づいて分析できます。

最上位層:レポート

最後の階層では、ユーザーがデータのアドホックな分析を実行できます。たとえば、オンラインの店舗と実店舗で販売量を比較したり、さまざまな地域にわたる各種の顧客セグメントのパフォーマンスを分析したりできます。ユーザーはこのような結果をビジネスインテリジェンスツールやエグゼクティブダッシュボードにエクスポートして、さらに分析できます。

このように、顧客関係管理(CRM)やエンタープライズリソースプランニング(ERP)システムから生成されたデータをデータウェアハウスへ取り込んで、クレンジングと標準化を実施し、分析用に最適化し、データマートと呼ばれる小規模なドメイン特化型リポジトリへエクスポートできます。または、BIプラットフォームやダッシュボードへ直接インポートすることもできます。インポートされたデータに対しては、ユーザーがクエリを実行できます。

データウェアハウスの主要なコンポーネント

データウェアハウスは、いずれも同じ基本コンポーネントで構成されています。データウェアハウスには、少なくとも以下が含まれています。

データソース

CRM、ERP、その他のエンタープライズデータベースに加えて、市場調査、ウェブアプリケーション、モノのインターネット(IoT)センサーからのリアルタイムストリームなどの外部ソースのデータを利用できます。

ETLおよびELTプロセス

各ソースからデータを抽出し、クリーニングと標準化を行い、ウェアハウスにロードするツール。

ステージング領域

生データを主要なウェアハウスに取り込む前に一時的に保存、検証、準備するためのバッファゾーン。

データストレージ

情報が物理的に存在する場所で、スキーマによって編成されます。スキーマは、異なるデータ同士の関係を説明するフレームワークです。

メタデータ管理システム

データの構造、データを統制するビジネスルール、データの変換と使用の履歴に関する情報を保持するシステム。

クエリおよびレポートツール

ユーザーがデータに対して複雑な問い合わせを行い、高度な回答を得ることができるようにする技術インフラストラクチャ。 

データガバナンスとセキュリティ制御

ユーザー認証とアクセス権限の管理、機密データの保護、セキュリティポリシーの遵守の監査に使用される制御機能。

アナリティクスおよびBIアプリケーション

ユーザーによる高度な分析、レポートの作成、結果の可視化を可能にする外部ツール。

データウェアハウスの種類

すべてのデータウェアハウスが同じように作成されているわけではありません。長期戦略の計画を支援するように設計されているものや、戦術的な日常業務の管理を支援するものがあります。組織内の特定のグループのためにウェアハウスのサブセットが作成される場合もあります。データウェアハウスは主に次の3つの種類に分類されます。エンタープライズデータウェアハウス(EDW)運用データストア(ODS)データマートです。

エンタープライズデータウェアハウス

EDWは、すべての主要なビジネスシステムのデータを統合し、企業全体について包括的に把握できるようにする中央リポジトリです。複数のシステムからのデータを統一されたフォーマットに統合し、長年の履歴データを保存することもできます。また、すべてのビジネス部門を対象に、意思決定と戦略計画をサポートするように設計されています。

運用データストア

ODSは、リアルタイムのデータを保存するトランザクションシステムと、長期的な分析や戦略に使用されるデータウェアハウスの間のギャップを埋めることを目的に設計されています。ETLやELTプロセスを必要とせず、元の形式でデータを保存します。ODSは日々の意思決定とリアルタイム分析を目的として設計されているため、EDWよりも更新頻度が高く、履歴データは少なめです。

データマート

データマートは通常、EDWの小規模なサブセットであり、販売、マーケティング、財務、人事などの特定のビジネス領域に限定されています。各データマートは、特定の事業部門のアナリティクスニーズを満たすように最適化されています。また、適用範囲が限定されているため、通常は実装が迅速であり、メンテナンスが簡単です。

従来型AIとクラウドデータウェアハウスの比較

他のミッションクリティカルなIT機能と同様に、組織はデータウェアハウスを展開する方法と場所を選択できます。企業はオンプレミスのデータセンターで独自のデータウェアハウスを維持することも、データウェアハウスをクラウドでホストすることも、この2つを組み合わせたハイブリッドアーキテクチャを展開することもできます。次の表に示すように、オンプレミスとクラウドでは、インフラストラクチャへの投資、パフォーマンス、スケーラビリティ、メンテナンス、コスト効率の面で大きな違いがあります。

運用面


オンプレミスデータウェアハウス

クラウドベースデータウェアハウス

インフラストラクチャ


企業がすべてのハードウェアおよびソフトウェアシステムを購入、インストール、メンテナンスし、ITスタック全体を管理します。

プロバイダーがすべての物理インフラストラクチャを管理し、企業はAPIやウェブインターフェイス経由でインフラストラクチャを制御できます。 

パフォーマンス


特定のハードウェア構成によって定義され、各チームが特定のワークロードに合わせて最適化できます。ネットワークレイテンシーを最小限に抑えられます。

伸縮性のあるパフォーマンスを、ワークロードのニーズに応じてスケールアップまたはスケールダウンできます。レイテンシーの問題や、他のクラウドテナントとのリソース共有の必要性によって、パフォーマンスへの悪影響が発生する可能性があります。 

スケーラビリティ


ウェアハウス機能の強化には十分な事前計画と多額の設備投資が必要であり、ワークロードの需要が低下するとオーバープロビジョニングが発生する可能性があります。

コンピュートリソースとストレージリソースは、従量課金モデルを使用して、ワークロードのニーズに応じてほぼ無限にスケーリングできます。 

メンテナンス


企業はメンテナンス、パッチ適用、アップグレードのすべてに責任を負うため、多大な人員投資が必要です。 

インフラストラクチャのメンテナンスはすべてプロバイダーが行い、企業はデータガバナンス、セキュリティ、アプリケーション

 のメンテナンスに責任を持ちます。

コスト


多額の初期投資と継続的な運用コストが必要ですが、実際の使用状況にかかわらず、コストは比較的固定的であるため、予測することができます。

コストは使用量に直接比例するため、予測できない支出や多額のデータエグレス料金が発生する可能性があります。 

オンプレミスソリューションを選択する企業は通常、強力なIT組織を備えており、予測可能な大量のワークロードを展開し、データ主権、ガバナンス、インフラストラクチャを完全に制御する必要があります。社内に専門知識を持つ人員がいない、迅速に展開する必要がある、ワークロードに大きなばらつきがある、データへのグローバルなアクセスが必要である、初期設備投資を最小限に抑えたいといった場合、組織はクラウドプロバイダーを選択します。

多くの組織が、機密データのオンプレミスでの制御と、アナリティクスや開発ワークロードのためのクラウドでのスケーラビリティを組み合わせたハイブリッドなアプローチを採用し始めています。このアプローチによって、組織は特定のユースケース要件に基づいてセキュリティとアジリティの両方を最適化することができます。

モダンデータウェアハウスのメリット

組織がデータウェアハウスの展開を選択する理由はさまざまです。最も重要な理由の例を以下に挙げます。

意思決定の向上

信頼できる唯一の情報源であるデータウェアハウスは、組織内のすべての人員が、意思決定のための最も正確で最新の情報を入手できるようにします。

履歴インテリジェンスとトレンド分析

長年の履歴データを分析できるようになると、組織は長期的なトレンドや運用行動パターンを特定して、戦略計画に役立てることができます。

データの品質と一貫性の強化

データウェアハウスに組み込まれた検証機能とクレンジング機能によって、エンタープライズデータの信頼性と完全性が確保されます。

ビッグデータのボリュームに対応するスケーラビリティ

クラウドベースのデータウェアハウスでは、コンピューティングリソースとストレージリソースをオンデマンドで自動的にスケーリングできるため、オーバープロビジョニングを回避してアナリティクスワークロードのピークに対処できます。

高度なアナリティクスとAIのサポート

多くのデータウェアハウスが、リグレッション分析や時系列予測などの高度なアナリティクス機能をサポートしています。また、組み込みの機械学習機能を備えているデータウェアハウスもあります。このようなデータウェアハウスを利用することによって、データサイエンティストはウェアハウス内で直接モデルを管理できます。

データウェアハウス管理に関するよくある質問

データウェアハウスは通常のデータベースとどのように違うのですか?

通常のデータベースは、組織の日々のトランザクションを処理するために構築されています。一方、データウェアハウスは履歴データの分析的なクエリのために設計されているため、より戦略的な意思決定に最適です。

データウェアハウスに保存されているデータの種類を教えてください。

データウェアハウスには、社内のエンタープライズデータベース、外部の市場レポート、リアルタイムデータフィードなど、さまざまなソースから取得した複数の種類の構造化データ、非構造化データ、半構造化データを保存できます。

データウェアハウスは組織のどのような問題を解決しますか?

データウェアハウスは信頼できる唯一の情報源として機能することによって、データサイロの解消、部門間でのデータの一貫性の確保、履歴分析の実現、アナリティクスのクエリパフォーマンスの改善、信頼性の高いレポーティング機能の提供を可能にします。

データウェアハウスはどのようにセキュア化されますか?

モダンウェアハウスには、暗号化、アクセス制御、監査証跡、コンプライアンス認証など、エンタープライズクラスのセキュリティが用意されています。クラウドプロバイダーは、ほとんどの組織が単独では実装できないセキュリティ機能を提供していることがよくあります。