データレイクは、通常は可変的な構造または階層を持つファイルフォーマットで保存されるデータのリポジトリです。オブジェクトストレージを基盤とするデータレイクには、さまざまなソースからのあらゆるタイプのデータを柔軟に保存できます。
データレイクには、通常、大量のデータが未加工のネイティブフォーマットで保存されます。このデータは、必要に応じてオンデマンドで利用可能になります。データレイクに対してクエリを実行すると、クエリの条件に基づいてデータのサブセットが選択され、分析用に提供されます。
目的
データレイクを使用すると、複数のデータソースから絶え間なく到着するペタバイト単位の情報を包括的に探索、改良、分析できます。1ペタバイトのデータは100万ギガバイトに等しく、これは標準の印刷されたテキストの5,000億ページ分、または58,333という超高解像度の2時間分の映画に相当します。データレイクは、大量、多様、高速のデータを探索および分析するユーザーに適しています。
機能
データレイクは、他のタイプのビッグデータストレージにはない以下のような特性を備えています。
データのタイプやソースに関係なく、あらゆるデータを格納できる
データは、元の未加工の変換されていない状態で保存される
データは、一致するクエリ条件に基づいて分析用に提供される場合にのみ変換される
データレイクのメリット
データレイクに保存されるデータのソースとフォーマットに依存しない性質は、以下のような複数のメリットをビジネスに提供します。
柔軟性:データサイエンティストは、データをその最も未加工な形態で特徴量エンジニアリングや機械学習に活用できます。
アクセスのしやすさ:すべてのデータが一元的に保存されます。
経済性:一般的に、データレイクオブジェクトストレージはコスト効率に優れています。
互換性:ほとんどのオープンソースデータアナリティクステクノロジーと互換性があります。
包括性:IoTを含む企業のすべてのデータソースからのデータを結合します。
データレイクとデータウェアハウスの比較
データレイクとデータウェアハウスはどちらもビッグデータリポジトリです。データレイクとデータウェアハウスの主な違いはコンピュートとストレージです。データウェアハウスでは、通常、スキーマを持つ事前設定された構造にデータが保存されます。データレイクでは、スキーマは必ずしも事前設定されていません。また、データウェアハウスでは構造化データがテーブルとして保存されますが、データレイクでは構造化、半構造化、非構造化データがファイルとして保存されます。
比較チャート:データレイクとデータウェアハウス
データレイク | データウェアハウス | |
データのタイプ | 任意のソースからの構造化および非構造化、未加工 | 構造化、キュレーション済み |
スキーマ | 事前設定されていない | 事前設定されている |
典型的なユーザー | データサイエンティスト、開発者、データアナリスト | データアナリスト |
クラウドのデータレイク
莫大な量のビッグデータ(特にデータレイクのフィルタリングされていないデータ)により、オンプレミスのデータストレージの拡張が困難になります。Amazon S3、Snowflake、Microsoft Azure Data Lakeは、さまざまなサイズと速度のデータを処理および分析できるデータストレージを提供している、数少ないクラウドベースのデータストレージサービスプロバイダーです。
データレイクとしてのSNOWFLAKE
Snowflakeのプラットフォームは、データレイクのメリットとデータウェアハウスおよびクラウドストレージのメリットの両方を提供します。Snowflakeを構造化、半構造化、非構造化データの中央データリポジトリとして使用すれば、統合データ管理に加えて、コスト効率に優れたパフォーマンス、高可用性、セキュリティ、ガバナンス、コラボレーションのメリットを享受できます。あるいは、Amazon S3、Azure Data Lake、Google Cloud Storage、またはS3互換ストレージにデータを保存し、データガバナンス、データエンジニアリング、アナリティクス、コラボレーションにSnowflakeを使用することもできます。