新しいコネクタと製品のアップデートにより、より迅速かつ簡単にコスト効率の良い方法でデータを取り込む
1つの場所ですべてのデータを保護する堅牢なデータプラットフォームの実現は、困難な道のりのように思えるかもしれません。しかし、Snowflakeは、シームレスでコスト効率の高いデータインジェストにより、ワークロードを簡単にAIデータクラウドに取り込むことができるという、最も簡単な第一歩を踏み出すことに取り組んでいます。
Snowflakeは、PostgreSQLやMySQLなどの最も一般的なデータベースとのネイティブ統合を開始しています。その他の取り込みの改善と新しいデータベースコネクタにより、データ取り込みプロセスがスムーズになり、データをSnowflakeに簡単かつ効率的に取り込むことができるようになりました。これにより、ツールとライセンスが減り、コストが削減され、エクスペリエンスがスムーズになります。
最初のステップと同様に、データの取り込みは重要な基盤ブロックです。Snowflakeでの取り込みはスムーズです。データの取り込みにはさまざまな方法があるため、このブログでは、さまざまな方法について説明し、最新の発表と改良点を紹介します。
効率的かつコスト効率の良い方法でバッチデータとストリーミングデータを取り込む
バッチデータまたはストリーミングデータを10秒以内に取り込み、変換:バッチ取り込みにはCOPY、ファイルの自動取り込みにはSnowpipe、レイテンシが1桁の行セットデータにはSnowpipe Streamingを使用します。
COPY INTOは、Document AIの新しい取り込み機能(近日中に一般提供開始)により、非構造化データのユースケースをサポートするようになりました。ユーザーはDocument AIを使用してモデルを作成し、PDF、JPEG、HTMLなどの形式を持つ非構造化ドキュメントの自動バッチ取り込みで使用できるようになりました。Document AIと組み合わせることで、Snowflakeのお客様はドキュメントから抽出した分析インサイトを活用し、データパイプライン内で直接運用できるようになります。
SnowpipeとSnowpipe Streamingはどちらもサーバーレスであるため、スケーラビリティとコスト効率が向上します。Snowpipe Streamingは、Snowpipeと比較して、複雑で手作業によるクライアントの設定や管理を行うことなく、低コストで低レイテンシーで大量のデータを処理できます。一度納品されると、データの順序付けと可用性がSnowflakeによって自動的に管理されるため、開発者の貴重なリソースをよりミッションクリティカルな業務に充てることができます。また、ストリーミングデータとバッチデータを分離することなく、データパイプラインを統合することもできます。ソリューションをつなぎ合わせたり、データを移動するための追加のデータパイプラインを構築したりすることなく、単一のシステムで容易に取り込み、変換できます。
SnowpipeとSnowpipe Streamingは、Snowflakeのネイティブコネクタや、AWS Data Firehose、Striim、Streamkapなどのパートナー統合の基盤にもなります。お客様は同じコスト効率と低レイテンシーのメリットを享受できます。
Snowflakeネイティブコネクタによる取り込みの簡略化
Snowflakeネイティブコネクタ(Kafka用Snowflakeコネクタ、ServiceNowやGoogle AnalyticsなどのSaaSアプリケーション用コネクタ)の成功を受けて、一部の主要なオープンソースリレーショナルデータベースであるPostgreSQLやMySQL用コネクタのパブリックプレビュー(近日中に開始)を発表しました。新しいデータベースコネクタは、Snowpipe Streamingを基盤として構築されており、よりコスト効率の高い低レイテンシのパイプラインを顧客に提供します。トップオンライントランザクション処理(OLTP)データベースシステムから変更データキャプチャ(CDC)用のシンプルなネイティブコネクタを提供するというコミットメントをさらに強化します。まもなく、主要な独自データベースにもコネクタ名簿を拡大する予定です。
これらのネイティブコネクタは、Snowflakeネイティブアプリフレームワークで構築されています。つまり、お客様は、セキュリティと信頼性が組み込まれたSnowflakeマーケットプレイスを通じてデータに接続できます。システム間でファイルを転送する代わりに、データはソースから直接Snowflakeに流れ込み、転送中も保存中も常に暗号化されます。また、追加のライセンスや調達プロセスを必要とせず、利用した分だけお支払いいただけます。
開発者は、PostgresとMySQLのデータを低レイテンシーでSnowflakeに取り込むことで、アナリティクス、AI、MLのワークフローを運用できます。お客様はすでに、小売、ヘルスケア、ハイテク、メディア、金融サービスなどのさまざまな業界で、これらのコネクタから驚異的な価値を解放しています。
では、ネイティブコネクタがSnowflakeでどのように機能するかを詳しく見ていきましょう。
すでにお客様から高い評価を得ている強力な機能を基盤として構築されたOLTPデータベースコネクタは、当社のSaaSネイティブコネクタやSnowpipe Streamingと同じメリット(使いやすさ、高いスケーラビリティ、費用対効果、低レイテンシー)を、運用監視なしで提供します。
Snowflakeデータベースコネクタは、
- エージェントは、Docker Hubで利用可能なDockerイメージとして配布され、お客様のインフラストラクチャーに展開されるスタンドアロンアプリケーションです。ソースデータベースのCDCストリームからデータ変更を読み取ることにより、最初のスナップショットロードと増分ロードを送信します。
- Snowflakeネイティブアプリ。お客様のSnowflakeアカウントに存在し、コネクタの背後にあるオブジェクトです。主に、複製プロセスの管理、エージェントステートの制御、ターゲットデータベースを含むすべてのデータベースオブジェクトの作成を行います。
ユーザーは、単一のエージェントを複数のデータソースに接続し、データを(継続的または所定の間隔で)単一のSnowflakeアカウントに同期できます。Snowflakeネイティブアプリ内から、複製するテーブルと列を選択できます。エラー(ネットワークの問題やエージェントとの接続の切断など)が発生した場合、ユーザーにメールアラートで通知されます。また、まもなくパブリックプレビューが開始されます。ソースデータベース内のテーブルでスキーマが変更された場合(列の追加、削除、名前の変更など)、コネクタが自動的に調整され、テーブルと新しいスキーマの同期が継続されます。
さまざまな業界のお客様のユースケース
eコマースおよび小売:何百万ものユーザーのショッピングエクスペリエンスのパーソナライゼーションを任されているeコマースプラットフォームのデベロッパーは、Snowflakeのネイティブデータベースコネクタを使用して、世界中に分散したPostgresデータベースのニアリアルタイムのウェブサイトインタラクションデータを利用し、Snowflakeでそのデータを継続的に分析し、コストのかかるETLを行うことなくパーソナライズされたレコメンデーションを提供できるようになりました。
ヘルスケア:あるヘルスケア企業は、データドリブンなインサイトを通じて患者治療体験の最適化を計画しており、サードパーティのプロセッサーを必要とせずに、病院管理システムPostgresからSnowflakeに患者インタラクションデータを安全に統合し、Snowflake Cortex AIを活用してトレンドを分析し、サービス品質をリアルタイムで向上させることができます。
ゲーム:Snowflakeのネイティブコネクタにより、開発者は数千ものPostgresデータベースからSnowflakeに請求データと顧客使用状況データを迅速かつ継続的にストリーミングできます。これにより、ゲームポータルやユーザーポータルでユーザーエンゲージメントを最適化するための意思決定を迅速に行うことができます。
近日中にPostgreSQLまたはMySQL用のSnowflakeコネクタをSnowflakeマーケットプレイスからインストールし、Docker Hubからエージェントをダウンロードして試用できるようになります。
マーケットプレイスエコシステムとコネクタSDKでより多くのデータに接続
さらに、開発者は独自のコネクタを構築することもできます。SnowflakeネイティブSDK for Connectorsはコアライブラリとテンプレートを提供しており、開発者はより迅速にコネクタを構築できます。
もちろん、Snowflakeによるデータエンジニアリングが画期的である主な理由の1つは、簡単なデータシェアリングによってデータパイプラインを減らす必要があることです。顧客はSnowflakeマーケットプレイスのライブデータセットにアクセスできるため、従来のETLパイプラインやAPIベースの統合に付随するコストと負担が軽減されます。
パフォーマンスの最適化とユーザビリティによる継続的改善
データ取得のコスト効率と手間をさらに高めるために、Snowflakeは高性能とユーザーインターフェイスの改善に投資を続けています。お客様側のアクションなしでのJSONファイルのロードが最大25%向上し、Parquetファイルのロードが最大50%向上しました。
Snowsightでは、Snowflakeに簡単にデータを取り込むことができます。Snowsightは、ステージの作成、ファイルをアップロードしてテーブルを作成する、既存のテーブルにファイルをロードする、接続をインストールする、更新または上書きできる自動スキーマ推論など、一般的に利用できるさまざまな機能を一元的に管理できるようになり、操作がさらに簡単になりました。
Snowsightでは、スキーマ検出を使用してテーブルを直接作成したり、テーブルやステージをほとんどコーディングなしでロードしたりできるようになりました。また、50MBから最大250 MBのファイルをアップロードできるようになりました。詳細については、こちらでご確認ください。
データ取り込みの詳細については、こちらをご覧ください。SnowflakeマーケットプレイスやSnowsightを利用すれば、簡単に取り込みパイプラインを開始できます。