Snowflakeがデータアーキテクチャ、データガバナンス、セキュリティをシンプル化し、すべてのワークロードで価値を加速

最近では、組織のデータインフラストラクチャーはあちこちにポイントソリューションが蓄積され、迷路のように見えがちです。一部の企業は、複雑なパイプラインで多くのツールをつなぎ合わせる方法を模索していますが、一部の手順を削除できた方がよいのではないでしょうか?自社の取り組みを合理化しつつ、自社のビジネスニーズとテクノロジーニーズに最も適したアーキテクチャを構築できたとしたら?
Snowflakeはそのために、お客様がデータインフラストラクチャーをシンプルに構築するための機能を継続的に追加しています。Hybrid Tableによるトランザクションデータと分析データの統合、Snowflake Open Catalogによるオープンレイクハウスのガバナンスの向上、Snowflake Horizon Catalogによる脅威の検出とモニタリングの強化など、Snowflakeは可動部品数の削減により、お客様に機能するフルマネージド型のサービスを提供します。
BUILD 2024では、データアーキテクチャを思いどおりに構築、管理できるよう設計されたいくつかの機能強化とイノベーションを発表しました。詳しく見ていきましょう。
データアーキテクチャを合理化して価値を促進
トランザクションおよび分析のハイブリッドユースケース、ストリーミングおよび非構造化データについては、Snowflakeを使用して可動部品の少ないソリューションを構築できます。これにより、手動構成やサイロ管理にかける時間とお金が減り、それらのリソースを新しいデータ活用方法に転換できます。
トランザクションワークロードと分析ワークロードをSnowflakeに統合し、よりシンプルに
多くの企業は、トランザクションワークロードを処理するデータベースと分析ワークロードを処理するデータベースという2つの別個のデータベースを維持する必要があります。Snowflakeユニストアは両方を単一のデータベースに統合するため、ユーザーはデータの移動が少なく、セキュリティとガバナンスの一貫した制御が可能な、劇的に簡素化されたアーキテクチャを手に入れることができます。
ユニストアは、トランザクション ワークロードをサポートするために高速な単一行の読み取りと書き込みを可能にするHybrid Table(現在AWSの一般商用リージョンで利用可能)によって可能になりました。Hybrid Tableの高速かつ同時実行性の高いポイント操作により、アプリケーションとワークフローの状態を直接Snowflakeに保存し、リバースETLなしでデータを提供し、軽量のトランザクションアプリを構築しながら、トランザクションデータと分析データの両方を単一のガバナンスおよびセキュリティモデルに維持することができます。これらはすべて1つのプラットフォーム上で実行されます。

より効率的にデータを取得し、コストを管理する
Snowflakeが管理するデータには、簡単かつコスト効率の良い方法でデータにアクセスできる機能が導入されています。Snowpipe for Apache Kafka(近日中にAWSおよびMicrosoft Azureでのパブリックプレビュー開始)では、既存の「プッシュ」コネクタではなく「プル」メカニズムにより、独自のKafka Connectクラスタをホストすることなく、Apache Kafkaイベントを抽出してSnowflakeアカウントに直接取り込むことができます。これにより、ストリーミングデータをすぐに利用できるようにするための全体的な複雑さが軽減されます。既存のKafkaソリューションと外部アクセスを統合するだけです。
SnowConvertは、従来のリレーショナルデータベース管理システム(RDBMS)からSnowflakeへの移行を促進する使いやすいコード変換ツールです。無料評価と無料テーブル変換に加えて、SnowConvertはTeradata、Oracle、SQL Serverからのデータベースビューの正確な変換を無料でサポートしています。
新しいストレージライフサイクルポリシー(プライベートプレビュー中)は、カスタムポリシー条件に一致するレコードを自動的に削除したり、低コストの階層にアーカイブしたりすることで、コストを削減する機会を提供します。これにより、簡単かつスケーラブルな方法で規制コンプライアンスを維持しながら、ストレージを最適化することができます。
AI対応の自動データ抽出と統合により、非構造化文書の価値を引き出す
請求書、領収書、通知書、フォームなど、あらゆる種類のビジネスが毎日書類で溢れていますが、それらの情報の取得と利用は手作業であり、時間がかかり、エラーも発生しがちです。Document AI(AWSおよびMicrosoft Azureで一般利用可能)は、組み込みのLLMであるArctic-TILTを使用して非構造化ドキュメントを構造化テーブルに変換するフルマネージドのSnowflakeワークフローであり、ドキュメントをインテリジェントに大規模に処理できます。使いやすいUIで微調整できるため、AIの専門知識のないビジネスユーザーや特定分野のエキスパートは、データエンジニアを呼び出してパイプラインを稼働させる前に、モデルの作成と改良に大いに関与できます。フロリダ州立大学は、Document AIを使用してPDFやサードパーティソースから効率的にデータを抽出しています。これにより、データ監査が簡素化され、数週間分もの手作業が排除されました。
Snowflake Horizonカタログによるアカウントとデータ資産の保護と理解の強化
Snowflakeの最大のメリットの1つは、Horizon Catalogに組み込まれている業界をリードするコンプライアンス、セキュリティ、プライバシー、ディスカバリー、コラボレーション機能です。これらは、アカウント、ユーザー、データ資産のプライバシーを保護し保護するために役立ちます。私たちは、お客様が潜在的な脅威を常に把握できるよう、常にプラットフォームを強化しています。
強化されたセキュリティ機能とTrust Centerのイノベーションにより、脅威を未然に防止
パスワードのみのサインインを排除するためのもう1つの重要なステップとして、Snowflakeは、すべてのSnowflakeアカウントで、新たに作成されたすべての人間ユーザーに対してデフォルトで多要素認証(MFA)を強制します。また、漏洩パスワード保護(近日中に一般提供開始)も有効化します。これにより、ダークウェブで発見されたユーザーパスワードを検証し、自動的に無効化します。これにより、パスワードの漏洩に対する保護が組み込まれ、データ流出の可能性が制限されます。セキュリティ侵害を受けたユーザーは、アカウント管理者に連絡してパスワードをリセットできます。
API認証のために、Snowflakeは開発者に使いやすく汎用的なプログラマティックアクセストークン(近日中にプライベートプレビュー開始)をサポートし、そのようなトークンの範囲と有効期限を含めることでセキュリティを強化しながら、アプリケーションアクセスの開発者エクスペリエンスを簡素化します。また、新しいアウトバウンドプライベートリンク接続機能(外部アクセスはAWSとAzureで一般提供、外部ステージはAzureでパブリックプレビュー中、近日中にAWSでパブリックプレビュー開始、外部機能はAzureで一般提供)により、クラウドサービスプロバイダー向けの外部サービスに接続し、データトラフィックを常にCSPネットワーク内に維持します。これにより、データ漏洩などのサイバー脅威のリスクを最小限に抑えることができます。
Trust Centerの機能強化:Snowflakeアカウントのセキュリティ体制の評価とモニタリングに役立つインターフェイスです。これには、リスクを引き起こすユーザー(人間またはサービス)を検出し、それらの脆弱性に対処する方法を明確に軽減する新しいThreat Intelligence Scanner Package(一般提供)が含まれます。将来的には、Trust Center拡張性(近日中にプライベートプレビュー開始)により、お客様がSnowflakeマーケットプレイスでSnowflakeネイティブアプリとして利用できるカスタムスキャナパッケージをパートナーのTrust Centerに追加できるようになる予定です。

機密データを簡単に追跡、処理し、データガバナンスを強化
リネージ可視化インターフェイス(パブリックプレビュー中)により、お客様はSnowsightのインタラクティブなインターフェイスを使用してデータとMLアセットの流れを簡単に追跡できます。この新しいUIにより、アップストリームで生じた変更がダウンストリームのオブジェクトにどのような影響を与えるかを簡単に確認できます。また、ガバナーは、ダウンストリーム列を保護するために、タグとポリシーを伝播する一括アクションを実行できます。MLアセットの場合、顧客はデータからインサイトまでエンドツーエンドの特徴量とモデルの系統をトレースし、再現性、コンプライアンスの強化、可観測性の簡略化を実現できます。

また、機密データ自動分類(近日中にパブリックプレビュー開始)により、SQLを使用してすぐに使える分類子またはカスタム分類子を使用して、あらゆるスキーマ内の機密データの分類、タグ付け、マスキングを簡単に自動化できます。
機密データは膨大な価値がありますが、多くの場合、プライバシー要件により厳重に保管されます。より多くのユーザーがデータを利用してコラボレーションを行い、分析できる機密データの幅と深さを拡大できたらどうでしょう。Snowflakeは、機密データの特定やリエンジニアリングのリスクを軽減する差分プライバシーポリシー(一般提供)と、元の本番データを使用してテストや分析用の近い複製を作成する合成データ生成(パブリックプレビュー)により、これを可能にします。
組織全体のアクセス履歴を把握できる新しいビュー(近日中にパブリックプレビュー開始)により、同一組織内のアカウント間で機密データを共有するデータスチュワードとガバナーに、誰がどの機密データにアクセスしたかを一元的に記録できるようになります。これにより、監査レポートの生成が容易になり、規制要件の遵守を示すために必要なきめ細かい可視性が得られます。データスチュワードは、オブジェクトに新しい可視性プロパティと連絡先情報を設定することで、アクセスリクエスト(プライベートプレビュー)を設定することもできます。これにより、アクセスを許可する適切な担当者に簡単に連絡を取ることができます。
オープンレイクハウスでデータエンジニアリングとデータガバナンスを簡略化
取り込み、統合から変換、セキュリティまで、データレイクの管理プロセスは多大な労力とコストがかかる場合があります。Snowflakeは、レイクハウスアーキテクチャを採用している組織向けに、業界をリードするオープンソーステーブルフォーマットであるApache Iceberg™を使用してパイプラインの構築とデータレイクハウスのセキュリティ確保を簡略化する機能を開発しました。
Apache Icebergのブロンズおよびシルバーのパイプラインを簡素化
私たちは、すべての段階でSnowflakeを使用してIcebergテーブルをより簡単に利用できるようにしています。
データの取り込みには、SDK(一般提供)またはプッシュベースのKafkaコネクタ(パブリックプレビュー中)を使用して、Snowpipeストリーミングを使用してコスト効率の良い方法でIcebergテーブルにストリーミングデータをロードできます。既存のデータレイクにIcebergを追加するバッチおよびマイクロバッチのユースケース向けに、Apache Parquetファイルをファイルを書き換えることなくそのままIcebergテーブルに追加する新しいロードモードをCOPYとSnowpipeに導入しました(一般提供)。COPYとSnowpipeの新しいパラメータであるParquet Directは、従来のデータレイクのパフォーマンスを改善しつつ、スイッチングコストを削減します。SnowflakeのDelta Lake Direct(パブリックプレビュー中)では、ユニバーサルフォーマット(UniForm)のすべての要件なしで、Delta Lakeテーブルに「ブロンズ」レイヤーと「シルバー」レイヤー用のIcebergテーブルとしてアクセスできます。Delta Lake Directでは、まもなく自動更新とIcebergメタデータ生成のサポートが始まります。
Icebergエコシステムには、変更データキャプチャ(CDC)パイプラインをサポートする他のツールもありますが、鮮度要件を満たすためにオーケストレーションが複雑になります。Snowflakeの動的Apache Icebergテーブル(今週一般提供開始)は、宣言型アプローチによりIceberg用のCDCパイプラインを大幅に簡素化します。 必要な結果のクエリを記述し、ラグを指定して、残りをSnowflakeに処理させます。近日プライベートプレビューで、外部カタログのIcebergテーブルを動的Icebergテーブルのソースとして使用できます。Snowpark PythonはIcebergテーブルへの読み取りと書き込みをサポートしていましたが、Snowpark PythonでIcebergテーブルを作成できるようになりました(一般提供)。最後に、ストレージを複製することなくIcebergテーブルのクローン作成(パブリックプレビュー中)を行い、テストや開発時に安全かつコスト効率の良い方法でIcebergテーブルをテストできます。
SnowflakeとIcebergテーブルをデータレイクハウスに簡単に統合できます。これには、Microsoft Fabric OneLake(パブリックプレビュー中)へのストレージロケーションとしての書き込みサポートなどの多数のツールが含まれます。このクイックスタートガイドでは、共通のお客様が単一のデータコピーで両方のプラットフォームを利用し、ストレージコストとパイプラインコストを削減する方法について説明します。また、Snowflakeでは、Iceberg RESTカタログ(一般提供)またはマージオンリード(プライベートプレビュー)を使用する外部管理対象のIcebergテーブルから、Icebergテーブルを簡単にクエリできます。最新バージョンのテーブルをクエリできるように、SQLで自動更新設定(近日中に一般提供開始)をIcebergテーブルおよびカタログ統合定義に追加できます。
Apache Polaris向けのSnowflakeマネージドサービスであるSnowflakeオープンカタログと簡単かつ安全にコラボレーション
2024年7月、SnowflakeはApache Icebergのカタログ(現在のApache Polaris™(インキュベーション))をオープンソース化しました。これにより、過剰なデータコピーや移動を行うことなく、単一のデータコピー上で多くのエンジン間の相互運用性が確保されます。Apache Polaris向けのフルマネージドサービスであるSnowflake Open Catalogの一般提供が開始されました。Snowflake Open Catalogでは、ベンダーロックインなし、エンジンの柔軟性、クロスエンジンセキュリティといったPolarisのすべてのメリットに加えて、信頼性、セキュリティ、スケーラビリティ、サポートも提供され、簡単に利用を開始できます。Apache Flink™、Apache Spark™、Presto、Trinoなど多くのエンジン(リーダ、ライタ)に対する一貫したアクセス制御により、組織内のチームがデータレイク上で安全にコラボレーションできるようになりました。

また、コラボレーションと事業継続性をさらにサポートするために、レプリケーション(プライベート)やクロスクラウド自動フルフィルメント(プライベートプレビュー)などの機能にIcebergサポートを導入しました。フェールオーバーグループに親データベースと外部ボリュームを追加することで、Snowflakeが管理するIcebergテーブルをソースからターゲットアカウントに、独自のオブジェクトストレージで複製できます。また、Snowflakeが管理するIcebergテーブルを含むリストを複数のリージョンで利用できるように構成するだけで、他のクラウドやリージョンのコンシューマーとこれらのテーブルを共有できます。
詳しくはこちら
データアーキテクチャは、生産性を低下させるだけでなく、セキュリティやガバナンスを脅かす迷宮のようなポイントソリューションである必要はありません。統合プラットフォームのこのような改善により、Snowflakeは複雑さをさらに簡素化しつつ、お客様のニーズに最適なアーキテクチャを柔軟に構築することを目指しています。
これらの発表と、Snowflakeが組織によるデータの使用にどのように役立つかについての詳細は、BUILD 2024のオープニング基調講演またはWhat's Newセッションをご覧ください。