製品 & テクノロジー

Snowflakeでの非構造化データ管理機能の一般提供開始。パブリックプレビュー版のSnowpark機能で処理可能

Snowflakeでの非構造化データ管理機能の一般提供開始。パブリックプレビュー版のSnowpark機能で処理可能

この度、Snowflakeでの非構造化データ管理機能の一般提供を開始いたしました。2021年に本機能のパブリックプレビュー提供を開始して以来、様々の業界の幅広いユースケースに採用いただいており、例えばコールセンターの音声録音データの保存およびセキュリティ保護、Snowflakeデータマーケットプレイスでの安全なPDFドキュメント共有、医療関連画像の保存およびデータ抽出など、数多くのユースケースにご利用いただいております。

非構造化データ向けパートナーエコシステムも成長を続けており、Clarifai、Impira、Labelbox、Semantic Health、VeritoneなどのMLパートナー事業者のご協力により、これらの事業者の非構造化データから取得した価値あるインサイトをユーザー様に提供しております。またHammerspaceなど追加データ管理機能を提供するパートナー事業者とも連携しております。

非構造化データのためのSnowparkをパブリックプレビュー版で提供中

複数のタイプのデータを格納し管理する一元化されたレポジトリを必要とするユーザーの場合、Snowflake内で非構造化データを保存および管理できるだけでなく、エクスターナルファンクションを用いて、あるいはSnowparkおよび現在パブリックプレビュー中のJavaサポートを用いてネイティブ処理することもできます。

SnowparkはSnowflakeの新しいデベロッパーフレームワークです。Scala、Java、Python(プレビュー中)のネイティブサポートとライブラリの完全制御を提供しているため、個別の処理エンジンの実装が不要となります。それぞれのチームが単一のプラットフォーム上で同じデータを用いてコラボレーションできることにより、ユーザー企業はアーキテクチャを合理化して広範な新しいユースケースを実現できます。

「当社は、テキストアナリティクスを大量の添付ファイル付きメールデータに適用するプロジェクトを運用しています。従来はメールの本文と添付ファイルを別々に保存し、添付ファイルはデータベース内にバイナリデータとして保存していましたが、複数の課題が存在していました。添付ファイルは列ストレージ上限を超えることがあり、また元のメールデータは後でアクセスできるようディスクに保存する必要がありました。現在はSnowflakeの非構造化データのサポートにより、全てのデータを1か所で処理し、様々なユースケースの機械学習向けに充実したデータセットを構築できるようになりました。メールファイルを元の形式でSnowflake管理下のステージに保存し、Snowflakeのエンジンを利用してJava UDFで処理しています。」

— 大手ソフトウェア企業のデータサイエンス担当VP、Eranga氏

Snowparkを用いた非構造化データの処理

「ストリームおよびタスク」ディレクトリテーブルの利用により、ユーザーは継続的なデータパイプラインを構築して非構造化データを処理することができます。実際のファイル処理は、Snowflakeのコンピュートリソース上でJava関数とSnowparkを用いて行います。

データエンジニア、データサイテンティスト、デベロッパーは、Javaユーザー定義関数の作成により以下を行うことができます。

  • ドキュメントからのテキスト抽出。
  • メール処理とメタデータ抽出、および添付ファイルの抽出。
  • 医療関連画像の処理による患者情報の抽出。

例えば医療機関で医師の作成した記録をPDFもしくは画像ファイルで保存しており、それらのファイルからフィールドデータを抽出して構造化テーブルに出力しなければならない場合、Snowflakeを利用すれば、PDFや画像ファイルからデータを抽出するJava関数を作成してSQLクエリもしくはパイプラインに呼び出し、Snowflakeのエンジンで継続的に処理することができます。

そのようなアーキテクチャの例がこちらです。

今すぐ始めるには

今回ご紹介したSnowflakeで非構造化データを格納、管理、処理、共有する各種新機能の操作方法はこちらのクイックスタートで詳しく説明しておりますので、ぜひ実際にお試しください。こちらの製品ドキュメンテーションも併せて参照ください。Snowflakeでは常に製品やサービスの改善に努めており、Snowparkについてのフィードバックもお待ちしております。こちらの専用ディスカッションフォーラムにてぜひフィードバックを共有してください。 

記事をシェアする

Data Execs Share AI Adoption Lessons Learned

A year after the AI hype cycle started, data execs are sharing their lessons learned and best practices in planning, executing and scaling effective AI programs

New Year, New UI: Get Started in Snowsight

Get a look at the new 2022 Snowflake UI Snowsight with a peak at features and experiences (includes videos).

6 Essential Enterprise Data Platform Features

Learn about 6 must-have enterprise data platform capabilities, including comprehensive cross-cloud replication, zero copy database and schema clone, and more.

AI Data Cloud for Energy: Strategies for Oil, Gas & Power

Discover how Snowflake's AI Data Cloud empowers energy companies to digitize infrastructure, optimize operations, and manage market volatility through advanced analytics.

Unleash Advanced Geospatial Analytics in Snowflake

In 2020 Snowflake launched a series of geospatial functions and building on these foundations, CARTO has developed an exciting Spatial Extension for Snowflake.

Data Vault Automation with erwin and Snowflake

Read on to find out how the combination of Snowflake and erwin provides an end-to-end solution for a governed Data Vault with powerful performance.

Why I Joined Snowflake: Driving Innovation in Media, Entertainment, and Adtech

Why I joined Snowflake to lead Media, Entertainment & Adtech: transforming digital media with data collaboration, privacy, and generative AI innovation.

AI-Driven ABM: Scaling Precision and Impact for B2B Growth

See how Snowflake used AI to boost ABM performance—achieving 2.3x more meetings and 54% higher CTR through smarter targeting and personalization.

Advancing Geospatial Analysis with a New Data Type

Discover how the GEOMETRY data type is advancing geospatial analysis in Snowflake, with 60+ new spatial functions and multiple SRIDs.

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Where Data Does More

  • 30日間無料トライアル
  • クレジットカード不要
  • いつでもキャンセル