注:本記事は(2021年8月9日)に公開された(New Snowflake Features Released in June and July 2021)を翻訳して公開したものです。

今年のサミットで発表したとおり、Snowflakeは、データプログラマビリティー、グローバルガバナンス、データシェアリングの分野を中心に、いくつかの新エンハンスメントをリリースしました。詳しくは下記をお読みください。さらなる詳細について知りたい方や、新機能を実際に使用している様子を確認したい方は、サミットのオンデマンドセッションをご覧ください。

データプログラマビリティー

SnowparkとJava UDFを使用してSnowflakeでデータプログラマビリティーを実現 

Snowflake Summit 2021において、当社はSnowparkとJava UDF(ユーザー定義関数)のカスタマー向けロールアウトを開始すると発表しました。これらの機能は、現在AWSの全カスタマーに向けてプレビュー版で提供されているもので、データプログラマビリティーの大きな進化を意味します。これにより、Snowflakeのプラットフォームを使用するカスタマーは、より簡単により多くのことを実行できます。

  • Snowparkは、Scalaなど開発者が好む言語を使用して、深く統合されたDataFrame式のプログラミングをすることを可能にする、新しい開発者向けツールです。Snowparkは、複雑なデータパイプラインを簡単に構築できるよう、また開発者がデータを移動させることなく直接Snowflakeとやり取りできるようデザインされています。
  • Java UDFを使用することで、カスタマーはSnowflake内で直接Javaコードを実行して、パフォーマンスを向上させたり、変換機能を大きく拡大したり、外部サービスのホスティングに伴う管理の複雑さを軽減させたりできます。

SnowparkとJava UDFは、非SQL開発者にもSnowflakeのデータプログラマビリティーの門戸を広げます。これにより非SQL開発者は好みの言語やツールを使用してSnowflakeで実行し、データクラウドのパフォーマンス、使いやすさ、拡張性などといったメリットを得ることができます。こちらの手順書を参考に、SnowparkとJava UDFをぜひお試しください

Google Cloud API Gateway向けエクスターナルファンクションによる拡張性

昨今のアナリティカルワークロードは、しばしば複雑な変換や強化を必要とするため、カスタムコードやサードパーティのサービスを使用しなければなりません。しかしながら、外部サービスやライブラリの使用はデータパイプラインを複雑にしがちです。リモートサービスの利用をシンプル化するため、Snowflakeはエクスターナルファンクション機能を開発しました。これによりユーザーは、外部APIやSnowflake内のカスタムコードを呼び出し、その結果を自身のクエリ結果と統合できます。エクスターナルファンクションがGoogle API Gatewayでも使用可能になったことで、AWSでの仮想プライベートエンドポイント(VPC)へのサポートを含め、現在、3つの主要クラウドプロバイダーすべてに正規版が提供されていることになります。こちらの手順書を参考に、エクスターナルファンクションをぜひお試しください。

SQL REST APIとAPIプレイグラウンド 

Snowflake Summit 2021では、全く新しいSQL REST APIについての発表が行われ、現在すべてのカスタマーに向けパブリックプレビュー版が提供されています。この機能により、開発者はRESTインターフェイスを介してSQL文を直接提出および実行できるので、リソースに制約がある環境、カスタム統合とプラグイン、およびSnowflake向けカスタムドライバーの開発に便利です。開発者は、api.developers.snowflake.comで提供されているプレイグラウンド環境で、このAPIとやり取りできます。

グローバルガバナンス

行アクセスポリシーを使用した部外秘データの保護

Snowflakeのカスタマーは、行アクセスポリシー機能を使用して、クエリ結果にどの行を返すかを設定できるようになりました。一度決めたポリシーを複数のテーブルに適用できるなど、行アクセスポリシーは組織全体における部外秘データの保護をシンプル化します。行アクセスポリシーは、特定のロールに対して特定の行の表示を許可するようなシンプルなものから、マッピングテーブルを使用してカスタマイズされた複雑なものまであります。この機能は現在、正規版が提供されています。詳しくは、こちらをご覧ください。

データシェアリングとデータマーケットプレイス

データクラウドでの発見と被発見  

Snowflakeのカスタマーは、行アクセスポリシー機能を使用して、クエリ結果にどの行を返すかを設定できるようになりました。一度決めたポリシーを複数のテーブルに適用できるなど、行アクセスポリシーは組織全体における部外秘データの保護をシンプル化します。行アクセスポリシーは、特定のロールに対して特定の行の表示を許可するようなシンプルなものから、マッピングテーブルを使用してカスタマイズされた複雑なものまであります。この機能は現在、正規版が提供されています。詳しくは、こちらをご覧ください。

データリスティングのテレメトリと使用状況メトリクスにアクセス 

SnowflakeデータマーケットプレイスとData Exchangeを利用しているプロバイダーは、リスティングのクリックスルー率やデータ利用者ごとのクエリ数といった使用状況データにアクセスできるようになりました。データリスティングのテレメトリや使用状況メトリクスにより、データプロバイダーはデータ利用者の関心やSnowflakeデータマーケットプレイスについて、さらにはData Exchanges内のデータプロダクトの使用状況に関するインサイトを得ることができます。この機能は現在、正規版として提供されています。テレメトリや使用状況メトリクスについての詳細はこちらをご覧ください。

Snowflakeデータプロバイダーはリスティングレベルでサービス利用規約を設定することが可能に

SnowflakeデータマーケットプレイスとData Exchangesのデータプロバイダーは、標準リスティングに利用規約を設定できるようになりました。この新機能は現在、パブリックプレビュー版として提供されています。これによりデータプロバイダーは、自身が提供している各標準データセットに対して、固有のサービス利用規約を定めることができます。パーソナルリスティングの場合、プロバイダーはこのエリアを空白のままにして、サービス利用規約をオフラインで処理できます。詳しくはこちらをご覧ください。

エコシステムのアップデート

PythonおよびGo Snowflake Driver用Snowflakeコネクターのアップデート 

Python用Snowflakeコネクターに向け、Snowflakeはセッション中に非アクティブ状態が続いた場合にユーザーに再度ログインを促すプロンプトを表示しないようにする2つのセッションパラメーター、CLIENT_SESSION_KEEP_ALIVE(Python、JDBC、ODBC、Node.jsコネクター共通)およびclient_session_keep_alive(Python向けSnowflakeコネクターのみ)を追加しました。Version 2.4.6は、現在正規版として提供されていますが、client_session_keep_aliveのデフォルト値をFalseからNoneにすることでロジックをシンプル化しています。Noneがデフォルト値になったことで、バージョン2.4.5以前の場合とは異なり、client_session_keep_alive=Falseまたはclient_session_keep_alive=True overridesの場合は渡されますが、デフォルト値の場合は無視されるので、セッションパラメーターCLIENT_SESSION_KEEP_ALIVEの値が使用され、挙動が変化しません。さらに、Python用Snowflakeコネクターのバージョン2.4.6では、クエリを実行する必要なしに結果セット内の列に関するメタデータを取得できるようになりました。さらに、正規版として提供されているGo Snowflake Driverにおいて、Golangクライアントから大量のデータをロードする際のパフォーマンスを向上させるBulk Array Binding機能へのサポートを追加しました。詳しくは、Snowflake Connector for PythonおよびGo Snowflake Driverをご覧ください。

プラットフォームの最適化

Snowflake内の地理空間データを使用したロケーションインテリジェンス機能を拡張 

現在正規版として提供されているSnowflakeの地理空間データへのサポート機能は、地理空間オブジェクトの構築、フォーマット化、測定、および複数のオブジェクト間のリレーションシップの計算に関する一連の機能を提供します。この機能のローンチ以来、当社はさらなる機能を追加し、地理空間結合を用いるクエリのパフォーマンスを向上させてきました。さらに、ネイティブコネクター、データエンリッチメント、高速探索、空間分析、およびビジュアライゼーションといった機能により、Tableau、CARTO、Safe Softwareで優れた可視化機能とロケーションインテリジェンス機能が利用できます。さらに、Snowflakeデータマーケットプレイスでも、CARTOの人口統計データや、SafeGraphのフットトラフィックデータ、Weather Sourceの天候および天気予報データ、Airlines Reporting Corporationの旅行商品売上データ、CoreLogicの区画境界データなど、さまざまなロケーションベースのデータセットが提供されています。詳しくはこちらをご覧ください。

新しいウェブインターフェイスで、クエリ履歴の表示やあらゆる管理タスクを実行

新しいSnowflakeウェブインターフェイスは、現在プレビュー版で提供されており、「preview app」からアクセス可能ですが、この6月にメジャーアップデートを行い、ユーザーはクエリ履歴にアクセスし、ウェアハウスやユーザーを追加したり管理したりすることが可能になりました。ロール階層やアカウント使用量の可視化を含む新しい機能の追加により、ユーザーは組織内の誰にデータへのアクセス権限があり、データがどのように使用されているかを把握できます。詳しくはこちらをご覧ください。

より大きなウェアハウスサイズで計算集約的なワークロードに対応

6月、Snowflakeは仮想ウェアハウスに新たに2つのサイズ(5XLと6XL)を加えることを発表しました。これによりユーザーはワークロードにさらなるコンピュート力を追加し、データロード、変換、クエリをさらに迅速化できます。これらのサイズは、現在AWSでのみパブリックプレビュー版で提供されていますが、Microsoft Azureへのサポートも予定されています。以前、データ処理で計算集約的なワークロードに対応する必要があったカスタマーは、複数の4XLウェアハウスを使用してバッチ処理をしなければタスクを完遂できませんでした。仮想ウェアハウスのサイズに5XLと6XLが加わることで、ユーザーはより大きな計算集約的ワークロードを、バッチ処理なしで、効率的に実行できます。詳しくはこちらをご覧ください。

組織内で複数のアカウントを作成、管理

Snowflake組織は、さまざまなリージョンやクラウドプラットフォームをまたぐすべてのアカウントを作成、表示、管理することを可能にする、ファーストクラスのSnowflakeオブジェクトです。現在、正規版として提供されているこの機能は、アカウント管理と請求処理をシンプル化し、セルフサービスでのアカウント作成を可能にするほか、データのレプリケーションとフェイルオーバーによってデータの可用性と耐久性を向上させ、リージョンをまたいだシームレスなデータシェアリングを可能にします。詳しくはこちらをご覧ください。

リージョンの拡大

Azureで新規リージョン「Central U.S. (Iowa)」の追加 

Snowflakeは、Microsoft Azureでの可用性を「Central U.S. (Iowa) 」(アメリカ合衆国中央部(アイオワ))にまで拡大しました。今回の追加により、Snowflakeは現在、サポートしている3つのクラウドプラットフォーム(AWS、Google Cloud Platform、Azure)全体で、北米の11の地域に対応しています。

対応リージョンの全リストについては、こちらのガイドを参照してください。

Snowflakeデータマーケットプレイスに最近加わったプロバイダー 

Atheon Analytics

Atheon Analyticsは、英国の食料雑貨セクターに向けて、データおよびアナリティクスに関するプロダクトを提供しています。同社のSKUtrakカスタマーは、Snowflakeデータマーケットプレイス上で、英国全域の2年間にわたる日次取引などのデータにアクセスできます。詳しくはこちらをご覧ください。

Atlas Technology Group

Atlas Technology Groupは、ブランドに力をもたらす小売アナリティクスを提供しています。そのサンプルデータセットには、商品や店舗ごとの週次/日次の標準メトリクスが含まれます。詳しくはこちらをご覧ください。

BDEX

何百ものデータソースをリアルタイムに独自のデータインフラストラクチャーへと統合することで、BDEXは米国および世界で最も正確で完全に検証されたアイデンティティグラフを提供すると胸を張ります。詳しくはこちらをご覧ください。

Compile

Compileは、米国のヘルスケア市場に関する、統合型で完全にリンクされた記録システムです。Compileのデータは、患者の治療活動やヘルスケア分野における薬剤師や医療提供者のネットワークについて、かつてないレベルの可視性を提供します。詳しくはこちらをご覧ください。

ContentEngine

ContentEngineは、メキシコや中央/南アメリカをカバーするニュースや情報コンテンツから成る最大のライブラリを集約、生成、配給しています。毎日、500以上の個別タイトルから9,000ものストーリーを提供しています。詳しくはこちらをご覧ください。

Data n Dashboards

Data n Dashboardsは、組織における内外のデータやダッシュボードに関する課題をワンストップで解決します。同社のStats NZ Census 2018データセットは、ニュージーランドの人口統計に関する情報を提供する205以上のテーブルから成ります。詳しくはこちらをご覧ください。

Edvisors Network

Edvisors Networkは、高等教育メディアマーケティング企業で、米国に所在するZ世代、ミレニアルズ、大学生/大学院生、および卒業生に関する1300万以上のレコードを、Snowflakeデータマーケットプレイスを通じて提供しています。詳しくはこちらをご覧ください。

Equilar

Equilarは、コーポレートリーダーシップデータソリューションの主要プロバイダーで、ビジネスリーダー、投資家、アドバイザーがリーダーシップを社会性およびガバナンスの視点から評価する際の資料を提供します。同社がSnowflakeデータマーケットプレイスで提供しているデータには、エグゼクティブと取締役の関係、株式と報酬、および人材ビジネスインテリジェンスなどがあります。詳しくはこちらをご覧ください。

eyos

eyosは、インドネシアでデジタル接続された独立系食料品雑貨店2,000店から直接取得した取引レベルでのPOSデータを提供しています。このグローバルな小売データオートメーションプラットフォーム企業は、世界の小売店舗に向け、顧客を特定し、店舗内マーケティングを自動化し、インサイトと予測を活用する支援を提供しています。詳しくはこちらをご覧ください。

Facteus

マクロ、ミクロ、企業別など、何に関するトレンドを必要としていようと、Facteusの米国消費者決済データセットは大きなメリットを提供します。2000万件を超えるアクティブな決済カードからのデータを含め、米国の消費者の支出を広く深くカバーしているので、企業のパフォーマンスや業界のトレンドの背後にある推進要素に関する実用的なインテリジェンスとインサイトを提供します。詳しくはこちらをご覧ください。

Facts and Dimensions Ltd

Facts and Dimensionsは、英国の保健統計や参照データに関する最大規模の単一情報源を提供しています。このデータは、NHSイングランドを含むほとんどのNHS(国民保健サービス)やその他多くの組織で使用されています。同社のコロナウイルスに関するデータセットは、英国におけるコロナウイルスデータの包括的なカタログとして、世界のデータセットとの比較に利用されています。詳しくはこちらをご覧ください。

Gretel.ai

Gretel.aiは、シンプルなAPIとオープンソースのAIベースのコアから成る高度な合成データプラットフォームです。同社のU.S. Census Income Reduced Bias(米国国勢調査の収入に関する低バイアス)データセットは、合成データを使用して、評価で漏れがちな人種、性別、所得階層を適正に評価しているため、国勢調査のデータに基づいて収入が年間5万ドルを超えるかどうかの予測に広く利用されています。詳しくはこちらをご覧ください。

Jobvite

Jobviteは、候補者中心の採用モデルを活用した次世代の人材獲得イノベーションのリーダー的存在で、有意義な経験を持つ候補者を適時に、適切な方法で獲得できるよう企業を支援しています。同社のTalent Acquisition Platform(人材獲得プラットフォーム)データセットは、組織による雇用成功の追跡と測定に役立つ細部にわたるデータを提供します。詳しくはこちらをご覧ください。

Pollen Analytics

Pollen Analyticsは、科学コミュニティから得た何百もの気候変動要素に関する予測を、Snowflake内でクエリできる利用しやすいデータセットへと再処理しています。テーブルには、温度、湿度、積雪などといった変動要素に関する過去の気候データと予想気候データが含まれます。詳しくはこちらをご覧ください。

RIMES

RIMES Global ETF Data Samplesデータセットは、検証済みの上場投資信託(ETF)の日次組成と参照データを含みます。RIMESは、組成とその基盤となる成分とをリンクすることでETFデータセットを正規化、検証、エンリッチ化します。それによりカスタマーは自らのカスタム仕様に基づいて、ポートフォリオ、リスク、コンプライアンス、およびパフォーマンスの分析を実行できます。詳しくはこちらをご覧ください。

Rockerbox

Rockerboxは、デジタルブランド向けアトリビューションプロバイダーのリーダー的存在で、組織のマーケティング活動のすべてにわたるシングル・ソース・オブ・トゥルース(信頼できる唯一の情報源)を提供することで、マーケティングの効果をすばやく把握することを可能にします。Rockerboxのデータセットと社内のデータとを簡単に結合して、カスタムアナリティクスを構築できます。詳しくはこちらをご覧ください。

Quantfy

Quantfyは、暗号通貨、外国為替、および株式市場の取引に関する、正規化され低遅延な市場データとAIベースのインサイトへの、コンプライアントでシームレスなアクセスを可能にします。Crypto OHLCV Feedデータセットは、複数の仮想通貨交換所の取引活動について、ほぼリアルタイムな情報を提供します。詳しくはこちらをご覧ください。

Vantage Point Consulting

Vantage Point Consultingは、高度教育データ、テクノロジー、およびユーザーエクスペリエンスデザインを専門としています。同社のU.S. Salaries by Occupation and ZIP Code(米国における職業およびZIPコード別の給与)データセットは、Snowflakeデータマーケットプレイスを通じて、10、25、50、75、90パーセンタイルの給与データを、ZIPコード、緯度、経度、O*NETコードごとに表示するもので、行数は4000万以上に及びます。詳しくはこちらをご覧ください。

Viscacha Data

Viscacha Dataは、大型ディスカウントストアや専門小売店からのリアルタイムな売上、在庫、価格データを追跡して、どの商品やブランドが売れているかについて直接見通せるデータを提供します。同社のリスティングの中でも、Snowflakeデータマーケットプレイスで提供されている「Target Sales, Inventory & Prices(Target社の売上、在庫、および価格)」データセットは、Target(TGT)社のEコマースの売上高を時間ベースで、店舗売上高を日次ベースでモニタリングしています。売上高はSKUレベルで追跡され、販売後15分以内というすばやさでレポートされます。詳しくはこちらをご覧ください。

Windsor.ai

Windsor.aiは、企業のマーケティング、アナリティクス、セールス、およびCRMプラットフォームを接続し、データをSnowflakeにストリーミングして、好みのBIプラットフォームで修正、結合、可視化するお手伝いをしています。同社がSnowflakeデータマーケットプレイスで提供しているMultitouch Attribution(マルチタッチ属性)データセットは、Adobe Analytics、Google Ads、HubSpot、Twitter Ads、Salesforce用コネクターを含め、50以上のコネクターを提供しており、カスタマージャーニー全体で最も機能しているチャネル、広告支出へのリターン、顧客獲得原価などを把握することを可能にします。詳しくはこちらをご覧ください。