Snowflakeの2023年のデータサイエンスの6つのトレンドの中で、私たちが明らかにした顕著な傾向の1つは、SQLとPythonの統合ツールおよびインフラストラクチャーの利用の増加です。McKinseyの最近の記事によると、データサイエンス、AI、機械学習(ML)に巨額の投資が行われており、これは、より高い財務収益、より効率的なプロセス、および全体的なビジネスレジリエンスの向上という約束によって推進されたものであるとのことです。McKinseyのAIに関するグローバル調査によると、AIの採用は2017年以降2倍以上に増えており、AIへの投資を拡大している企業は競合他社よりも優位に立っているとのことです。

データサイエンスとAI/MLに対する需要の増加に伴い、企業は従来のオンプレミスデータウェアハウスからクラウドに移行して成長を拡大することで、アーキテクチャの最新化に取り組んできました。多くの企業は、データをクラウドオブジェクトストアにコピーし、Python、SQL、Javaなどのプログラミング言語用の個別の処理インフラストラクチャーやツールに投資することから始めました。しかし、このような段階的なアプローチにより、インフラストラクチャー管理は複雑化し、チーム間のコラボレーションが制限されるようになりました。

サイロ化されたデータアーキテクチャの課題  

SQLとPythonは、変換、分析、および機械学習用の最新のデータスタックにおいて最も人気のある言語です。SQLは、長年にわたってデータのクエリと変換に利用されてきたデータベース言語であり、Pythonはデータサイエンスと機械学習に適したプログラミング言語として注目されるようになっています。データサイエンティストやデータエンジニアは、複数の言語を使用する場合、1つの分析を完了させるために複数のツールをつなぎ合わせなければならないことがよくあります。両方の言語に自信がある人でも、言語ごとに別々のコンピュート環境をセットアップして管理しなければならないという面倒さがあります。それに時間を取られ、降らすトレーションが溜まる場合もあります。

相互運用性の欠如は、一方の言語のユーザーがもう一方の言語のユーザーと共同で分析やワークフローを実行できないという深刻なサイロ化の原因となっています。このような難しい状況は、データ業界の継続的な成長と成熟によってさらに悪化しています。Statistaは、生成されるデータの量が2025年までに180ゼタバイト以上に達すると予測しており、米国労働統計局は、データサイエンティストの仕事数が、2021年から2031年までの間に36%増加すると予測しています。データドリブンなインサイトの需要と供給が爆発的に増加していることを考えると、データサイロに起因する課題の影響はますます大きくなっていると言えます。

SQLとPythonのツールとインフラストラクチャーを統合するソリューション

このような複雑さは、単一のプラットフォームで複数の言語を実行できるSnowflakeのSnowparkを使用することで解決できます。Snowparkは、Snowflakeの新しい開発者フレームワークであり、これを利用するとデータエンジニア、データサイエンティスト、データ開発者が好みの言語でコードを記述し、そのコードをSnowflakeで実行できるようになります。SnowparkはSQL、Python、Java、Scalaでの開発用インターフェイスに対応しているため、開発者は、データを移動したり、別のクラスターをセットアップしたりすることなく、簡単に言語を切り替えてプログラミングすることができます。 

プログラミング言語を統合するツールは、コラボレーションを通じた継続的な成長にとって不可欠です。共有言語がないためにデータエンジニア、データサイエンティスト、データアナリストらが孤立して作業しなければならない状況から脱却し、単一のプラットフォームで連携して、未加工データからインサイトを得ることができるようになります。この知識の共有により、最終的にはよりアジャイルなデータエンジニアリングと機械学習プロジェクトが作成され、長期的な成果が向上します。

Snowparkでは、サイロを削減するdbt、Hex、Dataikuなどのツールとのネイティブ統合もご用意しています。

dbt:dbtは、データチームがモジュール性、ポータビリティ、CI/CD、ドキュメンテーションなどのソフトウェアエンジニアリングのベストプラクティスに沿って作業を行うためのデータ変換ワークフローです。dbtはSQLファーストの変換ワークフローに対応しているほか、2022年には2番目の言語としてPythonを導入し、Snowparkを内部で使用することで同じプロジェクト上で言語を切り替えて機能するシームレスなソリューションを求める需要の高まりに答えました。dbtとSnowparkの使用を開始するには、こちらをご覧ください

Hex:Hexは、アナリティクスとデータサイエンスのための最新のプラットフォームです。これを利用すると、データへの接続、SQLおよびPythonを利用した共同ノートブックでの分析、インタラクティブなデータアプリやストーリーとしての作業の共有を簡単に実行できます。ほぼ無制限の処理スケーラビリティを提供するために、すべてのデータをノートブックにロードするのではなく、コンピュートをデータプラットフォームにプッシュダウンするというアプローチを採用しています。HexはSnowparkと統合されており、Snowflakeデータ用の新しい強力なインターフェイスをユーザーに提供します。HexとSnowparkの使用を開始するには、こちらをご覧ください。 

Dataiku:DataikuはEveryday AIのプラットフォームであり、データの専門家とドメインの専門家が協力してAIを日常業務に組み込めるようにするものです。Snowflakeとの共同ソリューションでは、コードを理解して使用できる人とそうでない人が同じようにSnowflakeのデータにアクセスし、Snowparkで本番環境対応のデータパイプラインとデータサイエンスプロジェクトを協力して構築できる、使いやすいビジュアルインターフェイスが提供されています。 DataikuとSnowparkの使用を開始するには、こちらをご覧ください

詳細情報をご希望の方

Snowparkの詳細については、こちらのドキュメンテーションをご覧ください。また、プロダクトの詳細や段階的なセットアップ手順については、クイックスタートガイドをご覧ください。また、Snowflakeフォーラムのコミュニティも、疑問解消のための優れたリソースとなっています。