
Rakuten Saves 60% in Infrastructure Costs with Snowflake
楽天は、コストを削減し、新製品の提供を高速化し、よりパーソナライズされた顧客体験を実現しています。
SNOWFLAKE INTELLIGENCE
社内の誰もが、必要な答えにすぐたどり着ける。
機械学習は世界を変えたと言っても過言ではありません。事前にプログラムされた規則(コード)ではなく、学習させたいこと(データ)の例を示して考えるように機械を教育することによって、さまざまな実用的なアプリケーションの可能性が広がっています。放射線診断システム、Eメールのスパムフィルター、半自律走行車など、あらゆるものが機械学習(ML)を使用して教育されています。
MLは、大規模言語モデルと、このようなモデルから発生する生成AIアプリケーションの基盤でもあります。しかし、MLモデルの作成とトレーニングには長い時間と大量のリソースを費やす必要があり、インフラストラクチャへの多額の投資とAIに関する広範な専門知識が求められます。そのため、このようなプロセスの多くを自動化するAutoMLという新しいカテゴリのツールが、データサイエンティスト、エンジニア、アナリスト、ビジネスユーザーの注目を集めています。
このガイドでは、AutoMLが何か、そしてそれがデータサイエンスチームと一般ユーザー間の知識のギャップを埋め、企業内の誰もがAIをよりスケーラブルかつ容易に利用できるようにする方法について解説します。
次に、AutoMLがモデル構築のルールを変える5つの方法について説明します。
AutoMLパイプラインの主要なコンポーネントを以下に示します。
このステージでは、プラットフォームは欠損値の処理、外れ値の除去、機械学習アルゴリズムに適した形式へのデータタイプの変換によって生データのクリーニングと準備を行い、モデルトレーニングの開始前にデータ品質と一貫性を確保します。
次に、プラットフォームは新しい変数の生成、カテゴリ別データのエンコード、数値特徴量のスケーリング、モデル予測の改善のための最も関連性の高い特徴量の選択によって生データを変換します。
AutoMLは、複数の機械学習アルゴリズム(決定木、ニューラルネットワーク、アンサンブル手法など)を体系的にテストして、具体的なデータセットや問題に最適なアプローチを特定します。
最も重要なステップは、モデルに対して大量のサンプルデータ(「スパム」または「スパムではない」というラベルの付いた数千通のEメールなど)を供給して、データ内のパターンや関係性を認識できるようにすることです。モデルは学習したパターンを使用して、初見のデータに対する予測や意思決定を行います。
このステップでは、複数の機械学習モデルを同じデータセットでトレーニングし、各モデルの予測を組み合わせて最終的な意思決定を行います。アンサンブルモデリングでは一般に、特定のモデルが持つ弱点やバイアスの影響を軽減することで、単独のモデルよりも正確で堅牢な結果が生成されます。
AutoMLは、学習率、ツリーの深度、正則化パラメータなど、各アルゴリズムの学習方法を制御する設定を自動的にファインチューニングすることによって、ユーザーがパラメータの最適な組み合わせを特定できるようにします。
組織は、新しい初見のデータを適切に処理するためのモデルを必要としています。交差検証などのテストプロシージャでは、オーバーフィッティング(トレーニングセット以外のデータに対するモデルのパフォーマンスが低下する状態)やバイアスを確認しながら、正確性、精度、リコールなどのメトリクスを収集します。
AutoMLは、本番環境で最適なパフォーマンスを発揮するモデルを自動的に特定し、パフォーマンスを経時的に追跡するシステムを設定します。その結果、実際の状況が変化してもモデルは効果的に機能し続けられるようになり、モデルのドリフトを回避し、必要に応じて再トレーニングを開始できます。
開発者は、可能であれば意思決定プロセスが完全に不透明である「ブラックボックス」モデルを回避し、モデルが特定の予測を行った理由を説明できるようにしたいと考えています。多くの場合、AutoMLプラットフォームにはデータの前処理方法や特定のアルゴリズムが選択された理由など、モデリングプロセス全体を文書化するツールが付属しています。
機械学習モデルはほぼすべての業界で使用されているため、AutoMLが組織のMLイニシアチブを推進できる機会は豊富にあります。AutoMLが役立つ可能性がある6つの一般的なユースケースを以下に紹介します。
AutoMLは、企業が過去の販売データ、季節的なパターン、市場トレンドを分析するモデルを構築できるよう支援します。このような自動化された予測に基づいて、企業は在庫、人員配置、予算をデータサイエンスチームに依頼することなく速やかに調整できます。
銀行や決済処理業者はMLを使用して、不正の可能性があるトランザクションにリアルタイムでフラグを付けています。AutoMLを利用することによって、不正アナリストやリスクマネージャーはより迅速にモデルを構築できるようになり、不正な行為を働く者の戦術の進化に後れを取ることなく対応できるようになります。
サブスクリプションサービスや通信キャリアは、サービスをキャンセルする可能性の高い顧客にMLを使用してフラグを立てることによって、顧客をプロアクティブに維持できるようにしています。自動化によって、企業は顧客の行動の変化に応じて新しいチャーンモデルを迅速にテストし、展開できるようになります。
医療従事者は機械学習を使用して、医療用画像、検査結果、患者の症状を分析し、診断や治療に役立てることができます。新しい医学研究や患者データが利用可能になると、AutoMLは既存のモデルを継続的に更新して、患者が最適な治療を受けられるように支援します。
小売企業はモデルを使用してそれぞれの店舗での特定の製品の需要を予測し、適切なタイミングで適切な商品を仕入れることができます。AutoMLは、さまざまな製品カテゴリや店舗ロケーション用のモデルを構築し、市場状況の変化に応じてモデルを自動的に再トレーニングできるようにして小売業務を支援します。
Eコマースプラットフォームやライドシェアリングサービスにおいて、AutoMLはリアルタイムのデータストリームを自動的に統合することによって動的な価格設定モデルを展開し、各種の市場、製品、サービス領域を対象に、異なる価格設定戦略を迅速に試行できるようにします。その結果、組織は手動での頻繁な価格調整を行うことなく収益を最大化できます。
AutoMLプラットフォームは、あらゆる企業に対して有用なメリットを提供します。企業では、モデル開発の高速化、人的エラーの削減、データサイエンティストの戦略的タスクへの注力、組織全体でのAI利用の民主化を実現できます。しかし同時に、企業はこのプラットフォームに固有の制約にも悩まされています。例としては、以下の制限事項があります。
AutoMLは、特殊な問題の独自の側面に対処していない標準的なアプローチを適用する傾向があり、特定の業界やユースケース向けに、その分野の専門家が開発したカスタムソリューションが提供されない可能性があります。
AutoMLシステムは、特定の業界や領域に特化したビジネスコンテキストや専門知識を備えていないため、季節的なビジネスパターンや規制上の制約など、人間の専門家であれば把握できる重要なニュアンスが見逃される可能性があります。
AutoMLプラットフォームでは、元々品質の低いデータを修正することはできません。入力データがバイアスがかかっているものであったり、不完全であったり、関連性が低かったりすると、自動化されたシステムは信頼性の低い結果を生成します。
上級ユーザーが、プラットフォームの自動化機能の範囲外である特殊な手法、カスタムのアルゴリズム、複雑な前処理ステップを実装しようとすると、うまくいかない可能性があります。
AutoMLプラットフォームでは基本的な特徴量エンジニアリングを行いますが、モデルのパフォーマンスを大幅に改善できる可能性がある、分野固有の高度な特徴量が見落とされる可能性があります。
AutoMLプラットフォームでは単一のMLモデルによる予測方法を説明できる可能性がありますが、複雑なアンサンブルモデルの場合は解釈や説明が非常に難しい可能性があります。そのため、AutoMLプラットフォームは医療関係の診断やローンの承認など、高い透明性が要求される用途には適していません。
多くのAutoMLプラットフォームは高価であり、専有システムとの間に依存関係が構築されるため、モデルを異なる環境に移行したり、個別にメンテナンスしたりすることが困難です。
このような制約は、AutoMLは人間の専門知識の完全な代替としてではなく、専門知識を強化するツールとして使用するのが最も有効である理由を示しています。
AutoMLは、さまざまな業界の専門家が技術的な専門知識がなくても高度な予測モデルを構築できるようにすることで機械学習を民主化し、数か月かかっていた開発期間を数日に短縮して、エンタープライズAIの導入の速度を劇的に向上させます。
AutoMLプラットフォームでは、何百ものアルゴリズムの組み合わせを体系的にテストして、最も信頼性の高い結果を生成するアルゴリズムを特定することができます。また、検証と評価のための一貫したベストプラクティスを適用することで、モデルのパフォーマンスを損なう人的エラーを削減します。
しかしながら、AutoMLの制約についても考慮する必要があります。これには、専門分野のコンテキストの欠如、解釈可能性の潜在的な問題、およびデータ品質への高い依存度が含まれます。
データガバナンス、質の高いインフラストラクチャ、人的な監視に対して適切な注意を払った上で実装されれば、AutoMLは人間の専門知識を拡張し、組織がAIイニシアチブを企業全体に拡大するための強力なツールとなり得ます。
機械学習は、コンピューターに対する教育の広範な分野であり、データから学習し、予測を行うようにコンピューターを教育します。AutoMLは、アルゴリズムの選択やパラメータのチューニングなど、機械学習の複雑で時間のかかるタスクを自動化します。端的に言えば、機械学習は科学であり、AutoMLはそのモデルを科学者ではない人々にも利用可能にする自動化されたツールセットです。
MLOpsは、実稼働環境での機械学習モデルの展開、モニタリング、メンテナンスという、運用面に重点を置いています。AutoMLは、このようなモデルの初期段階の開発とトレーニングを自動化します。AutoMLはモデルの迅速な構築を支援しますが、MLOpsは実際のアプリケーションで確実に機能し、状況が変化した場合でも優れたパフォーマンスを継続できるようにします。
Amazon、Google、Microsoftなどの大手のテクノロジーベンダーは、AutoMLプラットフォームをクラウドポートフォリオの一部として提供しています。DataRobot、H20.ai、IBM Watsonなどの企業も同様のツールを提供しています。また、企業はAuto-sklearnやTPOTなどのオープンソースのPythonライブラリを活用できます。このようなライブラリを利用すると、カスタマイズを完全に制御してscikit-learnのワークフローを自動化することができます。
AutoMLは、基盤モデルや大規模言語モデルに統合されるように進化しており、ユーザーはモデルをゼロから構築する代わりに、事前学習済みのモデルをファインチューニングすることができます。コンピュータービジョン、自然言語処理、時系列予測などの専門分野に特化したAutoMLツールが新たに登場しています。さらに、モダンAutoMLプラットフォームでは、説明可能性、倫理的なAIの検討、自動化されたプロセスと人間の専門知識や監視を組み合わせたハイブリッドアプローチへの注力が進んでいます。
マンスリーニュースレターを購読する
Snowflakeの製品に関する最新情報、専門家の知見、役立つリソースを直接お届けします。
プロダクト
サポート