Snowflake Cortex AI、AIオブザーバビリティや評価機能でエンタープライズAIの信頼性を大幅に向上

大規模言語モデル(LLM)と生成AIがミッションクリティカルなビジネスプロセスに広く統合されるようになったことで、こうしたシステムやアプリケーションに内在する「ブラックボックス」や非決定性に対処するための堅牢なAIのオブザーバビリティが求められています。
Snowflake Cortex AIなどのプラットフォームを活用するチームの真の機会は、生成AIのプロトタイプを信頼性と効率性が高く、信頼できる実稼働可能なアプリケーションに変換することにあります。
適切なLLMを選択し、プロンプトを改良するプロセスには、以下が必要です。
より正確な応答のための継続的な実験と評価
さまざまな障害モードのテストと緩和のための体系的テスト
応答レイテンシーやトークン使用量などの重要な運用メトリクスの同時モニタリングと最適化
AIデータ環境内でこれらの要因を継続的に評価、デバッグ、追跡できる統合ソリューションがなければ、効果的かつ効率的な生成AIソリューションを自信を持って展開することはできません。
AIオブザーバビリティとは
AIオブザーバビリティにより、開発者は生成AIアプリケーションの内部状態、入力、出力を監視、分析、可視化できるため、実環境での精度、信頼性、効率性、規制コンプライアンスが向上します。AIオブザーバビリティは、開発、テスト、実稼働など、アプリケーション開発のすべてのステージにまたがり、以下の3つの主要な機能を柱としています。
トレース:開発者がアプリケーションを構築してカスタマイズする際に、トレースによってアプリケーションの入力、出力、中間状態を可視化できます。これにより、アプリケーション内の各コンポーネントの粒度の高い情報が提供され、アプリケーションの動作のデバッグと説明可能性が向上します。
評価:開発者は、アプリケーションの初期バージョンの準備ができたら、体系的な評価を実施してアプリケーションのパフォーマンスを評価し、応答精度をプロアクティブに改善します。これにより、さまざまなモデルやプロンプトをテストして比較し、製品展開のための構成を確定できます。
モニタリング:アプリケーションが実稼働環境に展開されたら、開発者は運用上の信頼性を確保し、パフォーマンスのずれを回避するために、アプリケーションのパフォーマンスを常に監視する必要があります。また、継続的なモニタリングにより、障害点を排除してデータドリフトに対応することで、アプリケーションのファインチューニングも可能になります。
Snowflake CortexのAIオブザーバビリティ
Snowflakeは、開発者が生成AIアプリを効果的に評価および監視できる、包括的なAIオブザーバビリティ機能のセットをサポートしています。AIオブザーバビリティは、カスタム生成AIアプリとSnowflakeネイティブの生成AIサービスの両方で有効化できます。

カスタム生成AIアプリのAIオブザーバビリティ
カスタム生成AIアプリのAIオブザーバビリティは現在一般提供されており、AIエンジニアや開発者は生成AIアプリケーションを簡単に評価してトレースできます。AIオブザーバビリティを使用して、ユーザーは体系的な評価を実施してAIアプリケーションのパフォーマンスを測定でき、アプリケーション構成の反復によってパフォーマンスを強化できます。さらに、アプリケーショントレースのロギングが可能になるため、デバッグが容易になります。この機能により、生成AIアプリケーションとエージェントの信頼性と透明性が強化され、アプリケーション展開前の包括的なベンチマークとパフォーマンス効果測定が可能になります。
エンドツーエンドの評価:AIオブザーバビリティは、生成AIによる自動評価(LLM-as-a-judge)などの技術を使用して、エージェントやアプリのパフォーマンスを評価できます。関連性、グラウンディング、有害性などの指標をレポートできるようになるため、お客様はエージェントを迅速に反復して改良することで、パフォーマンスを改善できます。
比較:ユーザーは、並行的に評価を実行して比較を行い、さまざまなLLM構成の応答の品質と精度を評価し、実稼働展開に最適な構成を特定できます。
包括的な追跡:お客様は、入力プロンプト、ツール使用、最終応答生成にわたるエージェント実行の各ステップについて、OpenTelemetryのトレースを使用してロギングを有効にできます。これにより、精度、レイテンシー、コストに関するデバッグと改良を簡単に行えるようになります。
Cortex AIサービス全体でのAIオブザーバビリティ

Snowflake IntelligenceとCortex Agents
Snowflake Intelligenceは、検証可能な説明可能性と透明性を提供することで、ユーザーが信頼できる自然言語を使用してAI生成のインサイトを提供します。専用のポータルからアクセスできるこの新しいエージェント型エクスペリエンスにより、すべてのユーザーは、統合された直感的なインターフェイスからセキュアにデータと会話し、信頼できるエンタープライズデータから有意義なインサイトを引き出し、アクションを開始できます。
ネイティブのオブザーバビリティにより、Snowflake Intelligenceユーザーは、エージェントが生成するすべての回答の背後にある理由を簡単に確認できます。データが検証済みのソースから得られたものか、キュレートされたクエリから得られたものかを追跡し、リネージを追跡します。データ管理者は、質問されている質問と回答の関連性スコアをすぐに可視化できるため、一元的な制御による継続的な改善とファインチューニングが可能になります。
さらに、Cortex Agentsを使用して構築されたエージェントについては、エンジニアはすぐに、ネイティブのオブザーバビリティ機能を使用してエージェントの評価、トレース、監視をスムーズに行えるようになります。
エージェントのオブザーバビリティにより、開発者はエージェントのインタラクションをリアルタイムでトレースできるようになり、エージェントの計画、ツールの選択、実行、応答生成のステップに対する可視性が向上します。開発者は、エージェント上のすべてのインタラクションをログに記録して監視し、エージェントのパフォーマンスを体系的にデバッグ、改善、反復できるようになります。
このネイティブのオブザーバビリティにより、開発サイクルが加速し、展開前の生成AIアプリケーションやエージェントの信頼性と透明性が向上します。
Cortex Search
検索拡張生成(RAG)を実行するAIエージェントまたはアプリケーションでは、最終的な出力の品質は本質的に最初の検索の精度に依存します。
検索品質を測定して継続的に改善するために、Cortex Searchは現在、評価ツールとチューニングツールのネイティブスイートを提供しています。ユーザーは現在、Cortex Search専用のEvaluation UIにアクセスでき、以下を実行できます。
高品質な評価セットの作成
実験の実行
検索パラメータを自動的にチューニングして、特定のビジネスユースケースのパフォーマンスを最適化
このUIは、LLMを活用してクエリ生成や関連性判断などの検索評価プロセスを高速化します。
ユーザーはEvaluation UI を使って、人間やLLMがラベル付けしたデータセットに対して、検索の品質を測定する実験を素早く実行して比較できます。これにより、下流プロセスのユーザーが使用する検索アプリやチャットアプリに、クエリに最も関連するコンテキストが確実に提供されるようにします。
Cortex Analyst
Cortex Analystは、自然言語のプロンプトを正確なSQLクエリに変換して、ユーザーが複雑なデータセットから重要なインサイトを抽出できるようにします。
継続的な改善と正確性を確保するため、管理者とエンジニアは過去のすべてのインタラクションの履歴ログにアクセスできます。エンジニアはこれらのログを分析することで、基盤となるセマンティックモデルに情報に基づいた調整を加え、高精度の応答を生成する能力を磨くことができます。
パフォーマンスを定量的に測定するために、Cortex Analystは「LLM-as-a-Judge」を使用するStreamlitツールをオープンソース化しました。これには、モデルの応答を理想的なリクエストとレスポンスのペアのゴールデンセットと比較することが含まれます。ゴールデンセットは、正解率の合計を計算し、モデルの精度のベンチマークを提供します。
Document AI
Document AIのオブザーバビリティは、説明可能性のアテンションスパンと信頼性の信頼度スコアによって達成されます。
アテンションスパンは、ドキュメントから抽出された出力を直接検証する手段です。この機能は、セカンダリLLMを使用して各結果を裏付けるソーステキストから具体的な証拠を提示することで、説明可能性を高めます。出力品質を継続的に検証して期待値を満たしていることを確認することができるため、推論やトレーニングなどの実稼働前の段階で特に有用です。

さらに、システムは抽出したすべての値に対して組み込みの信頼度スコアを生成します。これらのスコアは、回答の各単語トークンの個別確率を集計するアルゴリズムによって計算されます。信頼スコアが高くても正解は保証されませんが、正確である可能性は非常に高くなります。これは、責任あるAIのための強力なツールとして機能し、ワークフローが低スコアの回答を自動的にフィルタリングまたはフラグ付けできるようにします。これらのスコアの継続的なモニタリングにより、時間とともにモデルパフォーマンスが低下するのをタイムリーに検知して改善できます。
Snowflake Cortex AIのAIオブザーバビリティで信頼性の高いAIアプリケーションを構築
生成AIのプロトタイプから、実稼働が可能で信頼性の高いアプリケーションに移行できるかどうかは、信頼性と透明性にかかっています。Snowflake Cortex AIは、AIのオブザーバビリティと評価に不可欠なツールキットを提供することで、この移行をシームレスに実現し、開発者はAIシステムの「ブラックボックス」という性質に対応して開発を進行できます。
オブザーバビリティをAI開発ライフサイクルに統合することで、開発者は作業の継続的な検証、デバッグ、改良が可能になり、AIソリューションの効果と効率性だけでなく、説明可能性と信頼性も確保できます。
最終的に、Snowflake Cortex AIは、強力であるだけでなく透明性とエンタープライズの信頼に値する生成AIアプリケーションの構築を可能にします。
関連リソース: