Snowflake、検索ユースケース向けに世界最高の実用的なテキスト埋め込みモデルを発売
Snowflakeは本日、Snowflake Arctic埋め込みモデルファミリーをApache 2.0ライセンスでオープンソース化しました。Massive Text Embedding Benchmark(MTEB)Retrieval Leaderboardに基づくと、3億3,400万個のパラメータしか持たない最大のArctic埋め込みモデルは、平均検索性能55.9を唯一上回っています。これは、10億個以上のパラメータを持つモデルを展開するのに現実的ではないということです。5つのモデルファミリーは、Hugging Faceで即座に使用でき、Snowflake Cortex埋め込み機能(プライベートプレビュー中)もまもなく利用可能になります。業界をリードする検索性能を提供するこのモデルは、検索拡張生成(RAG)またはセマンティック検索サービスの一環として独自のデータセットをLLMと組み合わせる際の新たな強みとなります。 これらの優れた埋め込みモデルは、SnowflakeがNeevaを利用して昨年5月に取得した技術的専門知識、独自の検索知識、研究開発を直接実装しています。
この埋め込みモデルファミリーの特長は次のとおりです。
- Massive Text Embedding Benchmark(MTEB)検索ベンチマークで最先端の検索性能を実現するモデルスイートは、X-Sサイズ(xs)からLサイズ(l)までの5つのサイズがあります。
- 3億3,400万のパラメータを誇る大規模(l)モデルは、OpenAIやCohereのテキスト埋め込みAPIなど、サイズが約4倍と推定されるクローズドソースモデルの性能に勝ります。
- 中型(m)モデルには、最大8192トークンの拡張コンテキストをサポートするロングコンテキストバージョンが含まれています。
- 同等の検索品質の埋め込みモデルと比較して、一般的に各埋め込みモデルのサイズが小さくなるため、組織はレイテンシーを削減し、総保有コスト(TCO)を削減することができます。
スケーラブル、正確、効率的なエンタープライズ検索
埋め込みモデルは、ほとんどの最新のAIワークロードの重要なコンポーネントです。検索の強化から独自の情報によるRAGエージェントの強化まで、最も関連性の高いコンテンツを見つける能力はAIシステムの基盤です。AIエクセレンスに対するSnowflakeのコミットメントの一環として、私たちは、テキスト埋め込みモデルを深く理解し、Snowflakeを検索ニーズに活用するカスタマープロダクトに最高のエクスペリエンスを提供することを目指しました。 検索に関する豊富な専門知識とこの分野の最先端の研究を活用し、最高のオープンソースのテキスト埋め込みモデルをゼロから構築することに着手しました。
まず、検索を優れたものにするために必要なことを把握し、それを最先端の調査と組み合わせて、テキスト埋め込みをゼロから再構築しました。最新の埋め込みモデルのトレーニング方法とSnowflakeを使用してトレーニングデータを処理する方法に関する最近のディスカッションで述べたように、私たちは、最初の原則からテキスト埋め込みモデルを分析し、その後、Snowflakeでこれらのモデルをエンドツーエンドでトレーニングしました。このツールと検索に対する深い理解により、このモデルスイートを作成できました。すべての埋め込みバリアントにおいて、以前の最先端のモデルを凌ぐ性能を発揮しました。簡単に言うと、Snowflakeのモデルは、埋め込みワークフローを強化しようとしているあらゆる規模の企業にとって、その品質と総保有コストにおいて卓越しています。
モデル品質の評価
検索システムの品質を独自仕様ではない方法で評価するのは困難です。数十年にわたる学術研究に基づいて構築された大規模テキスト埋め込みベンチマーク(MTEB)が標準的なベンチマークとなっています。これは、分類、クラスタリング、ペア分類、リランキング、検索、STS(意味的テキスト類似度)、要約の7つのタスクにわたって検索システムのパフォーマンスを測定するタスクの集合です。これには、さまざまなドメインのさまざまなテキスト長の56のデータセットが含まれています。SnowflakeのArctic埋め込みモデルは、実世界の検索ワークロードを強化することに重点を置いており、その結果、MTEBの検索部分に注力しています。
2024年4月現在、当社の各モデルは同様のサイズの埋め込みモデルの中で1位となっており、当社最大のモデルは、パラメータ数が20倍以上(クローズドモデルの場合は4倍)のオープンソースモデルや、モデル特性を開示していないクローズドソースモデルに抜かれています。単一のベンチマークに対するテストでは、埋め込みモデルのばらつきがお客様のワークロードに及ぼす影響を過小評価することも誇張することもありますが、それがSnowflakeの最終的な関心事項です。そのため、私たちは次のベンチマークフェーズで、実世界のデータセットを使用した実世界のユースケースに焦点を当てた新しいベンチマークに取り組んでいます。十分なサンプル数が得られ次第、より広範なコミュニティを更新していきます。
モデル
Snowflakeのアークティック埋め込みモデルは、コンテキストウィンドウとサイズ(パラメータ数)の範囲にある5つのテキスト埋め込みモデルファミリーです。モデルサイズは2,300万から3億3,400万のパラメータで、モデルの1つは拡張コンテキストウィンドウを備えており、企業はレイテンシー、コスト、検索性能の要件に最適な幅広いオプションを利用できます。以下の表では、モデルサイズと、それに近いサイズで以前のベストパフォーマンスモデルと比較した相対的なパフォーマンスの向上について説明しています。品質の指標は、MTEB検索リーダーボードのNDC@10です。各モデルのパフォーマンスを、パラメータ数が類似している関連するオープンソースモデルと比較します。
2024年4月16日現在、Snowflake-arctic-embed-lは、性能とサイズの比率に基づいて実稼働で使用できる最も有能なオープンソースモデルです。埋め込みモデルプロバイダーの間で広く利用されているSFR-Embedding-Mistralなど、snowflake-arctic-embed-lより優れたモデルのベクトル次元数は、(1024 vs.4096)と比較して20倍以上のパラメータ(3億3,400万対71億)。Apache 2ライセンスを受けたSnowflake Arcticエンベッドモデルファミリーにより、組織はCohere、OpenAI、GoogleなどのブラックボックスAPIプロバイダーに代わる新たなオープンな選択肢を手に入れることができました。
次の表に示すように、Snowflake-arctic-embed-lはオープンAIと比較して、推定パラメータが4分の1、次元が3分の1で、検索性能が優れています。
snowflake-arctic-embedの使用
Snowflakeのモデルは、既存の検索スタックと非常に簡単に統合できます。Apache 2ライセンスのHugging Faceから直接利用でき、5行のPythonでこのモデルを使用して取得できます。
秘伝のソース
さて、誰もが興味を持ちそうなのは、これらのモデルがなぜそんなに良いのかということです。答えは簡単です。ウェブ検索の効果的なテクニックは、テキスト埋め込みモデルのトレーニングにも同じように適用できます。すべての調査結果については今後の詳細な技術レポートで取り上げますが、最先端の埋め込みモデルのトレーニング方法とSnowflakeを使用してトレーニングデータを処理する方法に関する多くの調査結果についても概説します。その結果、サンプリング戦略の改善と能力を意識したハードネガティブマイニングにより、品質を大幅に改善できることがわかりました。「巨人の肩の上に構築されていない」と言っても差し支えありません。トレーニングでは、初期化されたモデル(bert-base-uncased、nomic-embed-text-v1-unsupervised、e5-large-unsupervised、sentence-transformers/all-MiniLM-L6-v2など)を活用しました。
私たちの調査結果をウェブ検索データと迅速なイテレーションループと組み合わせてモデルを徐々に改善し、性能がより幅広いコミュニティと共有できるようになりました。注目すべきは、コンピューティング予算の大幅な拡大による大幅な改善はありませんでした。すべての実験で8台のH100 GPUを使用しました。
今後を見据えて
このリリースは、RAGや検索などの一般的なエンタープライズユースケースで使用する最適なモデルをお客様に提供するというコミットメントの最初のステップです。Neevaの買収により得られた検索に関する深い専門知識とSnowflakeデータクラウドの驚異的なデータ処理能力を活用し、顧客が求める検索品質を提供する一連の効率的なモデルをコミュニティと共有しました。私たちは、トレーニングするモデルの種類とターゲットワークロードを急速に拡大しています。私たちはモデルに取り組んでいるだけでなく、次世代モデルの開発の指針となる新しいベンチマークも開発しています。モデルの改善にご興味がある場合、ご意見がある場合、未来の構築に参加したい場合は、お問い合わせください。
詳しくはこちら:
- Hugging Faceの埋め込みモデルにアクセス
- Snowflake-arctic-embed-mをSnowflake Cortex埋め込み関数の一部として試す
- 4月17日(水)にサンフランシスコで開催される当社のミートアップにご参加いただき、Snowflake Arcticの埋め込みモデルと今回のリリースを実現された方々についてお知りになりたいと思います。
確認応答
これらの優れたモデルを可能にしてくれたモデリングエンジニア、Danmei Xu、Luke Merrick、Gaurav Nuti、Daniel Camposに感謝します。この仕事をサポートしてくれたリーダーシップ、Himabindu Pucha、Kelvin So、Vivek Raghunathan、Sridhar Ramaswamyに感謝します。また、その上に構築できる優れたモデルを生み出し、これらのリリースを可能にしてくれたオープンソースコミュニティに感謝します。最後に、BEIRおよびMTEBベンチマークを作成した研究者に感謝します。モデル性能を高めることができたのは 、 「 より良い」ものを定義するという彼らのたゆまぬ努力があったからこそです。