Document AIによるオペレーションの合理化とビジネスチームの非構造化データの解放
世界のデータの80%から90%が非構造化データ1であり、テキストファイルや文書が大きな部分を占めています。契約書や保険金請求などの膨大なテキストベースの文書が、毎日保管されています。ドキュメントから関連データを抽出するプロセスは難しく、面倒で時間がかかるため、豊富なインサイトが含まれているにもかかわらず、この膨大な量の情報が活用されていないことが少なくありません。さらに、ドキュメントのフォーマット、ソース、コンテンツは本質的に変動するため、複雑さが増します。
このばらつきに対応するためには、ドキュメントタイプごとにカスタマイズされた抽出アプローチが必要であり、処理時間が大幅に長くなります。この問題に対処するためのレガシーシステムは多くの場合不十分であり、大規模な開発と機械学習(ML)に関する深い専門知識が必要です。AIなどのテクノロジーの進化によりこれらのプロセスを合理化すれば、組織による文書データの利用方法を大幅に改善し、より良い意思決定を行えるようになるでしょう。あらゆるドキュメントから極めて正確な情報を自動的かつ正確に抽出するシステムを、ビジネスチームによる労力をかけずに想像してみてください。
ドキュメントAISnowflake内でのインテリジェントなドキュメント処理
組織がこのドキュメント処理の課題を解決するために、SnowflakeはDocument AIを作成しました。これはまもなくAWSとAzureで一般公開されます。この素晴らしい新機能により、チームはSnowflake内で完全にインテリジェントドキュメント処理(IDP)ワークフローを設定できます。Document AIを使用すると、請求書や契約書などのドキュメントから重要な情報を抽出し、ドキュメントの規模や変動を気にすることなく、運用ワークフローに直接適用できます。Document AIは、独自のビルトインLLM(マルチモーダル大規模言語モデル)であるSnowflake Arctic-TILT(テキスト画像レイアウトトランスフォーマー)によって強化されており、極めて効率的でコスト効率の良いリソース使用により最先端の性能を提供します。
メカニズム
Document AIのパワーにより、ビジネスチームはプロセスを自動化し、データから価値あるインサイトを獲得し、意思決定を改善できます。Document AIのユーザー エクスペリエンスは、モデルの準備(少数のドキュメントを使用)と推論(数千のドキュメントにまたがる)の2つの主な段階に分かれます。どちらのステージも、MLやアプリケーションの開発経験は必要ありません。
モデル準備ステージ:このステージでは、ドキュメント所有者がDocument AIユーザーインターフェイスを使用してモデル「ビルド」を作成、管理します。各ビルドには、ドキュメント、回答が必要な質問(最終的に抽出されたデータポイント)、モデルが含まれます。これらはすべて、特定のドキュメントタイプまたはユースケース向けにパッケージ化されています。ユーザーは自然言語でモデルの質問をし、必要に応じて修正を加えて微調整します。使いやすく直感的な自然言語インターフェースにより、ビジネスユーザーはMLやAIの背景知識がなくても、基礎モデルを活用してドキュメントから情報を抽出できます。同じユーザーがボタンをクリックするだけで、特定のニーズに合わせてモデルをトレーニングし、微調整できます。少数のドキュメントに対してモデルが正常に評価されたら、ユーザーはモデルをパブリッシュし、(1日あたり数千件のドキュメントなど)情報を大規模に抽出するための次のステップをデータエンジニアに渡します。
推論ステージ:モデルの生産準備が整ったら、データエンジニアは自動化されたインテリジェントドキュメント処理(IDP)パイプラインを設定します。まず、ドキュメントの調達とロードから始めます。データエンジニアは、外部ステージのファイルをメンテナンスするか、Snowflakeの内部ステージに直接取り込むかを選択できます。次に、特定のユースケースのドキュメントの段階にモデルを配置します。PREDICT関数を使ってモデルを呼び出し、その結果をさらに処理して、ダッシュボード、Streamlit、その他のアプリケーションを通じてドキュメント所有者などのステークホルダーと共有できます。
Document AIはSnowflake Cortex AI上に構築されているため、すべての操作はマネージドGPU上で実行され、モデルはSnowflakeで直接ホストされます。モデルを評価し、必要に応じてファインチューニングを行った後、GPUのテスト、セキュリティ確保、デプロイ、アップグレードを行うことなく、大規模なパフォーマンスを実行できます。データが存在する場所で、Snowflakeがすべてのインフラストラクチャーを処理し、パイプライン化するオプションもあります。
Snowflake Arctic-TILTの詳細
Document AIを支えるモデルであるSnowflakeのArctic-TILTは、ドキュメントを理解し、ドキュメントからデータを抽出するようカスタマイズされた、独自のトランスフォーマーアーキテクチャを活用するSnowflake製のLLMです。複数のデータモダリティを組み合わせることで、Arctic-TILTは文書理解タスクにおいて比類ない汎用性と性能を提供します。平均正規化レーベンシュタイン類似度(ANLS)スコアは、さまざまなテキスト入力の処理におけるモデルのパフォーマンスを総合的に評価するために使用する指標です。Snowflake Arctic-TILTは、最新のDocVQAベンチマークで90.2 ANLSスコアのドキュメントを処理し、GPT-4のANLSスコア88.4を上回りました。つまり、Arctic-TILTは、これまでさまざまな文書や類似文書を見たことがなくても、注釈、手作業でのテンプレート、ルールなしで、さまざまな文書を正確に処理できます。また、Document AI UIを使用して限られた量のドキュメントに注釈を付けるだけで、特定のビジネスニーズに合わせてモデルをファインチューニングできます。
主な機能と性能
- マルチモーダル理解:Arctic-TILTでは、情報の抽出にルールや仕様は必要なく、文書を処理前に整理する必要はありません。Document AIを使用すると、さまざまなドキュメントを取り込み、テキスト、画像、空間レイアウトの情報をモデルに理解、分析、抽出させることができます。
- 最先端のパフォーマンス:DocVQAなどのベンチマークにおいて、Arctic-TILTは、GPT-4などの桁違いのパラメータを持つモデルと同等か、それ以下である、視覚的質問応答能力を示します。
- 拡張コンテキストウィンドウ:Arctic-TILTは、非常に大きなコンテキストウィンドウが特徴です。この機能は、マルチモーダルコンテンツの全コンテキストを把握するために非常に重要であり、最大125ページのドキュメントをアップロードできます。
- 効率的な推論:Arctic-TILTは、ビジネス文書処理において極めて重要な性能と精度を維持しながら、小規模と大規模の両方の文書量を処理できるように設計されています。
- 適応性:幅広いアプリケーションや業界向けに設計されたArctic-TILTは、特定のドキュメントやフォーマットについての知識を必要とせず、必要に応じて簡単に微調整できます。
非構造化データから無限の機会へ
このテクノロジーの潜在的な用途は、小規模な金融機関から製造コングロマリット、請求書の照合から証拠開示まで、多岐にわたります。
たとえば、シカゴに本社を置く創業134年の金融サービス企業、ノーザントラスト社を見てみます。同社はDocument AIを使用することで、将来の調整のために財務文書から情報を抽出する作業を大幅に軽減できると期待しています。Northern TrustのSVP兼情報デリバリー責任者であるRobert Ismailov氏は、次のように述べています。「Document AIは、財務文書からデータを抽出する方法を合理化し、効率性と精度を高める可能性があります。「手入力ではなく、データ分析に集中できるようになりました。」
現在、あらゆる業界のSnowflakeのお客様が、次のような幅広いユースケースでDocument AIを使用しています。
- SEC提出観察:10-K、10-Q、8-Kファイリングからデータを抽出し、公開企業とその変化に関する最新の見解を維持する
- 請求書の調整:財務部門の帳簿整理に役立つ重要人物の抽出
- 契約内容と組織:取引条件を抽出し、簡単に分類、分析できるようにする
- メニューなどの物理ドキュメントのデジタル化:メニュー項目を自動的に解析し、よりデジタルな食事体験を提供する
Snowflakeの財務チームは、オーダーフォーム内の非標準的な取引条件の特定を効率化するためにこのテクノロジーを活用しています。Snowflakeの収益および請求担当ディレクターであるAnh Doan氏は、次のように述べています。「Document AIにより、月に数百時間もの時間が節約される可能性があり、私たちのチームは反復的なタスクからよりインパクトのあるタスクに注力できるようになりました。「変革の可能性は計り知れない」
Snowflake Arctic-TILTのパワーとDocument AIが組織にもたらす価値を直接確認するには、このクイックスタートをご覧ください。
Document AIは、SnowflakeがAIの力をビジネスのあらゆる部分に注入している多くの方法の1つに過ぎません。私たちは、組織がAIを活用してより良いエクスペリエンスを提供し、より高度な自動化によって効率性を高め、目に見える価値を実現するスピードを加速させています。Snowflake Cortex AIとSnowflake Copilotの詳細については、こちらをご覧ください。
1.Source: https://mitsloan.mit.edu/ideas-made-to-matter/tapping-power-unstructured-data