
カスタマーストーリー
ナウキャストがAI_EXTRACTやCortex AnalystなどのAI機能を活用した新パイプラインで半構造化・非構造化データ抽出の省力化を実現
半構造化・非構造化データの抽出・構造化と、自然言語による構造化データの迅速な利活用という二つの課題の解決に向け、AI機能群を活用した結果と将来展望とは。
60%財務データの項目抽出を自動化


業種
Financial Services所在地
東京都千代田区「データ商社」の役割を担う企業が目指すAI活用の取り組みとは
ナウキャストは小売店のPOSデータ、クレジットカード会社の利用データ、求人データ、人流データ、TV広告データなどを統合し、官公庁やシンクタンク、投資家、不動産業界などのエンドユーザーが求めるデータを提供する、いわば「データ商社」としての役割を担う企業である。また、データ基盤構築を通じて様々な企業のデータ活用を支援しており、2025年には「Industry Solution Partner of the Year」を受賞した。そんな同社では、PDF に記載された表などのデータを AI で自動的に抽出し、人間によりそれを検証する新たなパイプラインを Snowflake 上で構築している。半構造化・非構造化データ読み込みの省力化は、同社のデータ利活用の新たな可能性の開拓に大きな役割を果たすことが期待されている。
このストーリーのハイライト
- AI_EXTRACTで非構造化データ抽出を60%自動化
- Streamlit活用でHuman in the Loopを実現
- Cortex Analystにより自然言語でのデータ分析を迅速化
半構造化・非構造化データの迅速な利用が大きな課題に
投資意思決定や景気観測の領域では近年、経済統計や企業の財務諸表といったトラディショナルデータだけでなく、POSデータやクレジットカード利用明細、位置情報、衛星画像など、これまで利用されることのなかったオルタナティブデータの活用に注目が集まっている。こうした中、2015年の創業以来、POSデータをはじめとするオルタナティブデータの積極的な活用に取り組んできたのがナウキャストである。
同社のビジネスモデルの特色としてまず挙げられるのは、POSデータやクレジット利用情報、人流データなどのデータホルダーから受け取った情報を解析し、官公庁・シンクタンク、投資家、不動産業界などに提供する点にある。こうした同社サービスの解析基盤として活用されているのがSnowflakeのデータ基盤である。同社の親会社であるFinatextホールディングス VP of Data & AIの大野 巧作氏は、導入の経緯をこう説明する。
「Snowflake導入以前のナウキャストはデータ基盤がなく、プロダクトごとの各チームが似たようなインフラやパイプラインをそれぞれ構築しており、まさにデータがサイロ化した状態でした。例えば、複数のクレジットカードデータを組み合わせた高度な分析をしようとした際の大きな障壁になっていました。オルタナティブデータの活用を進める上ではモダンな環境への移行が不可欠と判断し、2022年夏から秋にかけて新たな基盤構築に向け検討を開始しました。既存のクラウド環境との親和性やデータ共有の容易さなど、さまざまな観点から検討を重ねた上、最終的に当社が選んだのがSnowflakeでした」
分析対象のオルタナティブデータには、当然、半構造化データや非構造化データも含まれる。投資意思決定に大きな役割を果たす、有価証券報告書や決算短信、決算説明資料などに記載される財務データは分かりやすい例である。
これまで同社はこれらのデータ抽出を外注先の手作業に頼る形で行ってきた。だがこの方法は、コスト面の課題とともにタイムリーなデータ利活用の大きな障害にもなっていた。特に大きな問題になったのは、新たな半構造化・非構造化データ抽出の際に必要となる工数の多さだった。
「例えば、有価証券報告書から抽出する財務情報を追加しようとする場合、外注先に渡す入力フォーマットを整備し、作業量を明確化した上で統括する会社に見積りを依頼するという手順を踏むことが一般的です。見積りのやり取りだけでも一定時間が必要になるため、これまでとは違う観点から分析を行いたいといった場合、即座に実行することが困難な状態になっていました」(大野氏)
有価証券報告書、決算短信などPDFで提供されるドキュメントからのデータ抽出の迅速化は、同社がオルタナティブデータ活用を推進する上で避けて通ることができない課題になっていた。
「今回構築した仕組みにより、データがSnowflakeに蓄積され、誰でも利用できる資産となったことも成果の一つであると考えています。AI_EXTRACTを中軸にした半構造化・非構造化データ読み取りは現在、60%の自動化が実現でき、残る40%は人間による修正が必要という段階ですが、今後この精度をさらに高めていきたいと考えています。」
大野 巧作 氏
AIと人間による判断の組み合わせで抽出を迅速化
また、タイムリーなデータ利活用という観点では、クエリ発行を前提にしたデータ分析基盤自体も課題の一つだった。それによりビジネスユーザーの利活用にワンクッション置かざるを得ないのがその理由である。
この半構造化・非構造化データの抽出・構造化と、自然言語による構造化データの迅速な利活用という二つの課題の解決に向け、同社が取り組んだのが、AIのアウトプットを人間がチェックするHuman in the Loopの考え方を取り入れた一気通貫パイプラインの構築と、Snowflakeが実装するAI機能群の活用である。
まず構築されたのは、AI_EXTRACT(Document AI)とStreamlit in Snowflakeを中核とする、PDFなどからの情報抽出と、人間による確認・補正(Human in the Loop)を組み合わせたデータ抽出パイプラインである。その開発を担当したData Engineer / LLM Engineerの向山 拓実氏はこう説明する。
「パイプラインの構成は、大きく二つの段階に分けられます。まずは 半構造化・非構造化データを構造化データとして取り込むためのプロセスです。このプロセスの構築において大きな役割を果たしたのは、2025年8月に日本語対応版がリリースされたAI_EXTRACTです。ただし、それによって100%の精度が確保できるわけではありません。必要なデータが有価証券報告書や決算短信、決算説明資料のどの領域にあるかなど、範囲を絞り込むことで精度はかなり向上しますが、例えば指示が抽象的にならざるを得ず、解釈が必要になるような場合、その精度は大幅に低下します。そこで、今回開発したパイプラインではHuman in the Loopという考え方に基づき、人間によるデータ確認プロセスを次の段階としてはさむことで精度の向上を図っています」(向山氏)
クリーンで信頼性の高い構造化データが整備された後、そのデータを迅速に活用するために、Cortex AnalystなどSnowflakeのAI機能群が導入された。これにより、専門的なSQL知識を持たないビジネスユーザーでも、自然言語での質問を通じてデータ分析を進められる仕組みが実現している。このデータ活用を支えるAI機能群には、構造化・非構造化データの双方に問い合わせができるSnowflake Intelligenceや、非構造情報のベクトル検索を可能にするCortex Searchも含まれる。Cortex Analystを利用した自然言語によるデータ分析の仕組みについて、向山氏は次のように語る。
「ビジネスユーザーによるデータ利活用では、専門的なSQL知識を持たないユーザーでもデータの探索と分析ができるように、セマンティックビューを整備しました。そして、『Q&A作成』『検証』『誤り分析と更新』のサイクルを通して、その精度を向上していく仕組みを構築しています。Q&A作成において自然言語による質問を行い、その結果を検証し、セマンティックビューの定義更新を行うというのが基本的な考え方になります。本来、必要ないはずのクエリが生成される場合、その原因の多くがセマンティックビュー側にあることがその理由です」(向山氏)
新パイプラインはデータの資産化にも貢献
新パイプライン開発の効果としてまず挙げられるのが半構造化・非構造化データの抽出工数の削減であることは間違いないが、効果はそれだけでない。
「まだ開発中であり、正確な数字を出すことはできませんが、データ抽出のための外注費用やそれに関連する運用工数は確実に削減できると考えています。また、これまで財務データの構造化は、アナリストが各自のExcelに入力して対応することも多く、結果としてデータが資産として共有できないことにつながっていました。今回構築した仕組みにより、データがSnowflakeに蓄積され、誰でも利用できる資産となったことも成果の一つであると考えています。AI_EXTRACTを中軸にした半構造化・非構造化データ読み取りは現在、60%の自動化が実現でき、残る40%は人間による修正が必要という段階ですが、今後この精度をさらに高めていきたいと考えています」(大野氏)
さらに、自然言語による分析精度向上は、今後ビジネスユーザーによる分析の迅速化に大きな役割を果たすことが期待される。
AIの限界と特性を理解しフローに組み込んでいきたい
AI活用は課題も少なくない。Cortex Analystを始めとするAI活用を通して同社は、いくつかの原則を整備している。
「一つはAIに最終判断はさせないことです。人とAIが協調して働く上では、判断は常に人間が行うことが大前提です。またAIが得意な領域を切り出し、業務フローに組み込むことも重要なポイントです。その上でHuman in the Loopの考え方に基づくチェックを行い、継続的な改善プロセスを回していくことが重要になると考えています」(向山氏)
また半構造化・非構造化データがいち早く利用できる環境の実現は、データ分析の新たな可能性にもつながる。
「これまで半構造化・非構造化データについては、こうしたデータを分析に活用できれば面白いのではないかと感じても、そのハードルの高さに断念していたケースも多いと考えられます。そのハードルが低くなることで、これまでにない視点によるデータ分析のチャレンジにつながることを期待しています」(大野氏)


