
カスタマーストーリー
非データサイエンス研究員によるデータ解析の自走化が、アイデア検証段階における機会損失の回避とデータサイエンス研究員の業務集中に貢献
中外製薬は、Snowflake活用の基盤「dPROACT」とPython教育で非データサイエンス研究員の解析自走化を実現。アイデアの機会損失を回避し、外部データ利活用を促進。専門研究員の業務集中にも貢献する、創薬力強化に向けたデータ活用の全容を解説します。
8割 80点研究領域におけるニーズの8割に80点で応えられる
1/2900名の研究員の約半数が新基盤を利用


業種
Healthcare & Life Sciences所在地
東京都中央区解析の「自走化」がアイデアの機会損失を削減する
医療用医薬品に特化した研究開発型の製薬企業である中外製薬は、創薬力強化のため、全研究員を対象としたデータサイエンス力向上に取り組んでいる。その過程で浮上した課題は、研究テーマ別の縦割り型データ管理による弊害だった。Snowflakeをデータパイプラインに採用した新たなデータ統合解析基盤「dPROACT」と、デジタル人材育成プログラム「PyZAP」は、非データサイエンス研究員によるデータ分析の自走化を促進し、研究員のアイデアが検証されることなく埋もれる機会損失の削減に大きく貢献している。
このストーリーのハイライト
- 新データ基盤によるデータ統合と利活用の促進
- プログラミング未経験の研究員を対象にしたPython教育
- Snowflakeデータパイプラインによる外部データアクセス向上
創薬力の強化に向けデータサイエンス力向上に注力
スイス・ロシュ社との協業のもと、革新的な医薬品・サービスの継続的な提供を図る中外製薬の最大の強みは技術力である。医薬品開発の基盤技術はモダリティと呼ばれ、分子量500未満の低分子創薬や人に備わる抗体の働きを模した抗体創薬などに分けられる。近年は双方の長所を併せ持つ中分子創薬も注目されており、独自の技術力は、多様な疾患領域に独自技術を適用することで革新的な新薬の連続的創出を図る同社の技術ドリブンな創薬力を支えて続けている。
「R&Dアウトプット倍増」「自社グローバル品毎年上市」という野心的な目標を掲げた成長戦略「TOP I 2030」(2021年~2030年)の途上にある同社が現在力を入れているのが、研究部門全体のデータサイエンス力強化である。「生物学」と「情報学」を融合し、生物学的データに基づき創薬を行うバイオインフォマティクス研究員として入社し、2019年以降、同社のデータドリブン創薬を牽引してきた研究本部 モダリティ基盤研究部 データエンジニアリンググループ グループマネジャーの武藤 裕紀氏はその狙いをこう説明する。
「創薬研究に用いられるデータは、それぞれの研究領域に応じて極めて多種多様です。パブリックなデータを含めたデータを機会損失なく活用していく上では、研究員一人ひとりがデータ利活用を自分ごととして捉えることが大きな意味を持ちます。当社の研究員は大きく、実験を主とするウェット系研究員とデータ分析を主とするドライ系研究員に分けられ、これまでウェット系研究員によるデータ解析はドライ系研究員に依頼することが一般的でした。ウェット系研究員自身が解析を行うことは新たなインサイト創出が期待できると共に、ドライ系研究員の本来業務への注力を可能にします。データサイエンス力向上は、創薬力向上において大きな相乗効果を生むことにもつながるのです」
データに近い立場であればあるほど、より的確なインサイトを得ることが可能になる。研究の第一線に立つウェット系研究員自身がデータ分析を行うことは、的確なインサイト取得という観点でも大きな意味を持つと言えるだろう。
「創薬に向けた検証では、生命科学などに関連するパブリックデータの利活用が大きな意味を持ちますが、そのような公開データベースがどのクラウドインフラに構築されるかは我々が与り知ることができない領域です。そういう意味で、各社クラウドインフラから等距離にあるSnowflakeに優位性を感じたことが採用の第一の理由でした」
武藤 裕紀 氏
データ解析基盤の構築と並行して人材育成プログラムを開発
データサイエンス力向上に向けた取り組みは、研究データ利活用促進を目的としたデータ解析基盤dPROACT構築とデジタル人材育成プログラムPyZAPの企画・推進という、大きく二つの観点から進められた。
まずはdPROACTの狙いから見ていく。これまで同社はモダリティと呼ばれる創薬基盤技術やデータの特性に応じてシステムを構築し運用してきたが、それは生データ分散と共に、データベース間連携の困難さや解析環境の多様化に伴う解析ナレッジ共有コスト増大という課題につながっていた。
「以前の環境では、研究員がデータ解析を行う場合、必要なデータがどこにあるか確認することから始める必要がありましたが、それは特にウェット系研究員が独自にデータ解析を行おうとした際、大きな障壁になっていました。その解決には、なによりもまず、分散するデータを統合する新たな基盤が必要でした」
この問題の解決のために新たに構築されたのが、Amazon S3に蓄積したデータをSnowflakeで整形した上でAmazon SageMakerで解析し、TIBCO Spotfireで可視化し、SINEQUA、SciBiteにより自然言語ベースによる検索を行うdPROACTだった。データ解析基盤のデータ整形にSnowflakeのデータパイプラインを採用した狙いを武藤氏はこう説明する。
「創薬に向けた検証では、生命科学などに関連するパブリックデータの利活用が大きな意味を持ちますが、そのような公開データベースがどのクラウドインフラに構築されるかは我々が与り知ることができない領域です。そういう意味で、各社クラウドインフラから等距離にあるSnowflakeに優位性を感じたことが採用の第一の理由でした」
一方、データ解析未経験のウェット系研究者を対象としたデジタル人材育成プログラム「PyZAP」の最大の特徴は、Pythonによるデータ解析に必要な知識習得に絞り込んだカリキュラムを用意した点にある。
「データ解析教育は統計学の基礎知識から始まることが一般的ですが、『PyZAP』は、研究員が自分でデータを収集し、コードを書き、解析を行うために必要な知識の習得に絞り込むことを前提にカリキュラムを組み立てています。さらに、理系人材が慣れ親しんできたはずのドリル形式を取り入れたり、ゼミに相当するコミュニティによる脱落を回避する仕組みを構築するなどの我々なりの工夫も加えています」
ウェット系研究員による検証がアイデアの機会損失回避に貢献
データ解析には、対象となるデータの収集と整形、結合、可視化という一連のプロセスが求められる。以前から一部のウェット系研究員はExcelによる解析を行っていたが、それには一連のプロセスに手作業で対応することが求められていた。各所に分散したデータを統合し、統一された環境で解析や可視化が行えるdPROACT構築の最大の効果は、思いついたら即座に検証が行える環境が提供できている点にあると武藤氏は言う。
「研究員が新しいアイデアを思いついた場合、次に行うのは検証をひたすら繰り返し、仮説の正しさを確かめるというプロセスです。しかし検証にドライ系研究者への依頼が必要であったり、自分で行うにも煩雑な作業が必要になる状況では、アイデアを検証に持ち込むハードルが高くなってしまうのが実情です。せっかくのアイデアが埋もれてしまうことをなんとしても回避したいと考えたことがdPROACT構築の背景にあります。その意義は、グランピングにたとえると理解しやすいと思います。初心者がキャンプをする場合、道具を揃えることから始める必要がありますが、グランピングであれば特別な準備なしにキャンプ体験ができます。dPROACTもそれと同じです。すでにウェット系研究員がデータベースのプロトタイピングを自分で行う事例も現れはじめ、アイデア活用の機会損失回避に大きな役割を果たしつつあります」
リリース2年後の2025年5月時点で「dPROACT」の検索機能は約900名の研究員の約半数、解析基盤は約250名が利用するなど、研究員によるデータ利活用も確実に進んでいる。
また、Snowflakeをデータパイプラインとして採用したことに伴う、外部データの可用性向上も武藤氏が高く評価するポイントの一つである。
「検証は社内データに加え、生命科学関連のパブリックデータを利用して行いますが、外部データ取り込みはウェット系研究員による検証を難しくする要因の一つでした。感覚的には、Snowflakeの導入によって、研究で必要となる主要データベースの約8割をシームレスに取り込めるようになり、80点以上の満足度で活用できるようになってきています。まずは取り込みやすいデータで検証を行い、アイデアの手応えを掴めるようになることも大きな効果だと考えています。」
さらに言えば、ウェット系研究員のデータ利活用の自走化によるドライ系研究員の本来業務への注力の実現も新データ基盤導入効果の一つである。
「ドライ系研究員はこれまで、簡単なプログラムやパッケージで対応できるような業務に追われてきたわけですが、検証の第一歩をウェット系研究員自身が行うことで、より高度な分析に取り組む時間が確保できるようになる意義は大きいと考えています」
研究本部全体でStreamlitによるデータ利活用に取り組む
武藤氏が今後、力を入れたいと考えているのはSnowflakeのNotebook/Streamlit環境の活用である。
「PyZAPカリキュラムにStreamlitを組み込むなど、当社は以前からStreamlitによるアプリ開発に力を入れ、Snowflake Cortex AIによる自然言語のデータ検索アプリなど、すでに成果が現れ始めています。Snowflake上でStreamlitが直接扱えるようになったことを受け、2025年7月にSnowflakeのWebインターフェースであるSnowsightを全研究員に開放し、ハンズオンセミナー開催などを通し、一層の活用を推進したいと考えています。今後、PyZAP卒業生を中心としたウェット系研究員による、研究者の視点に即した多様なアプリが開発されることを期待しています」


