初心者から専門家まで AI創薬入門シリーズ|保存版:創薬からマーケットまでAI活用方法を総まとめ – 第2回「AI創薬を支えるデータとアルゴリズム」創薬で扱うデータの種類と、AIが利用する情報源・代表的なモデルの特徴を整理します。

目次

1. AI創薬を支える「データ」と「モデル」の全体像

第1回では、創薬バリューチェーン全体の中でAIがどこに入るのか、そして「AIにできること」と「まだできないこと」を大づかみに整理しました。第2回では、その土台となる「データ」と「モデル」に焦点を当てます。

AI創薬の実態は、突き詰めると次の2つに帰着します。

  • どのようなデータから、どのようなラベル・目的変数を学習させるか
  • そのデータ構造に適したモデル(アルゴリズム)をどう選び・設計するか

ここを押さえておくと、「このプロジェクトのAI戦略は筋が良いのか?」「そのモデルは、このデータで本当に意味があるのか?」といった問いを、研究者も非技術者も共通言語で議論できるようになります。

2. 創薬で使われる主なデータタイプ

まず、AI創薬が依拠している代表的なデータタイプを整理します。どのタイプのデータがどのフェーズ・モダリティで重要になるかを意識して読むと、後の回での理解がスムーズになります。

2-1. 構造・化学構造データ(Small Molecule / Fragment)

低分子創薬の基盤となるのが、化学構造と活性値のデータです。

  • SMILES、InChI、グラフ表現(原子と結合のネットワーク)
  • 物理化学パラメータ(logP、pKa、分子量、極性表面積など)
  • 標的に対する活性値(IC50、Kd、Emaxなど)

AIは、これらの構造情報から活性・選択性・ADMET特性を予測したり、構造を直接生成(デ・ノボ分子設計)したりします。近年は、分子をグラフとして扱うグラフニューラルネットワーク(GNN)が多用されています。

2-2. バイオアッセイ・スクリーニングデータ

HTS(High Throughput Screening)や表現型スクリーニングなどの結果も重要なデータ源です。

  • 活性/不活性の2値ラベル
  • 濃度依存データからフィットされたパラメータ
  • 複数のアッセイを組み合わせた「プロファイル」情報

AIは、アッセイ結果を入力に、ヒットの再スコアリング類似アッセイへの活性推定を行います。同じ化合物でもアッセイ条件で結果が大きく変わるため、データクリーニングやバッチ効果補正が重要な前処理となります。

2-3. オミクスデータ(ゲノム・トランスクリプトーム・プロテオームなど)

標的探索・患者層別化の中核となるのがオミクスデータです。

  • ゲノム変異(SNV、CNV、構造異常など)
  • 遺伝子発現プロファイル(RNA-seq、マイクロアレイ)
  • タンパク質発現・修飾情報(プロテオーム、ホスフォプロテオーム)

AIは、これらの高次元データから、

  • 疾患サブタイプのクラスタリング
  • 予後・治療応答予測モデル
  • 新規標的候補・バイオマーカー候補の抽出

といったタスクを担います。単一オミクスだけでなく、マルチオミクス統合が今後ますます重要になります。

2-4. 構造生物学・3D構造データ(タンパク質・複合体)

X線結晶構造解析、NMR、クライオ電顕、そして構造予測(例:AlphaFoldのような手法)により得られた3D構造データは、

  • 結合ポケットの形状と物性
  • リガンドとの相互作用パターン
  • アロステリックサイトや構造ダイナミクスの示唆

といった情報を含みます。AIは、3D構造から結合親和性を推定するモデルや、アミノ酸配列から構造・機能を予測するモデルに活用されます。抗体やペプチド、分子グルー、PROTACなどのモダリティでも、構造情報が鍵となります。

2-5. 画像データ(細胞・組織・病理・in vivo 画像)

画像データもAIが得意とする領域です。

  • 細胞イメージング(ハイコンテンツスクリーニング)
  • 組織切片・病理画像
  • in vivo 画像(MRI、PET、CT、蛍光イメージングなど)

これらから、形態学的変化やサブセルラー局在、腫瘍微小環境の状態などを抽出し、表現型スクリーニングバイオマーカー探索に活用します。コンピュータビジョンの技術(CNN、Vision Transformerなど)が用いられます。

2-6. 臨床・Real Worldデータ(EHR・レジストリ・請求データなど)

臨床試験データや市販後データは、開発戦略とライフサイクルマネジメントの要となります。

  • 電子カルテ(診断、処方、検査値、バイタル、自由記述)
  • レジストリ・コホートデータ
  • 保険請求データ・薬剤使用履歴

AIは、これらを用いて、

  • 患者リクルートの効率化(適格基準を満たす患者の抽出)
  • 実臨床下での有効性・安全性の解析
  • 適正使用・オフラベル使用パターンの可視化

などを行います。ここでは、プライバシー保護・バイアス・欠測データへの配慮が不可欠です。

2-7. テキスト・文献・特許・社内報告書

近年の大規模言語モデル(LLM)の進展により、テキストデータの活用余地が急速に広がっています。

  • 学術論文・レビュー・学会抄録
  • 特許文献
  • 社内レポート・試験報告書・議事録

AIは、これらから、

  • 競合・技術動向の把握
  • 副作用・シグナルの早期検出
  • 仮説生成(標的候補・併用療法・バイオマーカー候補)

を支援します。ただし、「生成されたテキスト」がそのまま科学的真実とは限らないため、ファクトチェックと出典管理が重要です。

3. AIモデルの主なカテゴリと創薬での位置づけ

次に、創薬でよく使われるAIモデルを、大きく4つのカテゴリに分けて整理します。

3-1. 古典的機械学習(Random Forest, SVM, k-NN など)

伝統的なQSARやADMET予測では、依然として古典的機械学習が広く使われています。

  • 説明変数:分子記述子、物性値、単純な特徴量
  • モデル:ランダムフォレスト、勾配ブースティング、サポートベクターマシンなど
  • 利点:少ないデータでも動く、解釈性が比較的高い、実装が簡単
  • 弱点:高次元・マルチモーダルデータの表現は苦手

データ量が限定的な社内アッセイやニッチな毒性予測では、依然として「最適解」のことも多く、ディープラーニング一択というわけではありません。

3-2. ディープラーニング(CNN / RNN / Transformer / GNN)

ディープラーニングは、構造・画像・配列・テキストなど、さまざまなデータに適用されています。

  • CNN(畳み込みニューラルネットワーク):画像・グリッド状データに強い
  • RNN / LSTM / Transformer:配列・時系列・テキストに強い
  • GNN(グラフニューラルネットワーク):分子構造・相互作用ネットワークに強い

特に、GNNは分子グラフを直接扱えるため、SMILESなどに変換することなく「構造そのもの」から学習できる点が大きな利点です。一方で、データ量・計算資源・アーキテクチャ設計に一定のコストがかかります。

3-3. 生成モデル(VAE・GAN・拡散モデルなど)

AI創薬の象徴的なイメージである「AIが分子を作る」部分を担うのが生成モデルです。

  • VAE(変分オートエンコーダ):連続的な潜在空間を持ち、分子の「潜在表現」から新しい構造をサンプリング
  • GAN:生成・識別の2つのネットワークを競わせて高品質なサンプルを生成
  • 拡散モデル:ノイズから徐々に構造を生成する最新のアプローチ

これらは、単に「新しい分子を大量に作る」だけでなく、条件付き生成(特定ターゲット・物性制約付き)と組み合わせることで、より実務的な分子設計に応用されています。

3-4. マルチモーダル・ファンデーションモデル

最近のトレンドとして、異なるデータタイプを統合するマルチモーダルモデルや、大量の公開データで事前学習されたファンデーションモデルが登場しています。

  • 分子+タンパク質配列+構造+アッセイ結果を一体として扱うモデル
  • オミクス+臨床データを結びつけるサロゲートモデル
  • テキスト(論文・特許)と構造データを行き来できるモデル

これらは「汎用的に使える表現(エンベディング)」を学習し、個別プロジェクトでは微調整(ファインチューニング)のみで使えることが期待されています。一方で、事前学習データの質とバイアスがそのまま性能・リスクに跳ね返る点には注意が必要です。

4. AI創薬が利用する主なデータソース

「AIはどのようなソースを使っているのか?」という疑問に対して、現実的な内訳を整理します。

  • 公開データベース
    化合物・活性データベース、タンパク質構造DB、オミクスDB、公開コホートなど。
    利点:誰でも利用できる/再現性が高い。
    課題:ノイズ、アッセイ条件の不一致、ラベルのばらつき。
  • 社内実験データ
    自社のスクリーニングデータ、毒性試験、前臨床試験、臨床試験、製造・品質データなど。
    利点:ターゲット領域に特化した高価値データ。
    課題:フォーマット・データベースの分断、メタデータの欠落、組織サイロ。
  • 共同研究・コンソーシアムデータ
    アカデミア・他社・公的機関との共同研究やデータシェアリング。
    利点:単独では集められない規模・多様性。
    課題:契約・IP・プライバシー・データ標準の調整。
  • 商用データセット
    リアルワールドデータ、特許解析データ、キュレーション済みの文献情報など。
    利点:クリーニング・アノテーション済みで、そのまま解析に使いやすい。
    課題:コストとライセンス条件、社内への展開範囲。

実務的には、「公開データで事前学習し、社内データで微調整」という構造が増えています。ただし、公開データと社内データの分布が大きく異なる場合、ファインチューニングの設計を誤ると逆効果になることもあり得ます。

5. データ品質・バイアス・ラベル設計の落とし穴

モデルの種類以上に重要なのが、データ品質・バイアス・ラベル設計です。ここを誤ると、どれだけ高性能なモデルでも現場では役に立ちません。

5-1. ラベル設計:何を「正解」とみなすのか

典型的な落とし穴は、「ラベル(目的変数)が現実を十分に反映していない」ことです。

  • 単一アッセイのIC50だけをラベルにしてしまい、細胞種や条件差を無視する
  • 臨床データで、追跡期間や併用薬を考慮せず、生存の有無だけをラベルにする
  • 「毒性あり/なし」の2値ラベルの裏側に、評価者の主観や報告バイアスが隠れている

AIモデルを企画する段階で、「このラベルはどこまで現実を表現しているのか?」「どの要因をあえて捨てているのか?」をチームで確認しておくことが重要です。

5-2. データ漏洩・リーク(Data Leakage)

モデルの評価でよくある問題が、データリークです。

  • 同一化合物・同一患者が、学習と検証データにまたがって入っている
  • 将来情報(例:投与後のデータ)を誤って入力に含めてしまう
  • バッチIDなど、実務上は利用できない情報が特徴量に紛れ込む

これにより、「社内テストではAUC 0.9だが、実運用では全く当たらない」という事態が生じます。AIプロジェクトの初期段階で、統計・MLの専門家とともに評価設計を固めておくことが重要です。

5-3. バイアス・外挿のリスク

臨床やReal Worldデータでは、患者集団の偏りや医療アクセスの違いなど、さまざまなバイアスが存在します。AIモデルがそれを「学習」してしまい、

  • 特定人種・地域で性能が著しく低下する
  • 特定の施設の診療スタイルに過度に依存する

といった問題が起こり得ます。モデルの外挿性(generalizability)を担保するには、データ収集段階からバイアスを意識した設計が必要です。

6. 実務フロー:AIモデルができるまで

最後に、実際のAI創薬プロジェクトで典型的なフローを簡単にまとめます。

  • ① 問いの定義:何を予測・生成したいのか(例:特定標的の活性、毒性、バイオマーカー、反応性など)
  • ② データインベントリ:利用可能なデータソースを洗い出し、ギャップを把握
  • ③ データクリーニングと特徴量設計:欠損処理、正規化、バッチ補正、特徴量抽出
  • ④ モデル選択・学習:古典的ML/ディープラーニング/生成モデルなどから選択・組み合わせ
  • ⑤ 評価設計とバリデーション:適切な分割方法と指標を用いた検証
  • ⑥ 実験・臨床とのフィードバックループ:モデル提案に基づく実験結果を再学習に活用

第3回以降では、このフローをモダリティ別(低分子・抗体・細胞・核酸など)に具体化し、「どこからAIを入れると現実的なインパクトが出やすいか」を掘り下げていきます。

私の考察と今後の展望

AI創薬を本気で運用しようとすると、「どのアルゴリズムが良いか」という議論以上に、「どのデータをどのように定義し、ラベルをどう設計するか」という問題に突き当たります。言い換えると、AI創薬はアルゴリズム競争というより、データ設計と問いの設計の競争に近づきつつあるように感じます。同じ公開データを使っても、ラベル設計と評価設計を変えるだけで、得られる洞察とビジネス価値は大きく変わります。

一方で、現場での感覚としては「データは大量にあるように見えるのに、いざモデルに使える形にすると途端に“使えるデータ”が減る」というギャップもあります。このギャップを埋めるには、データサイエンティストだけでなく、実験系・臨床・安全性・製造など、それぞれの現場の専門家が早い段階からテーブルにつき、「この信号はノイズか、意味のある生物学か」を議論しながらデータパイプラインを作り込む必要があります。第3回以降では、モダリティ別・フェーズ別にもう一段階踏み込んだ具体例を見ていきながら、「データとモデルの設計図」を一緒に描いていきたいと思います。

本記事は、Morningglorysciencesチームによって編集されています。

関連記事

コメントポリシー

💬 コメントされる方は事前に [コメントに関するお願い]をご確認ください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

大学院修了後、米国トップ研究病院に留学し本格的に治療法・治療薬創出に取り組み、成功体験を得る。その後複数のグローバル製薬会社に在籍し、研究・ビジネス、そしてベンチャー創出投資家を米国ボストン、シリコンバレーを中心にグローバルで活動。アカデミアにて大学院教員の役割も果たす。

コメント

コメントする

CAPTCHA


目次