1. AI創薬を支える「データ」と「モデル」の全体像
第1回では、創薬バリューチェーン全体の中でAIがどこに入るのか、そして「AIにできること」と「まだできないこと」を大づかみに整理しました。第2回では、その土台となる「データ」と「モデル」に焦点を当てます。
AI創薬の実態は、突き詰めると次の2つに帰着します。
- どのようなデータから、どのようなラベル・目的変数を学習させるか
- そのデータ構造に適したモデル(アルゴリズム)をどう選び・設計するか
ここを押さえておくと、「このプロジェクトのAI戦略は筋が良いのか?」「そのモデルは、このデータで本当に意味があるのか?」といった問いを、研究者も非技術者も共通言語で議論できるようになります。
2. 創薬で使われる主なデータタイプ
まず、AI創薬が依拠している代表的なデータタイプを整理します。どのタイプのデータがどのフェーズ・モダリティで重要になるかを意識して読むと、後の回での理解がスムーズになります。
2-1. 構造・化学構造データ(Small Molecule / Fragment)
低分子創薬の基盤となるのが、化学構造と活性値のデータです。
- SMILES、InChI、グラフ表現(原子と結合のネットワーク)
- 物理化学パラメータ(logP、pKa、分子量、極性表面積など)
- 標的に対する活性値(IC50、Kd、Emaxなど)
AIは、これらの構造情報から活性・選択性・ADMET特性を予測したり、構造を直接生成(デ・ノボ分子設計)したりします。近年は、分子をグラフとして扱うグラフニューラルネットワーク(GNN)が多用されています。
2-2. バイオアッセイ・スクリーニングデータ
HTS(High Throughput Screening)や表現型スクリーニングなどの結果も重要なデータ源です。
- 活性/不活性の2値ラベル
- 濃度依存データからフィットされたパラメータ
- 複数のアッセイを組み合わせた「プロファイル」情報
AIは、アッセイ結果を入力に、ヒットの再スコアリングや類似アッセイへの活性推定を行います。同じ化合物でもアッセイ条件で結果が大きく変わるため、データクリーニングやバッチ効果補正が重要な前処理となります。
2-3. オミクスデータ(ゲノム・トランスクリプトーム・プロテオームなど)
標的探索・患者層別化の中核となるのがオミクスデータです。
- ゲノム変異(SNV、CNV、構造異常など)
- 遺伝子発現プロファイル(RNA-seq、マイクロアレイ)
- タンパク質発現・修飾情報(プロテオーム、ホスフォプロテオーム)
AIは、これらの高次元データから、
- 疾患サブタイプのクラスタリング
- 予後・治療応答予測モデル
- 新規標的候補・バイオマーカー候補の抽出
といったタスクを担います。単一オミクスだけでなく、マルチオミクス統合が今後ますます重要になります。
2-4. 構造生物学・3D構造データ(タンパク質・複合体)
X線結晶構造解析、NMR、クライオ電顕、そして構造予測(例:AlphaFoldのような手法)により得られた3D構造データは、
- 結合ポケットの形状と物性
- リガンドとの相互作用パターン
- アロステリックサイトや構造ダイナミクスの示唆
といった情報を含みます。AIは、3D構造から結合親和性を推定するモデルや、アミノ酸配列から構造・機能を予測するモデルに活用されます。抗体やペプチド、分子グルー、PROTACなどのモダリティでも、構造情報が鍵となります。
2-5. 画像データ(細胞・組織・病理・in vivo 画像)
画像データもAIが得意とする領域です。
- 細胞イメージング(ハイコンテンツスクリーニング)
- 組織切片・病理画像
- in vivo 画像(MRI、PET、CT、蛍光イメージングなど)
これらから、形態学的変化やサブセルラー局在、腫瘍微小環境の状態などを抽出し、表現型スクリーニングやバイオマーカー探索に活用します。コンピュータビジョンの技術(CNN、Vision Transformerなど)が用いられます。
2-6. 臨床・Real Worldデータ(EHR・レジストリ・請求データなど)
臨床試験データや市販後データは、開発戦略とライフサイクルマネジメントの要となります。
- 電子カルテ(診断、処方、検査値、バイタル、自由記述)
- レジストリ・コホートデータ
- 保険請求データ・薬剤使用履歴
AIは、これらを用いて、
- 患者リクルートの効率化(適格基準を満たす患者の抽出)
- 実臨床下での有効性・安全性の解析
- 適正使用・オフラベル使用パターンの可視化
などを行います。ここでは、プライバシー保護・バイアス・欠測データへの配慮が不可欠です。
2-7. テキスト・文献・特許・社内報告書
近年の大規模言語モデル(LLM)の進展により、テキストデータの活用余地が急速に広がっています。
- 学術論文・レビュー・学会抄録
- 特許文献
- 社内レポート・試験報告書・議事録
AIは、これらから、
- 競合・技術動向の把握
- 副作用・シグナルの早期検出
- 仮説生成(標的候補・併用療法・バイオマーカー候補)
を支援します。ただし、「生成されたテキスト」がそのまま科学的真実とは限らないため、ファクトチェックと出典管理が重要です。
3. AIモデルの主なカテゴリと創薬での位置づけ
次に、創薬でよく使われるAIモデルを、大きく4つのカテゴリに分けて整理します。
3-1. 古典的機械学習(Random Forest, SVM, k-NN など)
伝統的なQSARやADMET予測では、依然として古典的機械学習が広く使われています。
- 説明変数:分子記述子、物性値、単純な特徴量
- モデル:ランダムフォレスト、勾配ブースティング、サポートベクターマシンなど
- 利点:少ないデータでも動く、解釈性が比較的高い、実装が簡単
- 弱点:高次元・マルチモーダルデータの表現は苦手
データ量が限定的な社内アッセイやニッチな毒性予測では、依然として「最適解」のことも多く、ディープラーニング一択というわけではありません。
3-2. ディープラーニング(CNN / RNN / Transformer / GNN)
ディープラーニングは、構造・画像・配列・テキストなど、さまざまなデータに適用されています。
- CNN(畳み込みニューラルネットワーク):画像・グリッド状データに強い
- RNN / LSTM / Transformer:配列・時系列・テキストに強い
- GNN(グラフニューラルネットワーク):分子構造・相互作用ネットワークに強い
特に、GNNは分子グラフを直接扱えるため、SMILESなどに変換することなく「構造そのもの」から学習できる点が大きな利点です。一方で、データ量・計算資源・アーキテクチャ設計に一定のコストがかかります。
3-3. 生成モデル(VAE・GAN・拡散モデルなど)
AI創薬の象徴的なイメージである「AIが分子を作る」部分を担うのが生成モデルです。
- VAE(変分オートエンコーダ):連続的な潜在空間を持ち、分子の「潜在表現」から新しい構造をサンプリング
- GAN:生成・識別の2つのネットワークを競わせて高品質なサンプルを生成
- 拡散モデル:ノイズから徐々に構造を生成する最新のアプローチ
これらは、単に「新しい分子を大量に作る」だけでなく、条件付き生成(特定ターゲット・物性制約付き)と組み合わせることで、より実務的な分子設計に応用されています。
3-4. マルチモーダル・ファンデーションモデル
最近のトレンドとして、異なるデータタイプを統合するマルチモーダルモデルや、大量の公開データで事前学習されたファンデーションモデルが登場しています。
- 分子+タンパク質配列+構造+アッセイ結果を一体として扱うモデル
- オミクス+臨床データを結びつけるサロゲートモデル
- テキスト(論文・特許)と構造データを行き来できるモデル
これらは「汎用的に使える表現(エンベディング)」を学習し、個別プロジェクトでは微調整(ファインチューニング)のみで使えることが期待されています。一方で、事前学習データの質とバイアスがそのまま性能・リスクに跳ね返る点には注意が必要です。
4. AI創薬が利用する主なデータソース
「AIはどのようなソースを使っているのか?」という疑問に対して、現実的な内訳を整理します。
- 公開データベース
化合物・活性データベース、タンパク質構造DB、オミクスDB、公開コホートなど。
利点:誰でも利用できる/再現性が高い。
課題:ノイズ、アッセイ条件の不一致、ラベルのばらつき。 - 社内実験データ
自社のスクリーニングデータ、毒性試験、前臨床試験、臨床試験、製造・品質データなど。
利点:ターゲット領域に特化した高価値データ。
課題:フォーマット・データベースの分断、メタデータの欠落、組織サイロ。 - 共同研究・コンソーシアムデータ
アカデミア・他社・公的機関との共同研究やデータシェアリング。
利点:単独では集められない規模・多様性。
課題:契約・IP・プライバシー・データ標準の調整。 - 商用データセット
リアルワールドデータ、特許解析データ、キュレーション済みの文献情報など。
利点:クリーニング・アノテーション済みで、そのまま解析に使いやすい。
課題:コストとライセンス条件、社内への展開範囲。
実務的には、「公開データで事前学習し、社内データで微調整」という構造が増えています。ただし、公開データと社内データの分布が大きく異なる場合、ファインチューニングの設計を誤ると逆効果になることもあり得ます。
5. データ品質・バイアス・ラベル設計の落とし穴
モデルの種類以上に重要なのが、データ品質・バイアス・ラベル設計です。ここを誤ると、どれだけ高性能なモデルでも現場では役に立ちません。
5-1. ラベル設計:何を「正解」とみなすのか
典型的な落とし穴は、「ラベル(目的変数)が現実を十分に反映していない」ことです。
- 単一アッセイのIC50だけをラベルにしてしまい、細胞種や条件差を無視する
- 臨床データで、追跡期間や併用薬を考慮せず、生存の有無だけをラベルにする
- 「毒性あり/なし」の2値ラベルの裏側に、評価者の主観や報告バイアスが隠れている
AIモデルを企画する段階で、「このラベルはどこまで現実を表現しているのか?」「どの要因をあえて捨てているのか?」をチームで確認しておくことが重要です。
5-2. データ漏洩・リーク(Data Leakage)
モデルの評価でよくある問題が、データリークです。
- 同一化合物・同一患者が、学習と検証データにまたがって入っている
- 将来情報(例:投与後のデータ)を誤って入力に含めてしまう
- バッチIDなど、実務上は利用できない情報が特徴量に紛れ込む
これにより、「社内テストではAUC 0.9だが、実運用では全く当たらない」という事態が生じます。AIプロジェクトの初期段階で、統計・MLの専門家とともに評価設計を固めておくことが重要です。
5-3. バイアス・外挿のリスク
臨床やReal Worldデータでは、患者集団の偏りや医療アクセスの違いなど、さまざまなバイアスが存在します。AIモデルがそれを「学習」してしまい、
- 特定人種・地域で性能が著しく低下する
- 特定の施設の診療スタイルに過度に依存する
といった問題が起こり得ます。モデルの外挿性(generalizability)を担保するには、データ収集段階からバイアスを意識した設計が必要です。
6. 実務フロー:AIモデルができるまで
最後に、実際のAI創薬プロジェクトで典型的なフローを簡単にまとめます。
- ① 問いの定義:何を予測・生成したいのか(例:特定標的の活性、毒性、バイオマーカー、反応性など)
- ② データインベントリ:利用可能なデータソースを洗い出し、ギャップを把握
- ③ データクリーニングと特徴量設計:欠損処理、正規化、バッチ補正、特徴量抽出
- ④ モデル選択・学習:古典的ML/ディープラーニング/生成モデルなどから選択・組み合わせ
- ⑤ 評価設計とバリデーション:適切な分割方法と指標を用いた検証
- ⑥ 実験・臨床とのフィードバックループ:モデル提案に基づく実験結果を再学習に活用
第3回以降では、このフローをモダリティ別(低分子・抗体・細胞・核酸など)に具体化し、「どこからAIを入れると現実的なインパクトが出やすいか」を掘り下げていきます。
私の考察と今後の展望
AI創薬を本気で運用しようとすると、「どのアルゴリズムが良いか」という議論以上に、「どのデータをどのように定義し、ラベルをどう設計するか」という問題に突き当たります。言い換えると、AI創薬はアルゴリズム競争というより、データ設計と問いの設計の競争に近づきつつあるように感じます。同じ公開データを使っても、ラベル設計と評価設計を変えるだけで、得られる洞察とビジネス価値は大きく変わります。
一方で、現場での感覚としては「データは大量にあるように見えるのに、いざモデルに使える形にすると途端に“使えるデータ”が減る」というギャップもあります。このギャップを埋めるには、データサイエンティストだけでなく、実験系・臨床・安全性・製造など、それぞれの現場の専門家が早い段階からテーブルにつき、「この信号はノイズか、意味のある生物学か」を議論しながらデータパイプラインを作り込む必要があります。第3回以降では、モダリティ別・フェーズ別にもう一段階踏み込んだ具体例を見ていきながら、「データとモデルの設計図」を一緒に描いていきたいと思います。
本記事は、Morningglorysciencesチームによって編集されています。
関連記事





コメント