初心者から専門家まで AI創薬入門シリーズ｜保存版：創薬からマーケットまでAI活用方法を総まとめ – 第2回「AI創薬を支えるデータとアルゴリズム」創薬で扱うデータの種類と、AIが利用する情報源・代表的なモデルの特徴を整理します。

2026-01-25

1. AI創薬を支える「データ」と「モデル」の全体像

第1回では、創薬バリューチェーン全体の中でAIがどこに入るのか、そして「AIにできること」と「まだできないこと」を大づかみに整理しました。第2回では、その土台となる「データ」と「モデル」に焦点を当てます。

AI創薬の実態は、突き詰めると次の2つに帰着します。

どのようなデータから、どのようなラベル・目的変数を学習させるか
そのデータ構造に適したモデル（アルゴリズム）をどう選び・設計するか

ここを押さえておくと、「このプロジェクトのAI戦略は筋が良いのか？」「そのモデルは、このデータで本当に意味があるのか？」といった問いを、研究者も非技術者も共通言語で議論できるようになります。

2. 創薬で使われる主なデータタイプ

まず、AI創薬が依拠している代表的なデータタイプを整理します。どのタイプのデータがどのフェーズ・モダリティで重要になるかを意識して読むと、後の回での理解がスムーズになります。

2-1. 構造・化学構造データ（Small Molecule / Fragment）

低分子創薬の基盤となるのが、化学構造と活性値のデータです。

SMILES、InChI、グラフ表現（原子と結合のネットワーク）
物理化学パラメータ（logP、pKa、分子量、極性表面積など）
標的に対する活性値（IC₅₀、K_d、Emaxなど）

AIは、これらの構造情報から活性・選択性・ADMET特性を予測したり、構造を直接生成（デ・ノボ分子設計）したりします。近年は、分子をグラフとして扱うグラフニューラルネットワーク（GNN）が多用されています。

2-2. バイオアッセイ・スクリーニングデータ

HTS（High Throughput Screening）や表現型スクリーニングなどの結果も重要なデータ源です。

活性／不活性の2値ラベル
濃度依存データからフィットされたパラメータ
複数のアッセイを組み合わせた「プロファイル」情報

AIは、アッセイ結果を入力に、ヒットの再スコアリングや類似アッセイへの活性推定を行います。同じ化合物でもアッセイ条件で結果が大きく変わるため、データクリーニングやバッチ効果補正が重要な前処理となります。

2-3. オミクスデータ（ゲノム・トランスクリプトーム・プロテオームなど）

標的探索・患者層別化の中核となるのがオミクスデータです。

ゲノム変異（SNV、CNV、構造異常など）
遺伝子発現プロファイル（RNA-seq、マイクロアレイ）
タンパク質発現・修飾情報（プロテオーム、ホスフォプロテオーム）

AIは、これらの高次元データから、

疾患サブタイプのクラスタリング
予後・治療応答予測モデル
新規標的候補・バイオマーカー候補の抽出

といったタスクを担います。単一オミクスだけでなく、マルチオミクス統合が今後ますます重要になります。

2-4. 構造生物学・3D構造データ（タンパク質・複合体）

X線結晶構造解析、NMR、クライオ電顕、そして構造予測（例：AlphaFoldのような手法）により得られた3D構造データは、

結合ポケットの形状と物性
リガンドとの相互作用パターン
アロステリックサイトや構造ダイナミクスの示唆

といった情報を含みます。AIは、3D構造から結合親和性を推定するモデルや、アミノ酸配列から構造・機能を予測するモデルに活用されます。抗体やペプチド、分子グルー、PROTACなどのモダリティでも、構造情報が鍵となります。

2-5. 画像データ（細胞・組織・病理・in vivo 画像）

画像データもAIが得意とする領域です。

細胞イメージング（ハイコンテンツスクリーニング）
組織切片・病理画像
in vivo 画像（MRI、PET、CT、蛍光イメージングなど）

これらから、形態学的変化やサブセルラー局在、腫瘍微小環境の状態などを抽出し、表現型スクリーニングやバイオマーカー探索に活用します。コンピュータビジョンの技術（CNN、Vision Transformerなど）が用いられます。

2-6. 臨床・Real Worldデータ（EHR・レジストリ・請求データなど）

臨床試験データや市販後データは、開発戦略とライフサイクルマネジメントの要となります。

電子カルテ（診断、処方、検査値、バイタル、自由記述）
レジストリ・コホートデータ
保険請求データ・薬剤使用履歴

AIは、これらを用いて、

患者リクルートの効率化（適格基準を満たす患者の抽出）
実臨床下での有効性・安全性の解析
適正使用・オフラベル使用パターンの可視化

などを行います。ここでは、プライバシー保護・バイアス・欠測データへの配慮が不可欠です。

2-7. テキスト・文献・特許・社内報告書

近年の大規模言語モデル（LLM）の進展により、テキストデータの活用余地が急速に広がっています。

学術論文・レビュー・学会抄録
特許文献
社内レポート・試験報告書・議事録

AIは、これらから、

競合・技術動向の把握
副作用・シグナルの早期検出
仮説生成（標的候補・併用療法・バイオマーカー候補）

を支援します。ただし、「生成されたテキスト」がそのまま科学的真実とは限らないため、ファクトチェックと出典管理が重要です。

3. AIモデルの主なカテゴリと創薬での位置づけ

次に、創薬でよく使われるAIモデルを、大きく4つのカテゴリに分けて整理します。

3-1. 古典的機械学習（Random Forest, SVM, k-NN など）

伝統的なQSARやADMET予測では、依然として古典的機械学習が広く使われています。

説明変数：分子記述子、物性値、単純な特徴量
モデル：ランダムフォレスト、勾配ブースティング、サポートベクターマシンなど
利点：少ないデータでも動く、解釈性が比較的高い、実装が簡単
弱点：高次元・マルチモーダルデータの表現は苦手

データ量が限定的な社内アッセイやニッチな毒性予測では、依然として「最適解」のことも多く、ディープラーニング一択というわけではありません。

3-2. ディープラーニング（CNN / RNN / Transformer / GNN）

ディープラーニングは、構造・画像・配列・テキストなど、さまざまなデータに適用されています。

CNN（畳み込みニューラルネットワーク）：画像・グリッド状データに強い
RNN / LSTM / Transformer：配列・時系列・テキストに強い
GNN（グラフニューラルネットワーク）：分子構造・相互作用ネットワークに強い

特に、GNNは分子グラフを直接扱えるため、SMILESなどに変換することなく「構造そのもの」から学習できる点が大きな利点です。一方で、データ量・計算資源・アーキテクチャ設計に一定のコストがかかります。

3-3. 生成モデル（VAE・GAN・拡散モデルなど）

AI創薬の象徴的なイメージである「AIが分子を作る」部分を担うのが生成モデルです。

VAE（変分オートエンコーダ）：連続的な潜在空間を持ち、分子の「潜在表現」から新しい構造をサンプリング
GAN：生成・識別の2つのネットワークを競わせて高品質なサンプルを生成
拡散モデル：ノイズから徐々に構造を生成する最新のアプローチ

これらは、単に「新しい分子を大量に作る」だけでなく、条件付き生成（特定ターゲット・物性制約付き）と組み合わせることで、より実務的な分子設計に応用されています。

3-4. マルチモーダル・ファンデーションモデル

最近のトレンドとして、異なるデータタイプを統合するマルチモーダルモデルや、大量の公開データで事前学習されたファンデーションモデルが登場しています。

分子＋タンパク質配列＋構造＋アッセイ結果を一体として扱うモデル
オミクス＋臨床データを結びつけるサロゲートモデル
テキスト（論文・特許）と構造データを行き来できるモデル

これらは「汎用的に使える表現（エンベディング）」を学習し、個別プロジェクトでは微調整（ファインチューニング）のみで使えることが期待されています。一方で、事前学習データの質とバイアスがそのまま性能・リスクに跳ね返る点には注意が必要です。

4. AI創薬が利用する主なデータソース

「AIはどのようなソースを使っているのか？」という疑問に対して、現実的な内訳を整理します。

公開データベース
化合物・活性データベース、タンパク質構造DB、オミクスDB、公開コホートなど。
利点：誰でも利用できる／再現性が高い。
課題：ノイズ、アッセイ条件の不一致、ラベルのばらつき。
社内実験データ
自社のスクリーニングデータ、毒性試験、前臨床試験、臨床試験、製造・品質データなど。
利点：ターゲット領域に特化した高価値データ。
課題：フォーマット・データベースの分断、メタデータの欠落、組織サイロ。
共同研究・コンソーシアムデータ
アカデミア・他社・公的機関との共同研究やデータシェアリング。
利点：単独では集められない規模・多様性。
課題：契約・IP・プライバシー・データ標準の調整。
商用データセット
リアルワールドデータ、特許解析データ、キュレーション済みの文献情報など。
利点：クリーニング・アノテーション済みで、そのまま解析に使いやすい。
課題：コストとライセンス条件、社内への展開範囲。

実務的には、「公開データで事前学習し、社内データで微調整」という構造が増えています。ただし、公開データと社内データの分布が大きく異なる場合、ファインチューニングの設計を誤ると逆効果になることもあり得ます。

5. データ品質・バイアス・ラベル設計の落とし穴

モデルの種類以上に重要なのが、データ品質・バイアス・ラベル設計です。ここを誤ると、どれだけ高性能なモデルでも現場では役に立ちません。

5-1. ラベル設計：何を「正解」とみなすのか

典型的な落とし穴は、「ラベル（目的変数）が現実を十分に反映していない」ことです。

単一アッセイのIC₅₀だけをラベルにしてしまい、細胞種や条件差を無視する
臨床データで、追跡期間や併用薬を考慮せず、生存の有無だけをラベルにする
「毒性あり／なし」の2値ラベルの裏側に、評価者の主観や報告バイアスが隠れている

AIモデルを企画する段階で、「このラベルはどこまで現実を表現しているのか？」「どの要因をあえて捨てているのか？」をチームで確認しておくことが重要です。

5-2. データ漏洩・リーク（Data Leakage）

モデルの評価でよくある問題が、データリークです。

同一化合物・同一患者が、学習と検証データにまたがって入っている
将来情報（例：投与後のデータ）を誤って入力に含めてしまう
バッチIDなど、実務上は利用できない情報が特徴量に紛れ込む

これにより、「社内テストではAUC 0.9だが、実運用では全く当たらない」という事態が生じます。AIプロジェクトの初期段階で、統計・MLの専門家とともに評価設計を固めておくことが重要です。

5-3. バイアス・外挿のリスク

臨床やReal Worldデータでは、患者集団の偏りや医療アクセスの違いなど、さまざまなバイアスが存在します。AIモデルがそれを「学習」してしまい、

特定人種・地域で性能が著しく低下する
特定の施設の診療スタイルに過度に依存する

といった問題が起こり得ます。モデルの外挿性（generalizability）を担保するには、データ収集段階からバイアスを意識した設計が必要です。

6. 実務フロー：AIモデルができるまで

最後に、実際のAI創薬プロジェクトで典型的なフローを簡単にまとめます。

① 問いの定義：何を予測・生成したいのか（例：特定標的の活性、毒性、バイオマーカー、反応性など）
② データインベントリ：利用可能なデータソースを洗い出し、ギャップを把握
③ データクリーニングと特徴量設計：欠損処理、正規化、バッチ補正、特徴量抽出
④ モデル選択・学習：古典的ML／ディープラーニング／生成モデルなどから選択・組み合わせ
⑤ 評価設計とバリデーション：適切な分割方法と指標を用いた検証
⑥ 実験・臨床とのフィードバックループ：モデル提案に基づく実験結果を再学習に活用

第3回以降では、このフローをモダリティ別（低分子・抗体・細胞・核酸など）に具体化し、「どこからAIを入れると現実的なインパクトが出やすいか」を掘り下げていきます。

私の考察と今後の展望

AI創薬を本気で運用しようとすると、「どのアルゴリズムが良いか」という議論以上に、「どのデータをどのように定義し、ラベルをどう設計するか」という問題に突き当たります。言い換えると、AI創薬はアルゴリズム競争というより、データ設計と問いの設計の競争に近づきつつあるように感じます。同じ公開データを使っても、ラベル設計と評価設計を変えるだけで、得られる洞察とビジネス価値は大きく変わります。

一方で、現場での感覚としては「データは大量にあるように見えるのに、いざモデルに使える形にすると途端に“使えるデータ”が減る」というギャップもあります。このギャップを埋めるには、データサイエンティストだけでなく、実験系・臨床・安全性・製造など、それぞれの現場の専門家が早い段階からテーブルにつき、「この信号はノイズか、意味のある生物学か」を議論しながらデータパイプラインを作り込む必要があります。第3回以降では、モダリティ別・フェーズ別にもう一段階踏み込んだ具体例を見ていきながら、「データとモデルの設計図」を一緒に描いていきたいと思います。

本記事は、Morningglorysciencesチームによって編集されています。

世界最先端の治療薬を創る〜製薬会…

初心者から専門家まで AI創薬入門シリーズ｜保存版：創薬からマーケットまでAI活用方法を総まとめ – 第1回… 「AI創薬」は、ここ数年で一気に脚光を浴びましたが、決して“突然現れた魔法の技術”ではありません。もともとQSARやドッキング、統計モデルなど、コンピュータを使ったin

世界最先端の治療薬を創る〜製薬会…

AI創薬の盲点：過去論文と再現性という“静かな壁” – 世界最先端の治療薬を創る〜製薬会社、バイオベンチャ… AI創薬の時代が本格的に始まって久しくなりました。新たな薬の候補を見つける速度、構造予測の精度、探索領域の拡張性――そのいずれも、かつてないレベルで進化しています。…

世界最先端の治療薬を創る〜製薬会…

【AI創薬の現実①】AI Drug Discoveryはどこまで実用化されているのか？期待と限界を整理する – 世界最先端… 近年、AI（人工知能）技術の進化に伴い、AI創薬（AI Drug Discovery）という言葉が急速に注目を集めています。ニュースや論文でも「AIが新薬を生み出す」「創薬が自動化さ…

世界最先端の治療薬を創る〜製薬会…

KRAS特集第5回：KRAS創薬の新潮流 ― Degrader・RAS(ON)阻害・AI創薬が切り拓く次世代 – 世界最先端の治療… KRASは「Undruggable」の象徴から、いまや創薬テクノロジーの最前線をけん引する標的へと変貌した。G12C選択的阻害薬の成功を出発点に、2020年代半ばからはRAS(ON)阻害、Pa…

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

Morning Glory Sciences

大学院修了後、米国トップ研究病院に留学し本格的に治療法・治療薬創出に取り組み、成功体験を得る。その後複数のグローバル製薬会社に在籍し、研究・ビジネス、そしてベンチャー創出投資家を米国ボストン、シリコンバレーを中心にグローバルで活動。アカデミアにて大学院教員の役割も果たす。

1. AI創薬を支える「データ」と「モデル」の全体像

2. 創薬で使われる主なデータタイプ