要点まとめ
- 2025年12月、サンアントニオ乳がんシンポジウム(SABCS 2025)で、Mount Sinai医科大学のJoseph Sparano先生らが発表したマルチモーダルAI再発予測モデルが、現行の標準である21遺伝子検査「Oncotype DX」を予測精度で上回ったことが報じられました。AACR Cancer Discovery News(DOI: 10.1158/2159-8290.CD-NW2025-0116)。
- マルチモーダルAIモデル(ICM+:臨床+画像+拡張分子データ統合)は、HR+/HER2-乳がんの15年遠隔再発予測でC-index 0.733を達成。Oncotype DXは0.631。さらに5年以降の晩期再発では 0.705 vs 0.527と大差をつけました。
- 背景には、TAILORx試験(10,273人参加)の前向きデータがあります。Oncotype DXの限界――特に5年以降の晩期再発予測の弱さ――を、画像と分子の組み合わせで補える可能性が示されました。
- 本記事は連載「AIで読む乳がん診断」最終回。検出(第1回)、ワークフロー(第2回)に続き、AIが治療選択の中核――再発リスク評価――に踏み込んだ意味を、TAILORxの臨床的文脈と専門的限界を含めて読み解きます。
序論――「治療を減らす」決断を支えてきた21遺伝子検査
連載第1回・第2回では、AIが乳がんの検出段階でどう貢献するかを見てきました。MASAIはスクリーニングの精度を上げ、AITICは部分自律ワークフローで業務効率を64%変えた。ここまで読んでいただければ、AIが「画像を見る」段階で確実に成熟しつつあることはご理解いただけると思います。
第3回では視点を切り替えます。テーマは「がんが見つかった後、どう治療するか」。乳がん診療において、ここはAIにとって最大の挑戦領域です。なぜなら、治療選択は誤れば取り返しがつかず、患者の人生を直接形づくるからです。
HR+(ホルモン受容体陽性)/HER2-(HER2陰性)という、乳がんの中で最も多いサブタイプの患者は、手術後にホルモン療法(タモキシフェン、アロマターゼ阻害剤)を5年〜10年受けるのが標準です。問題は、その患者群の中に「ホルモン療法のみで十分」な人と「化学療法も追加すべき」な人が混在していることでした。化学療法は副作用が重く、患者の生活の質を大きく損ないます。本当に必要な人にだけ化学療法を、不要な人には外したい――その線引きが、長年の課題でした。
この線引きに最も大きな貢献をしたのが、Oncotype DX 21遺伝子検査(Genomic Health社、現Exact Sciences社)です。腫瘍組織の21遺伝子の発現パターンから「再発リスクスコア」を算出し、化学療法上乗せの益を予測する。この検査の有用性を決定づけたのが、2018年に The New England Journal of Medicine に掲載されたTAILORx試験でした。10,273人を登録した第III相試験で、中間リスクの女性ではホルモン療法単独でも化学療法併用と同等の予後が得られることが示され、世界中で「化学療法を回避できる女性」を判別する基準となりました。
ところが、Oncotype DXには既知の限界がありました。5年を超える長期再発の予測精度が落ちるのです。乳がんは10年、15年経って再発することが珍しくなく、特にHR+型では晩期再発が大きな臨床課題でした。
2025年12月、SABCSでJoseph Sparano先生(TAILORx試験の主任研究者そのもの)らが発表したのは、その限界を超えるためのアプローチでした。臨床データ(C)、画像データ(I)、分子データ(M)を統合したマルチモーダルAIモデル。それが、Oncotype DXを上回る予測精度を見せたのです。
本記事ではこの研究の中身を、Oncotype DXの仕組みからマルチモーダルAIの設計、そして臨床応用へのハードルまで、順を追って解説します。
本論
1. HR+/HER2-乳がんと「再発リスク評価」――なぜ重要なのか
まず、HR+/HER2-乳がんの基礎を押さえます。
乳がんは大きく4つのサブタイプに分かれます。HR+(ホルモン受容体陽性)かHR-か、HER2+(HER2過剰発現)かHER2-か、その組み合わせです。HR+/HER2-はその中で最も多く、全乳がんの約60〜70%を占めます。エストロゲンやプロゲステロンといった女性ホルモンによってがんが増殖する性質を持つため、ホルモンの作用を抑える「内分泌療法(ホルモン療法)」が治療の柱になります。
手術と放射線療法でがんを取り除いた後、再発予防のためにホルモン療法を5年〜10年継続する。これがHR+/HER2-乳がんの標準術後治療です。問題は、その上に化学療法(アンスラサイクリン系・タキサン系などの抗がん剤)を追加するかどうかの判断でした。
化学療法を追加すれば、再発リスクをさらに下げられます。一方で、脱毛、吐き気、骨髄抑制、長期的な認知機能や心毒性のリスクなど、副作用は重い。生活の質を大きく損ない、就労や育児への影響も避けられません。
「ホルモン療法だけで十分な人」と「化学療法も必要な人」を、できるだけ正確に見分けたい――この問いに答えるためのバイオマーカー研究が、過去20年の乳がん診療を形作ってきたと言っても過言ではありません。
2. Oncotype DX――21の遺伝子から「再発リスクスコア」を作る仕組み
Oncotype DXは、腫瘍組織の21の遺伝子発現量を測定し、定量的なスコア(0〜100)に変換する検査です。21遺伝子の内訳は、増殖関連、エストロゲン関連、HER2関連、浸潤関連、参照(ハウスキーピング)遺伝子など、多角的に構成されています。
このスコアは、術後10年以内の遠隔再発リスクと、化学療法を上乗せする益の両方を予測します。一般に、
- 低リスク(スコア<11または18):ホルモン療法のみ
- 中リスク(11〜25):個別判断(年齢、リンパ節、患者意向)
- 高リスク(>25または26):化学療法上乗せ推奨
とされ、TAILORx試験はこの中間群について「ホルモン療法のみで非劣性」というエビデンスを確立しました(NEJM 2018;379:111-21)。
Oncotype DXは世界中の臨床ガイドラインに組み込まれ、特に米国では年間10万件以上が実施される標準検査になっています。日本でも保険適用され、HR+/HER2-早期乳がんで化学療法の上乗せ判断に広く使われています。
3. Oncotype DXの限界――晩期再発が読めない
しかし、Oncotype DXには長年指摘されてきた限界があります。
- 10年を超える晩期再発予測が弱い:HR+乳がんは10年、15年、時に20年経って再発することが珍しくない。Oncotype DXは10年予測には強いが、それ以降の予測精度は落ちる。
- 腫瘍の不均一性を捉えられない:検査はバルク(一括)ゲノミクス。腫瘍内の細胞集団の多様性、間質(stroma)や微小環境の影響は捉えない。
- 増殖関連遺伝子に偏る:スコア構成上、Ki-67を含む増殖関連遺伝子の重みが大きく、休眠・再増殖の機構を直接的には反映しにくい。
サンアントニオ乳がんシンポジウム(SABCS 2025)でSparano先生が問題提起したのは、まさにこの限界でした。「TAILORxで治療判断に使った21遺伝子スコアより、もっと優れた長期予後予測ができないか?」――それが研究の出発点です。
4. マルチモーダルAI――何を統合したのか
Sparano先生らが開発したのは、3種類のデータを統合するマルチモーダルAIモデルです。
- C(Clinical):臨床データ。年齢、リンパ節転移の有無、腫瘍サイズ、グレード、ホルモン受容体・HER2発現など。
- I(Imaging):画像データ。腫瘍組織の病理画像(ヘマトキシリン・エオジン染色のWSI、ホールスライド画像)など。
- M(Molecular):分子データ。Oncotype DXに含まれる21遺伝子に加え、全トランスクリプトームシークエンシングから得られる拡張分子データセット(M+)。
研究では、TAILORx試験参加者10,273人のうち、腫瘍組織と全トランスクリプトームシークエンシングデータの両方が揃った4,462人を解析対象に。63%(2,810人)を訓練データ、37%(1,652人)を検証データに分割しました。
モデルは複数の構成で評価されました。単一モダリティ(CのみC、IのみI、MのみM)と、複数モダリティ統合(CIM、ICM+など)。最も高性能だったのがICM+モデル――臨床、画像、拡張分子データの3つすべてを統合し、相互作用を学習するモデルです。
Sparano先生は記者発表でこう説明しています。「(ICM+は)各データソースの寄与の重み付けだけでなく、相互作用を捉える――例えば、特定の遺伝子シグネチャーが、特定の組織パターンの解釈をどう変えるか、といった相互依存関係を学習する」と。
5. 結果――Oncotype DXとの正面対決
モデル性能はC-index(concordance index)で評価されました。C-indexは、リスクが高いと予測した個人が実際により早くイベント(ここでは遠隔再発)を起こすかを評価する指標です。1.0が完璧、0.5が偶然と同じ、0.7以上が一般的に「臨床的に有用」とされます。
| 予測ターゲット | ICM+モデル | Oncotype DX | 差 |
|---|---|---|---|
| 15年遠隔再発(全期間) | 0.733 | 0.631 | +0.102 |
| 5年以降の晩期再発 | 0.705 | 0.527 | +0.178 |
15年予測でC-index 0.733は、臨床的に十分有用なレベル。Oncotype DXの0.631も悪くはありませんが、ICM+はそれを大きく上回りました。
そして特筆すべきは晩期再発(5年以降)の予測精度です。Oncotype DXのC-index 0.527は、ほぼ偶然と同じレベル――つまり、Oncotype DXは5年以降の再発をほとんど予測できていなかったということ。これに対し、ICM+の0.705は明確に有用な水準です。
HR+/HER2-乳がんの晩期再発は、患者が「もう大丈夫」と思った頃に襲ってくる、最も対処が難しい再発パターンです。ホルモン療法を5年で終わるか10年延長するかという臨床判断にも直結する。ここでの予測精度向上は、患者にとっての実利が極めて大きい。
6. なぜ画像が重要だったのか――早期と晩期で違う情報源
解析の興味深い発見の一つは、データソースによって「得意な期間」が異なることでした。
- 分子データ(M):早期再発(5年以内)の予測に強い。腫瘍細胞の増殖速度や活性を直接反映する。
- 画像データ(I):晩期再発(5年以降)の予測に強い。腫瘍と周辺組織(間質、TME=腫瘍微小環境)の関係を捉えられる。
MD Anderson Cancer Centerの乳腺外科病理医Savitri Krishnamurthy先生は、AACR記事の中でこう解説しています。「浸潤腫瘍の分子的特徴だけでは、腫瘍生物学を予測する上で、間質と腫瘍微小環境の影響を捉えるのに十分ではない」。さらに「Oncotype DXは増殖関連遺伝子の変化に依存し、腫瘍の不均一性を捉えていない――バルクゲノミクスを使っているから」と。
つまり、晩期再発を予測するには、腫瘍細胞の遺伝子発現だけでなく、腫瘍と周りの組織との関係性――免疫細胞の浸潤度、線維芽細胞の状態、血管の分布、組織構築――を見る必要がある。それは病理画像にこそ刻まれている。これが、ICM+モデルが晩期再発で大きく勝った理由のメカニズム的な解釈です。
7. 臨床応用へのハードル――前向き検証の不足
結果は印象的ですが、臨床応用には複数のハードルがあります。Krishnamurthy先生はこう指摘します。「これらのモデルは、Sparano先生らの研究を含めて、典型的に後ろ向き(retrospective)データで評価されている。前向き(prospective)臨床試験は不足している」。
後ろ向きデータの評価とは、過去のTAILORx参加者の結果を使って、AIモデルが「もし当時使われていたら、どれくらい正確だったか」を計算するアプローチです。これは強力ですが、当時の臨床判断や患者選択バイアスがデータに残っているため、本当の臨床インパクトを評価するには前向き試験が必要です。
もう一つの逆説的問題は、AIモデルが乱立することによる選択困難です。Krishnamurthy先生は続けます。「より多くのAIモデルが開発され、有益性が示されるほど、臨床医はどれを実装すべきかの判断が難しくなる」。これは医療AIの普遍的な課題で、システム間の比較・標準化・規制整備が追いついていません。
8. データの規模と質――AI性能の本当の決定要因
Sparano先生らの研究で重要なのは、大規模かつ高品質な前向きデータであるTAILORxを基盤に置いた点です。10,273人を10年以上追跡し、腫瘍組織と全トランスクリプトーム情報を蓄積したコホートは、世界的にも稀有です。
Krishnamurthy先生は強調します。「高品質で、アノテーションされ、大規模なデータセットの利用可能性が、ロバストなAIモデル構築の扉を開く。それは医療に革命的変化をもたらすに違いない」。
逆にいえば、AIの性能は「アルゴリズムの天才性」より「データの質と規模」に支配されます。臨床AIの未来は、計算技術の進化以上に、長期間にわたる前向きコホートのインフラ整備、データ標準化、患者同意の枠組み構築にかかっています。
9. 治療判断の意思決定――AIはどこまで踏み込むべきか
マルチモーダルAIが再発予測精度を上げたとき、それは「化学療法を追加するかどうか」という治療判断に直結します。Oncotype DXはすでにその役割を担っていますが、ICM+のような次世代AIが置き換える未来は、いくつかの問いを生みます。
- 説明可能性:AIが「再発リスク高」と判定したとき、何が根拠なのかを医師と患者にどう説明するか。バルク21遺伝子なら遺伝子ごとに説明できるが、深層学習の統合モデルではブラックボックス化が懸念される。
- 意思決定の主権:化学療法を受けるかどうかは、最終的に患者の選択。AIスコアが「強い推奨」として提示されると、患者の自律性が事実上侵食されるおそれがある。
- 規制と保険償還:FDAやPMDAでの承認、保険適用のための臨床的有用性エビデンス、コスト効果分析――これらすべてが整備される必要がある。
- health equity:訓練データの民族・地域偏在は、特定集団でAIの性能が落ちる可能性を生む。これは公平性(equity)の観点から看過できない。
10. 日本での展開可能性と課題
日本のHR+/HER2-乳がん診療では、Oncotype DXは保険適用済みで、化学療法上乗せ判断に活用されています。年間検査件数も着実に増加してきました。
マルチモーダルAIモデルが日本に展開される可能性を考えると、いくつかの論点が浮かびます。
- データの活用:JCOG(日本臨床腫瘍研究グループ)や各がんセンターには、長期追跡コホートと組織バンクが蓄積されてきました。これらを活用した日本人データでの検証が、将来的に必要です。
- 診療報酬の枠組み:マルチモーダルAIが保険診療に組み込まれるには、臨床的有用性の前向きエビデンスと、検査の標準化が前提。
- 分子検査の整備:全トランスクリプトームシークエンシングは、現状の保険診療では一般的ではない。臨床現場で利用するには、コスト構造と検査体制の整備が必要。
- 専門家の育成:マルチモーダルデータを臨床判断に統合できる病理医・腫瘍内科医の継続的育成。
まとめ
- SABCS 2025で発表されたマルチモーダルAIモデル(ICM+)は、HR+/HER2-乳がんの15年遠隔再発予測でOncotype DXを大きく上回った(C-index 0.733 vs 0.631)。
- 特筆すべきは晩期再発(5年以降)の予測精度差(0.705 vs 0.527)。Oncotype DXがほぼ予測できていなかった領域を、AIが切り拓いた。
- 分子データは早期再発、画像データは晩期再発に強い。腫瘍微小環境を捉える病理画像の価値が再認識された。
- 臨床応用には前向き検証、説明可能性、規制整備、health equityなど多層のハードルが残る。
- AIの本当の決定要因は「アルゴリズム」より「データの質と規模」。長期前向きコホートのインフラ整備が次の競争領域。
私の考察・展望
マルチモーダルAIは、乳がん診療における意思決定支援の質を一段階上げる可能性を秘めています。私が最も注目するのは、Oncotype DXが捉えきれなかった「腫瘍微小環境」を、病理画像経由でAIが間接的に読み込めるという点です。これは「腫瘍だけ見ても患者の運命は分からない」という、ここ10年の腫瘍学の核心的な気づきと整合します。一方で、ICM+のようなモデルが日本で実装されるためには、JCOGや国内コホートでの前向き検証、保険償還の整備、説明可能性のフレームワーク構築が必要です。さらに重要なのは、AIスコアが治療選択を「強く推奨」する形で提示されたとき、患者の自律性をどう守るか――これは技術論ではなく医療倫理の問題です。連載3回を通じて見えてきたのは、AIが乳がん診療のスクリーニングから治療意思決定まで、すべての段階に染み出しているという事実。その総体を「医療の民主化」と呼ぶか「アルゴリズムへの依存」と呼ぶかは、私たちの選択にかかっています。
シリーズ完結に寄せて
連載「AIで読む乳がん診断」全3回を通じて、私たちは検出(MASAI)、ワークフロー(AITIC)、再発予測(マルチモーダルAI)という3つの段階で、AIが乳がん診療に与えつつあるインパクトを追ってきました。共通するメッセージは、AIは「医師を置き換える」のではなく「医師の判断を増強し、組織の認知能力を底上げするインフラ」として機能している、ということです。技術は確実に成熟しつつあります。これからの主戦場は、運用設計、規制、データガバナンス、患者参加――つまり医療制度そのものの再設計です。本連載が、皆様にとってその議論の出発点となれば幸いです。
Morningglorysciencesチームによって編集されました。

コメント