要点まとめ
- スウェーデンで実施された大規模ランダム化比較試験「MASAI」の最終解析が The Lancet 2026年407巻505-514頁に掲載され、AIで支援したマンモグラフィ読影が標準的な読影と比べてインターバル乳がん(検診と検診の間に見つかるがん)を 12%減らすことが示されました。
- AI群の感度(真陽性率)は80.5%、標準群は73.8%。AIを使うことで「見逃し」が減り、放射線科医の業務負担も同時に軽減できる可能性が示されました。
- 本記事は連載「AIで読む乳がん診断」の第1回。スクリーニング段階に焦点を当て、AIマンモグラフィが「医師を置き換える」のか「医師を増強する」のかという問いに、MASAI試験がどう答えたかを丁寧に解きほぐします。
- 専門用語を避けずに、初めて触れる読者にも段階的に分かるように設計しました。後半では、MASAIの結果が日本の検診現場にもたらすであろう示唆と、私たちが今後注視すべき論点を整理します。
序論――なぜ今、AIマンモグラフィなのか
乳がんは、世界で最も多く女性に診断されるがんです。早期に発見できれば、手術と薬剤による治癒率は飛躍的に高まります。だからこそ、各国はマンモグラフィ(乳房X線撮影)による検診プログラムを整備し、定期的な検査を呼びかけてきました。
ところが現場には、長年にわたり次のような悩みが積み重なってきました。第一に、見逃される「インターバルがん」――検診で正常と判定されたあとに、次の検診を待たずに発見されるがん――が一定割合で残ること。第二に、過剰なリコール(要精密検査の呼び戻し)が女性に不要な不安と医療費を発生させていること。そして第三に、画像を二重読影する放射線科医の慢性的な不足が深刻になっていること。
マンモグラフィの精度は、撮影機器と読影者の経験に大きく左右されます。多くの先進国では「二重読影」――2人の放射線科医が独立して画像を読む方式――が標準とされてきました。しかし読影者の高齢化、若手の人手不足、検診対象年齢の引き下げという三つ巴の圧力が、各国の検診体制を静かに圧迫しつつあります。
この袋小路を抜ける道として、過去5年あまりにわたり、人工知能(AI)による画像解析が真剣に検討されてきました。深層学習(ディープラーニング)の進歩により、AIは大量の画像から「何が異常で、何が正常か」を学び、放射線科医に近い精度で病変を見つけられるようになってきたからです。
2026年初頭、その流れの中で出色の重要性を持つ研究が The Lancet 誌に掲載されました。スウェーデンで行われた「MASAI試験(Mammography Screening with Artificial Intelligence)」の最終解析です。10万5千人を超える女性を対象とした、世界最大級のランダム化比較試験。試験デザインの厳格さ、サンプルの大きさ、そして「インターバルがん」という最も重要な臨床アウトカムを直接評価したという三点で、これまで散見されてきた小規模研究やシミュレーション研究を一段超えるエビデンスです。
本記事では、MASAI試験の設計と結果を読み解き、その意味を一般の読者にも納得していただけるよう順を追って解説します。後半では、専門家向けに数値の解釈と限界に踏み込み、最後に「私の考え」として日本の検診現場への含意を示します。
本論
1. マンモグラフィ読影のいま――「二重読影」が前提だった理由
まず、現在の検診マンモグラフィがどう運用されているかを押さえます。
欧州や日本の多くの検診プログラムでは、撮影されたマンモグラフィ画像を 2人の放射線科医が独立に読影する「二重読影」が標準です。1人で見落としがあっても、もう1人が拾える可能性が高まる。意見が割れた場合は第三者が仲裁するか、追加検査で確認します。
この方式は精度を高めますが、当然ながら読影量は単純に2倍になります。検診参加者が増えるほど、必要な放射線科医の人数も増えていきます。さらに、精度をさらに上げる「3D乳房撮影(デジタル乳房トモシンセシス、DBT)」は、撮影された画像枚数が増えるため、読影時間が約2倍に伸びるとされています。
検診体制は本質的に「コスト・精度・人員」の三角バランスで成り立っており、どれかを動かすと別のどこかが歪みます。AIによる支援は、この三角形を新しい地点に動かす可能性を秘めた技術として、近年急速に存在感を増してきました。
2. MASAI試験のデザイン――10万人をどう分けたか
MASAI試験は、スウェーデン南部の検診プログラムを舞台に行われました。試験参加者は10万5千人を超える女性。検診を受けに来た女性たちが、コンピュータによる無作為割付で「AI群」または「標準群」のいずれかに振り分けられます。
AI群のフロー
- 撮影されたマンモグラフィをまずAIが解析し、リスクスコアを算出。
- 低リスクと判定された画像は、1人の放射線科医のみが読影。
- 高リスクと判定された画像は、2人の放射線科医がAIの所見を参照しながら読影。
標準群のフロー
- すべての画像を、2人の放射線科医が独立に読影(AI支援なし)。
つまりMASAI試験は、AIを「事前トリアージ+読影支援」のツールとして使い、低リスク症例の二重読影を省くことで業務量を削減しつつ、精度が落ちないかを検証する設計です。重要なのは、AI単独で診断するのではなく、最終判断は必ず人間の放射線科医が行うという点です。
3. 主要結果――インターバルがんが12%減った意味
主要評価項目(プライマリエンドポイント)の一つは「インターバルがんの発生率」でした。
インターバルがんとは、ある検診で「異常なし」と判定された後、次の定期検診(多くは2年後)を待たずに、症状や別の検査で発見されるがんを指します。検診の本来の目的は「症状が出る前に見つけること」ですから、インターバルがんが多ければ、それは「検診で見落とされている」あるいは「進行が早すぎて間に合っていない」ことを意味します。インターバルがんの減少は、検診の質を直接示す指標です。
| 指標 | AI群 | 標準群 | 相対差 |
|---|---|---|---|
| インターバルがん率 | 1.55 / 1,000 | 1.76 / 1,000 | −12% |
| 感度(真陽性率) | 80.5% | 73.8% | +6.7ポイント |
| 放射線科医の読影量 | 削減 | 標準 | 大幅減 |
インターバルがんが1,000人あたり1.76人から1.55人へ減ったというのは、絶対数で見れば小さく見えるかもしれません。しかし全国規模の検診プログラムに当てはめれば、年間で数百〜数千人の女性が、より早い段階でがんを発見できる計算になります。
感度(がんを見つけ出す力)が80.5%へ上がった意味も大きい。感度が高いほど、見逃しが減り、女性が「次の検診まで気づかない」リスクが下がります。
4. AIは「医師を超えた」のか――誤解を避けるための整理
ここで多くのメディア見出しが踊る「AIが医師を超えた」という表現について、慎重に整理しておきます。
MASAI試験で示されたのは、AI+放射線科医のチームが、放射線科医2人によるチームより良い結果を出したということです。AI単独が、放射線科医単独より優れていると証明されたわけではありません。
むしろ、MASAIの真のメッセージは次の3点に集約されます。
- AIは見落としを拾う:人間の目では微細すぎて見過ごしやすい所見をAIがマークすることで、放射線科医の判断を補強する。
- AIは負荷を分散する:低リスク症例の二重読影を省くことで、放射線科医の限られた時間を、本当に注意を要する高リスク症例に集中させる。
- AIは品質を均す:読影者の経験や疲労による精度のばらつきを、AIによる事前スクリーニングが平準化する。
言い換えれば、AIは「医師の代替」ではなく「医師の能力を一段引き上げる増幅器」として働いている、というのがMASAIから読み取るべき本質です。
5. なぜ12%減なのか――AIが拾うがんの特徴
続いて、「なぜインターバルがんが12%減ったのか」のメカニズムを推察します。
マンモグラフィで乳がんが見逃される代表的な理由は、(a) 病変が小さく石灰化や軟部組織の影に紛れやすい、(b) 高密度乳房(fibroglandular tissueが多い)で背景に埋もれて見えにくい、(c) 読影者の疲労や経験差、の三つです。
AIは、これらの「見逃しやすいパターン」に対して、人間とは異なる強みを持ちます。AIは画像のピクセル単位の濃淡変化を統計的に捉え、過去に学習した数百万件の症例と照合することで、「人間の目では微妙だが、過去の癌画像と類似度が高い領域」を抽出します。さらに、AIは疲労せず、最後の症例も最初の症例と同じ精度で評価します。
MASAIに先行する観察研究では、AIは特に小さな浸潤がんと非浸潤性乳管癌(DCIS)の検出に強いとされています。これは石灰化や微細な構造変化を識別する能力に由来すると考えられます。インターバルがんの多くは「初回検診時には見つけにくいが、すでに存在していた小さな病変」が含まれるため、AIによる微細所見の拾い上げが、12%という減少幅に寄与した可能性が高いと専門家は分析しています。
6. 業務負担の削減――放射線科医にとっての意味
MASAI試験のもう一つの重要な発見は、放射線科医の読影業務量が大きく減ったことです。具体的には、AI群では低リスクと判定された大多数の症例で「単独読影」となり、二重読影に必要な労力の相当部分が省かれました。
「業務量削減」は単に効率の話ではなく、医療の質に直結します。読影者の疲労は判断の精度を落とすことが知られています。1日に読まなければならない症例数が多すぎると、終盤では集中力が下がり、見落としが増える。AIによる事前トリアージで「本当に念入りに見るべき症例」に時間を割けるようになることは、医師にとっての労働環境改善であると同時に、患者にとっての安全保障でもあるのです。
欧州各国では、放射線科医の不足が検診の遅れや受診率低下を招きつつあります。MASAIの結果は、限られた専門人材を「最も付加価値の高い仕事」に集中投下する、新しい運用設計のエビデンスとして読むことができます。
7. 数値を専門家視点で深読みする
ここからは少し専門的な視点に踏み込みます。
感度80.5% vs 73.8%という差は、絶対値で6.7ポイント、相対で約9%の改善です。乳がん検診では、感度をわずか数ポイント動かすことが極めて難しいとされてきた歴史を踏まえると、この差は実装インパクトとして十分大きい。一方で、特異度(偽陽性を出さない力)の数値は本論文の主要報告では大きく動いておらず、PPV(陽性予測値)も検討対象になっています。
留意点としては、(a) スウェーデンの単一プログラムによる結果である、(b) 使用されたAIシステム(Transpara)に依存している、(c) 検診間隔(多くは2年)と人口集団の特性(白人主体、平均的乳房密度の分布)を踏まえる必要がある、という三点が挙げられます。日本のように高密度乳房の比率が相対的に高い集団でそのまま当てはまるかは、別途の前向き検討が必要です。
また、AI支援が「単独読影+AI」となる症例で、もし将来的にAIが誤判定すれば、その判断を覆す第二の人間の目が無いことになります。MASAIではAIスコアの設計で「高リスク域は必ず二重読影」とすることでこのリスクを抑えていますが、運用ガイドラインの整備は今後の重要な論点です。
8. 患者と検診参加者にとっての意味
専門家視点を離れ、検診を受ける女性の立場で考えてみます。
一番の意味は「がんを早く見つけられる確率が上がる」こと。インターバルがんの12%減は、年間数百人〜数千人の女性が、症状が出る前に治療を始められることを意味します。乳がんは早期に見つければ、長期生存率は90%を超え、手術も小さく済むことが多い。1年・2年の早期発見の差が、患者と家族の人生に与える影響は計り知れません。
同時に、AI支援によって「呼び戻し(リコール)」の運用が変わる可能性もあります。MASAI試験ではリコール率の変化は限定的でしたが、関連するAITIC試験(次回詳説)では設計次第でリコールが増える結果も出ています。「呼び戻されて結局は陰性だった」という体験は、女性にとって大きな心理的負担です。AIの実装は、感度を上げるだけでなく、不必要な呼び戻しをどう減らすかという観点も含めて評価される必要があります。
9. 日本の検診プログラムへの示唆
日本の乳がん検診は、市町村単位の対策型検診(自治体が実施するもの)と、職域や個別医療機関での任意型検診の両輪で運営されています。MASAIのようにすべての画像をAIにかけ、トリアージするインフラは、現状ほとんどの自治体には備わっていません。
とはいえ、日本でも以下のような変化の芽が出始めています。
- 大学病院・がんセンターを中心に、AI読影支援の導入が進みつつある。
- 厚生労働省・PMDAでも、診断補助AIの薬事承認が複数下りている。
- 放射線科医の地域偏在と高齢化が、AIによる支援需要を押し上げる構造的圧力となっている。
MASAIの結果は、日本においても「AIによる事前トリアージ+熟練医師の集中読影」という新しい運用設計を検討すべき時期が来ていることを示唆しています。ただし、システムごとの精度差、日本人女性の乳房密度分布、データガバナンスなど、移植には慎重なステップが要ります。
10. 倫理と説明責任――AIに任せる範囲はどこまでか
最後に、技術論を離れて倫理的な論点に触れます。
「低リスクの画像はAIだけで正常と判定する」という方向の議論――これは次回の第2回(AITIC試験)で本格的に扱うテーマですが――が現実味を帯びてきたとき、重要になるのが「誰が責任を持つのか」です。AIの判定が外れた場合、責任は撮影機器メーカーにあるのか、AIアルゴリズムを提供した会社にあるのか、それとも導入を決めた医療機関にあるのか。
欧州ではAI法(EU AI Act)が医療AIを高リスクカテゴリに分類し、認証・監査・透明性の要件を厳格化しつつあります。日本でも医療機器プログラム(SaMD)としての規制が整備されてきましたが、検診プログラム全体の中でAIの判断責任をどう位置付けるかは、まだ固まりきっていません。
MASAIの結果は希望を与える一方で、「人間とAIの責任分界線をどこに引くか」という問いを私たちに突きつけています。
まとめ
- MASAI試験は、10万人規模で AI支援マンモグラフィがインターバルがんを12%減らし、感度を80.5%まで引き上げることを示した、世界最大級のランダム化比較試験である。
- 結果は「AIが医師を超えた」のではなく、「AI+医師のチームが、医師2人より優れた」という増強効果を示している。
- AIは小さな病変や微細石灰化の検出に強く、放射線科医の業務負担を分散しつつ、検診の質全体を底上げする可能性を持つ。
- 同時に、リコール率の運用、システムごとの精度差、責任分界、データガバナンスなど、実装段階で議論すべき論点が多数残っている。
- 日本の検診プログラムにとっても、AIトリアージは「人手不足を埋める応急処置」ではなく、検診の質そのものを再設計する機会として捉えるべきだ。
私の考察・展望
MASAI試験の意義は、「AIが医師を超えるかどうか」という二項対立を超え、検診全体のワークフローを再設計する出発点を提供したことにあります。私はこれを、医療AIの議論が「精度比較フェーズ」から「制度設計フェーズ」に移行する象徴的なマイルストーンと位置付けています。日本の現場で問われるのは、技術導入の是非ではなく、限られた専門人材と財源を、どこに集中投下すれば検診全体の質を最大化できるかという経営判断です。MASAIが示したのは、AIが放射線科医の代替ではなく「組織の認知能力を底上げするインフラ」として機能し得るという事実。次の3〜5年で、この知見が日本の検診ガイドラインや診療報酬体系にどう反映されるかを注視したい。同時に、AIの判定責任、データの帰属、被検者の説明同意といった非技術論点を、医療側・規制側・市民側が同じテーブルで議論し合意形成する場の整備も急務だと考えます。
次回予告
連載第2回は、2026年4月に Nature Medicine 誌で公開されたAITIC試験を扱います。スペイン・コルドバで実施されたこの前向き対試験は、AIが「低リスク」と判定した画像を放射線科医が読まずに正常と扱う、より踏み込んだ運用を検証しました。読影量を63.6%減らし、がん検出率を15.2%上げた一方、リコール率は非劣性が示せなかった――この複雑な結果の意味を、3D乳房撮影(トモシンセシス)への展開とともに読み解きます。
Morningglorysciencesチームによって編集されました。

コメント