要点まとめ
- 2026年4月、Nature Medicine 誌(32巻1296-1305頁)にスペイン・コルドバの「AITIC試験」が掲載されました。31,301人を対象とした前向き対試験で、AIが「低リスク」と判定した画像を放射線科医が読まずに正常と扱う、より踏み込んだ部分自律ワークフローを検証しました。
- AI戦略では放射線科医の読影量が63.6%減、がん検出率が15.2%増。一方、リコール率(要精密検査の呼び戻し)は14.8%増で、事前設定された非劣性マージン(−5%)を満たさなかった。
- 2D(デジタルマンモグラフィ、DM)と3D(デジタル乳房トモシンセシス、DBT)で結果に明確な差。DMは検出率+33.7%・リコール率+28.2%と強い変化、DBTは検出率もリコール率もほぼ変わらず。
- 本記事は連載「AIで読む乳がん診断」第2回。前回のMASAI試験から一歩踏み込み、「AIに任せて大丈夫な部分はどこまでか」という運用の核心を、AITICが示した数値と限界から読み解きます。
序論――AITICが追いかけた、もう一段先の問い
連載第1回で扱ったMASAI試験は、AIを使った「事前トリアージ+読影支援」のフレームで、検診の質を上げつつ放射線科医の業務量を下げられることを示しました。重要な前進ではありましたが、「AIが正常と判定した画像でも、最低1人の放射線科医が読んで確認する」という、人間の安全弁を残した設計でした。
2026年4月、その安全弁をさらに省く可能性を真正面から検証した試験が、Nature Medicine 誌に発表されました。スペイン・コルドバのレイナ・ソフィア大学病院を中心に行われた「AITIC試験」(Artificial Intelligence in Breast Cancer Screening Program in Córdoba、ClinicalTrials.gov ID: NCT04949776)です。
AITICのデザインの核心はこうです。検診に来た31,301人の女性について、同じマンモグラフィを2通りの戦略で「読む」。
- 標準戦略:放射線科医2人による独立した二重読影(AI支援なし)。
- AI戦略:AIが画像を解析し、リスクスコア1〜10を付与。スコア1〜7(低リスク、全体の約64%)は放射線科医が一切読まずに正常と扱い、スコア8〜10(高リスク)のみAIマーキング付きで2人の放射線科医が読む。
同じ女性に対して両戦略を適用するペアド(paired)設計のため、AIによる差分を直接測定できる強力な研究です。さらに、デジタルマンモグラフィ(DM)と3D撮影であるデジタル乳房トモシンセシス(DBT)の両方で評価された点も画期的でした。
本記事ではAITICの結果を、(1) ワークロード削減という運用効率、(2) がん検出率の向上、(3) リコール率の上昇という三つの軸で読み解きます。後半で、DM/DBTの差が何を意味するか、見逃されたがん24件は何だったのか、そして「AIに完全に任せる」ことの倫理的境界線を考察します。
本論
1. 試験の枠組み――31,301人をペアドで読む
AITIC試験は2022年3月15日から2024年1月11日まで、スペイン・アンダルシア州コルドバの集団検診プログラムで実施されました。当該期間に検診を受けた女性33,171人のうち、31,856人が同意してエントリー。最終的に画像処理不可などの除外を経て、31,301人が解析対象になりました。年齢中央値は59歳(IQR 54-64歳)、初回検診は11.3%。乳房密度はBI-RADS分類でA(脂肪性)20.6%、B(散在性)46.5%、C(不均一高濃度)27.6%、D(高濃度)5.3%でした。
使用したAIシステムは Transpara バージョン1.7(ScreenPoint Medical製)。これはMASAI試験でも使われたシステムと同系列で、世界15か国以上の1,500万件超の症例で学習された深層畳み込みニューラルネット(CNN)ベースのモデルです。出力はスコア1〜10で、1〜7が「低リスク」、8〜9が「中リスク」、10が「高リスク」と分類されます。
2. ワークロード63.6%減――何が省かれたか
結果はまず運用面で衝撃的でした。
| 指標 | AI戦略 | 標準戦略 | 絶対差 | 相対差 |
|---|---|---|---|---|
| 放射線科医の読影回数 | 22,768回 | 62,602回 | −39,834回 | −63.6% |
| がん検出率(CDR、対1,000人) | 7.3 | 6.3 | +1.0 | +15.2%(P<0.001) |
| リコール率(RR、%) | 5.5 | 4.8 | +0.7%pt | +14.8%(非劣性未達) |
| 陽性予測値(PPV) | 13.23% | 13.19% | +0.04%pt | ほぼ同等 |
AI戦略では31,301例のうち19,917例(約64%)がスコア1〜7と判定され、放射線科医が一切読まずに「正常」とラベル付けされました。残り11,384例(36.4%)のみが2人の放射線科医によりAIマーキング付きで二重読影されました。総読影回数は標準戦略の62,602回からAI戦略の22,768回へ、約4万回の読影が省略された計算です。
これは、放射線科医の作業時間に換算すれば膨大な節約です。AITICの研究グループは、同じシステムをDBT検診プログラムに適用すれば、DBTがDMの約2倍の読影時間を要することから、より大きな労働時間削減効果が見込まれると指摘しています。
3. 検出率15.2%増――AIが拾い、人が見逃したがん
「人が読まないのなら見逃しが増えるのでは?」という直感的な懸念は、結果によって裏切られました。
がん検出率は1,000人あたり6.3から7.3へ、絶対差で1.0増、相対で15.2%の増加(95%CI 6.6〜24.4%、P<0.001)。これは事前設定された非劣性マージンを大きく超え、AI戦略が標準戦略に対して統計的に優越(superior)と判定されました。
具体的に何が変わったか。AITICで検出された全がん252例のうち、
- 標準戦略のみで検出 = 24例
- AI戦略のみで検出 = 54例
- 両戦略で検出 = 174例
AI戦略の方が、人間2人による二重読影だけでは見つからなかったがんを30例も多く拾い上げたことになります。さらに重要なのは、AI戦略で多く検出されたがんの特徴です。
- 浸潤がん:+10.1%
- 非浸潤性乳管癌(DCIS):+35.0%
- Grade I(低悪性度)浸潤がん:+30.2%
- T1(小腫瘍、≤2cm):+13.5%
- N0(リンパ節転移なし):+15.6%
つまりAI戦略は、より小さく、より早期で、より治療しやすいがんを多く見つけている。これは患者の予後(生存率や治療侵襲度)に直接関わる、極めて重要な傾向です。
4. リコール率14.8%増――非劣性が示せなかったという事実
一方、AITICにとって難しい結果となったのがリコール率(RR)です。AI戦略では4.8%から5.5%へ上昇し、相対差は+14.8%。事前設定された非劣性マージン(標準戦略から+5%以内)を超えてしまい、非劣性は確認できませんでした。
「リコール」とは、検診で何らかの所見を認め、追加の精密検査(特殊撮影、超音波、必要なら生検)に呼び戻すことです。リコールされた女性のうち実際にがんがあった割合(PPV)は、AI戦略でも標準戦略でもほぼ同じ(約13%)でした。つまりAI戦略は「がんを見つける確率」と「不要にがん疑いをかける確率」の両方を同程度上げた格好です。
なぜリコールが増えたのでしょうか。AITICの著者らは、(a) AI戦略では高リスク症例(スコア8-10)にAIマーキングが付くため、人間の読影者が「何か疑わしい」と感じやすくなる、(b) コルドバの検診プログラムには「コンセンサス会議」(リコール前に多施設で再評価する仕組み)が無く、迷ったらリコールする運用、(c) AI戦略のスコア閾値(8以上で二重読影)を他試験(MASAIは10のみ)より広く取った設計、を要因として挙げています。
運用設計の選択が、AIの最終アウトカムに大きな影響を与える――この点はAITICが示した重要な教訓です。
5. DMとDBT――2Dと3Dで何が変わるか
AITICのもう一つのユニークな貢献は、デジタルマンモグラフィ(DM)とデジタル乳房トモシンセシス(DBT)を同じ枠組みで比較した点です。トモシンセシスは乳房を多角度から撮影して3D再構成する撮影法で、近年欧州を中心に標準採用が進んでいます。
| 指標 | DM(n=17,333) | DBT(n=13,968) |
|---|---|---|
| ワークロード削減 | −62.1% | −65.5% |
| がん検出率の相対差 | +33.7% | +0.9% |
| リコール率の相対差 | +28.2% | −2.4% |
| 陽性予測値の差 | +0.4%pt | +0.6%pt |
DMでは、AI戦略によって検出率が33.7%も跳ね上がり、リコール率も28.2%増。一方DBTでは、検出率もリコール率も標準戦略とほぼ変わらない。ワークロード削減はどちらも60%超で同等です。
この差をどう読むか。AITICの著者らは、(a) DBTは元々の精度が高いため、AIによる上乗せ効果が出にくい、(b) コルドバの放射線科医はDBT読影に5年以上の経験を持ち、AIの介入余地が少ない、(c) AIシステム自体がDM画像で多く学習されており、DBT画像での性能はやや落ちる可能性がある、と分析しています。
含意は重要です。DBT検診ではAIの最大価値はワークロード削減であり、検出率向上ではない。一方DMがまだ主流の地域では、AIによって検出率を底上げできる可能性が高い。AIの導入価値は、撮影モダリティと既存読影者の熟練度によって変わるのです。
6. 見逃された24例――低リスク判定されたがんの正体
AI戦略で見逃された24例のがんは何だったのでしょうか。これは「AIに任せる」議論で最も注視される情報です。
うち11例は、AIスコアが1〜7(低リスク)と判定されたため、AI戦略では人が一切見ずに正常扱いとなりました。9例がDBT、2例がDMでした。残り13例はスコア8〜10で二重読影されたものの、放射線科医がリコールしなかった症例です。
低リスクと判定されながら結果的にがんだった11例の特徴は次のとおりです(拡張データTable 5より):
- 組織型:浸潤性小葉癌1例、浸潤性乳管癌6例、非浸潤性乳管癌4例。
- 形態:石灰化、対称性の崩れ(asymmetry)、構築の歪み(architectural distortion)、腫瘤など。
- 悪性度:Grade I〜III が混在。
- 標準戦略でも、これら24例中23例(96%)は2人のうち1人だけがリコールしていた、つまり「微妙な症例」だった。
AIが見逃した症例の多くは、人間にとっても見つけにくい所見だった、ということになります。一方で、AI戦略のみで拾えた54例の3分の2(34例)は、「2人ともリコールした明らかな症例」です。これは標準戦略の枠組みでは、両人がリコールしたのに最終診断に至らなかった――つまり、AIが「念のためチェックした方がよい」と促したことで、結果的に診断が確定したと推測されます。
数字にすれば、24例の見逃し(人)と54例の追加検出(AI)。差し引き30例が、AI戦略の純増です。
7. AITICが他の前向き試験と何を違うか
AIマンモグラフィの前向き臨床試験は、ここ2〜3年で複数公開されています。代表的なものを比較しましょう。
- MASAI(スウェーデン、Lancet 2026):AI+単独/二重読影。検出率+20%、リコールは増加せず。インターバルがん−12%。
- ScreenTrustCAD(スウェーデン、Lancet Digital Health 2023):AIが二人目の読影者を完全に置き換える設計。検出率+4%、ワークロード−50%、リコール+21%。
- PRAIM(ドイツ、Nature Medicine 2025):放射線科医が任意でAI支援を選択。検出率+17.6%。
- AITIC(スペイン、Nature Medicine 2026):低リスクは人が読まない部分自律ワークフロー。検出率+15.2%、ワークロード−63.6%、リコール+14.8%。
AITICの位置付けは、「AIに最も大きな自律性を与えた試験」と言えます。低リスク判定された画像に対して、人間の読影を一切介在させない。この踏み込みが、ワークロード削減幅を最大にし、検出率も大きく上げた一方、リコール率の制御に課題を残しました。
8. AIの責任分界線――どこまで任せるかの倫理
AITICの著者らは、討議の中で正面から倫理的論点に踏み込んでいます。「大多数のマンモグラフィをAIだけで読み、自動的に正常と判定することには、当然ながら倫理的な懸念がある」と。
本試験の11例の見逃しも事実です。しかし著者らは指摘します――「標準戦略(放射線科医のみ)でも54例のがんが見逃されており、AIの方が見逃しは少ない」。さらに、AIが低リスクと判定したのに実際にはがんだった11症例のうち、その91%は標準戦略でも2人のうち1人しか拾えなかった――つまり、人間の目にも難しい症例だった、と。
とはいえ、AIに任せる判断には明確な品質保証プロセスが伴うべきだ、という議論には著者らも同意しています。具体的には、(a) マンモグラフィ画像の自動品質管理、(b) AIシステムの市販後継続モニタリング、(c) 各国の規制下での認証・監査、が前提条件として挙げられます。
「AIの精度が人より高い」ことと、「AIに判断を一任すべき」ことは別の問題です。後者には、責任分界、説明同意、市民の信頼獲得という社会的プロセスが必要です。
9. 検診プログラム設計者へのメッセージ
AITICの結果は、検診プログラムをこれから設計する自治体や政府にいくつかの実務的メッセージを投げかけます。
- 運用設計が結果を決める:AIの精度そのものより、「コンセンサス会議の有無」「リコール基準」「閾値設計」といった運用ルールが、リコール率と患者体験を大きく左右する。
- モダリティで価値が違う:DBTが普及している地域では、AIの主価値は読影量削減。DMが主流の地域では、検出率向上が大きな付加価値になる。
- ベンダー多様性が必要:AITICは単一のAIシステムでの結果。市場には複数のAIシステムが存在し、性能差は無視できない。検診プログラム導入時は、自国データでの第三者評価が望ましい。
- 透明性とフィードバック:AIシステムの市販後継続モニタリングと、見逃し症例のフィードバックループ整備が、長期的な信頼の前提になる。
10. 患者の視点――AIに任せられる安心とは
女性が検診を受ける側として一番気になるのは、「自分のマンモグラフィがAIだけで判定された場合、本当に大丈夫なのか?」という点でしょう。
AITICの結果に基づけば、答えは「現時点では、人だけで読むより総合的にがんが見つかる確率は高い。ただし、AIの判定は完全ではない。何か気になる症状があれば、検診の結果に関わらず受診することが大切」となります。
検診はあくまで「症状の出ていない女性集団」に対する確率論的なリスク管理です。個人の症状(しこり、乳頭分泌、皮膚変化など)に対しては、検診結果と独立に医療機関を受診する必要があります。AI導入はこの基本原則を変えません。
同時に、「呼び戻される」体験そのものへの心理的支援が、検診プログラムには必要です。リコール率が上がる傾向にあるAI導入下では、女性に対する事前説明、リコール時のサポート、結果通知のスピードと丁寧さが、これまで以上に重要になります。
まとめ
- AITIC試験は、AIが「低リスク」と判定した画像を放射線科医が読まずに正常と扱う部分自律ワークフローを、31,301人で前向きに検証した Nature Medicine 掲載研究。
- 結果:ワークロード−63.6%、検出率+15.2%(優越性確認)、リコール率+14.8%(非劣性未達)、PPV同等。
- がん検出はGrade I・T1・N0など早期がんに偏って増加し、患者予後にプラスに働く可能性が高い。
- DMで効果が大きく、DBTでは検出率にほとんど差が出なかった。AIの価値はモダリティと既存熟練度によって変わる。
- 運用設計(コンセンサス、閾値、リコール基準)が、AI導入の成果を大きく左右する。技術より制度設計が問われる段階に入った。
私の考察・展望
AITICが提示したのは、「AIにどこまで任せられるか」という問いに、データで答え始めた最初期の前向き臨床試験です。私が最も注目するのは、結果の「複雑さ」を率直に開示している点です。優越と非劣性未達が同居し、DMとDBTで挙動が割れる。この複雑さは、ある成熟した臨床AIの姿そのものを示しています。次の段階で必要なのは、検出率上昇とリコール率上昇のトレードオフを各国・各施設の実情に応じて最適化する、運用知の蓄積でしょう。日本の場合、DM主流の地域とDBT普及が進む大都市圏で、AI導入の価値構造が違ってくる可能性があります。さらに重要なのは、AIに任せる範囲を広げるとき、見逃された症例を確実に学習データへ還流する仕組み、そして女性への説明と同意のあり方を制度として整えること。技術が先行し、ガバナンスが追いつかない――これが医療AIの最大のリスクです。AITICはその警鐘でもあり、希望でもある。
次回予告
連載第3回は、視点を「検出」から「予後予測」へ移します。サンアントニオ乳がんシンポジウム(SABCS 2025)で発表され、AACR Cancer Discovery News(2025年12月)でも取り上げられた、Mount Sinai医科大学Joseph Sparano先生らのマルチモーダルAI再発予測モデル。臨床・画像・分子データを統合した「ICM+モデル」が、現行の標準である21遺伝子検査(Oncotype DX)を15年遠隔再発予測で上回ったという報告を、TAILORx試験データの再解析として丁寧に解説します。AIが乳がん診療の「治療選択の意思決定」にまで踏み込み始めた、その意味を考えます。
Morningglorysciencesチームによって編集されました。

コメント