Why it’s so hard to use AI to diagnose cancer

期待されたAI画像診断、臨床導入に残された技術的課題は？

AIによる病理画像の分析は15年前から期待されてきた有望分野だ。人間を超える精度を弾き出すこともあるが、臨床での実用化には訓練データの不足、巨大画像の処理など、解決すべき技術的課題が残っている。 by James O'Donnell2025.01.23

この記事の3つのポイント

がん画像診断AIの人間の病理医との診断一致率は平均84.6%にとどまる
医療現場のデジタル化率が10%未満で、AIの訓練に必要なデータの収集が進まない
巨大画像処理や希少症例の不足など、技術的課題が実用化を遠ざけている

summarized by Claude 3

この記事は米国版ニュースレターを一部再編集したものです。

がんの発見や診断のために体内を覗き込むということは、パターンを見抜くことにほかならない。放射線科医はX線や核磁気共鳴画像法（MRI：Magnetic Resonance Imaging）を使って腫瘍を照らし出し、病理医は腎臓や肝臓などの組織を顕微鏡で調べて、パターンを探す。がんがどの程度重症なのか、どの治療法が効きそうなのか、悪性腫瘍がどの部分に広がる可能性があるのかを示すパターンを探すのだ。

理論的には、人工知能（AI）は大いにその助けになるはずだ。「私たちの仕事はパターン認識です」と、メイヨー・クリニック（Mayo Clinic）でデジタル病理学プラットフォームの医療主任を務める病理医のアンドリュー・ノーガンはいう。「私たちはスライドを見て、重要であることが証明された情報の断片を集めるのです。」

画像分析は、15年近く前に最初の画像認識モデルが普及し始めたときから、AIがかなり得意としてきた分野である。完璧なモデルは存在しないが、いつの日か強力なアルゴリズムが、人間の病理医でさえも見落とす何かを捉えたり、少なくとも診断の過程をスピードアップしたりすることは想像できる。そのようなモデルを構築するための数多くの取り組みが新たに始まっており、昨年だけでも少なくとも7つの試みが始まっているが、いずれもまだ実験段階にとどまっている。現実世界で使えるほど優れたものにするには何が必要なのだろうか？

AIヘルス企業のアイグノスティクス（Aignostics）が主導し、メイヨー・クリニックとともに進めているそうしたモデルの構築に向けた最新の研究の詳しい内容が、今月初めにアーカイブ（arXiv）で発表された。この論文は査読を受けていないが、画像分析ツールを実際の臨床現場に導入する際の課題についてさまざまなことを明らかにしている。

「アトラス（Atlas）」と呼ばれるこのモデルは、49万件の症例から採取した120万の組織サンプルで訓練され、その精度は、他の6つの主要AI病理モデルと比較テストされた。これらのモデルの精度は、乳がん画像の分類や腫瘍のステージ判定などの共通テストで検証し、モデルの予測は人間の病理医が出した正解と比較した。アトラスは、9種類のテストのうち6種類で競合モデルを上回る結果を残した。直腸がん組織の分類では最高スコアを獲得し、97.1％の確率で人間の病理学者と同じ結論に達した。しかし、前立腺がんの生検組織から腫瘍を分類するタスクでは、アトラスは他のモデルのスコアを上回ったものの、それはわずか70.5％というスコアであった。9つのベンチマークを平均すると、84.6％の確率で人間の専門家と同じ答えが得られた。

これが何を意味するのか考えてみよう。組織内のがん細胞に何が起こっているかを知る最善の方法は、病理医にサンプルを検査してもらうことだ。そこで、前出の研究ではAIモデルの性能を病理医の判定結果と比較した。最良のモデルは、ある分野では人間に近づいているが、他の多くのタスクで遅れをとっている。では、臨床に役立つモデルとは、どの程度のものでなければならないのか？

「90％ではおそらく十分とは言えないでしょう。もっと改良が必要です」。プロビデンス・ゲノミクス（Providence Genomics）で最高医療責任者（CMO）を務めるカルロ・ビフルコは述べた。ビフルコCMOは、メイヨー・クリニックの研究で調査対象となったAI病理モデルのひとつである「’ギガパス（GigaPath）」の共同開発者でもある。ビフルコCMOは改良が必要だとしたが、完璧なスコアが得られないAIモデルでも短期的には有用であり、病理医が作業をスピードアップして、より迅速に診断を下すのに役立つ可能性があるとも語っている。

性能向上の妨げとなっている障害とはどういったことだろうか？第一の問題は訓練データだ。

「米国でデジタル化されている病理医療現場は10％にも満たない」とノーガン主任は言う。つまり、組織サンプルはスライド・ガラスに載せられて顕微鏡で分析され、デジタル・データとして記録されることなく、膨大な登録簿に保存されるということだ。欧州の医療現場では、デジタル化の傾向が進んでおり、AIモデルの学習に使う組織サンプルの共有データ・セットの構築も進行中であるが、それでもまだ使えるデータ量は多くない。

多様なデータ・セットがなければ、AIモデルは、人間の病理医なら解明できる多様な異常の特定に苦労する。これには希少疾患も含まれると、アイグノスティクスの共同創業者で最高技術責任者（CTO）を務めるマクシミリアン・アルバーは話す。そして、一般に公開されているデータベースから、特に希少な疾患の組織サンプルを探すと、「10年間で20サンプルしか見つからないほどです」と言う。

2022年頃、メイヨー・クリニックは、こういった訓練データの不足が問題になると予見していた。そして、数十年前まで遡る1200万枚のスライド・アーカイブ（患者は研究目的でのスライドの使用に同意している）とともに、今後の病理診療のすべてをデジタル・データにすると決めた。また、ある企業に依頼して、組織の高解像度写真を撮影するロボットを開発した。このロボットは1カ月あたり最大100万サンプルを処理できる。こうした努力の結果、チームは120万枚の高品質サンプルを収集できた。メイヨー・クリニックは、このデータ・セットを独自モデルの訓練に使用した。

これで、AIを使ってがんを発見する上での第二の問題が浮き彫りになる。生検で採取した組織サンプルは、直径わずか数ミリの非常に小さなものであることがほとんどだが、それらは大きく拡大されて、140億ピクセルを超える高精細デジタル画像になる。これは、それまでにAI画像認識モデルの訓練に使っていた画像に比べて、約28万7000倍も大きい。

「つまり、明らかにストレージ・コストなどが膨れ上がるということです」と、昨年ネイチャー誌で特集されたギガパスをビフルコCMOと共同で開発した、マイクロソフト・リサーチのAI研究者ホイファン・プーン統括部長は語る。一方、AIモデルの学習に画像のどの部分を使うか、またその過程でどの細胞を見逃す可能性があるかという重要な判断も迫られる。アトラスを作る上で、メイヨー・クリニックはタイル法と呼ぶ手法を採用した。これは基本的に、同じサンプルからたくさんのスナップショットを作成し、AIモデルに投入する方法だ。これらタイルをどのように選択するかを考えることは芸術であり科学でもある。どの方法が最良の結果につながるかはまだ明らかではない。

第三に、がんを発見するAIモデルが優れた性能を発揮するには、どのベンチマークが最も重要かという問題がある。アトラスの研究者たちは、分子関連ベンチマークという難しい領域でモデルをテストした。分子関連ベンチマークとは、サンプルの組織画像から手がかりを見つけ、分子レベルで何が起こっているかを推測しようとするものだ。ひとつ例を挙げよう。体内のミスマッチ修復遺伝子は、DNAが複製される際に生じるエラーを捕捉するため、がんの発生に重要な意味を持つ。もしこれらのエラーを捕捉できなければ、がんの発生と進行が促進されてしまう可能性がある。

「病理医の中には、見た目から何らかのミスマッチ修復に欠陥があると、なんとなくわかるという人もいるかもしれません」とノーガン医療主任はいう。とはいえ、病理医はその直感だけで判断するわけではない。より明確な答えを得るために分子検査にかけることもできる。その代わりに、AIを使って分子レベルで起こっていることを予測できるとしたらどうだろうとノーガン医療主任は話す。これは、AIモデルが人間には見えない根本的な分子変化を発見できるだろうかという実験なのだ。

基本的には、少なくとも現段階ではどうやら不可能なようだ。アトラスの分子テストの平均精度は44.9％だった。これは、AIとしてはこれまでで最高のパフォーマンスだが、この種のテストにはまだまだ長い道のりがあることを示している。

ビフルコCMOは、アトラスは漸進的ではあるが、まさに進歩しているという。その一方で、「残念ながら、誰もが同じようなレベルで行き詰まっているように感じます」と話す。「本当に劇的な進歩を遂げるには、モデルに何か違うものが必要で、より大規模なデータ・セットも必要なのです」。

オープンAI、長寿科学向けAIモデルを開発

AIは長い間、タンパク質フォールディングの科学に影響を与えてきた。しかし、今やオープンAIは、タンパク質を操作して、通常の細胞を幹細胞に変えることができるモデルを開発したという。これは、長寿科学の分野で数多くの企業が追求してきたことだ。幹細胞は体内の他のあらゆる組織を作り出すことができ、理論的には動物の若返り、人間の臓器の構築、代替細胞の供給の出発点となり得るからである。

この研究は、オープンAIと長寿について研究しているレトロ・バイオサイエンシズ（Retro Biosciences）との協業の成果であり、オープンAIのCEOであるサム・アルトマンは、レトロ・バイオサイエンシズに1億8000万ドルを投資している。今回開発したモデルは、オープンAIが生物学的データに焦点を当てた最初のモデルであり、そのモデルは科学的成果をもたらすと、同社が初めて公的に明言した。このAIモデルは、レトロ・バイオサイエンシズの科学者が考えたものよりもより効果的なタンパク質をより迅速に設計したという。しかし、研究結果が発表されるまでは、外部の科学者はその主張を評価することはできない。詳しくは、本誌のアントニオ・レガラード編集者の記事を参照してほしい。

AI関連のその他のニュース

ティックトック（TikTok）禁止についてわかっていること。この人気動画アプリは、禁止法が施行されて、米国で土曜日遅くに利用できなくなったが、その後、日曜日の正午ごろに再び利用できるようになった。（ニューヨーク・タイムズ）
メタが「X」のようにならない理由。イーロン・マスクがプラットフォームの運用方針を変更したため、「X」は多額の広告収入を失った。しかし、フェイスブックとインスタグラムは、その巨大な規模ゆえに、広告主にとって避けることが難しいプラットフォームとなっている。（ウォールストリート・ジャーナル）
2025年のニューラリンク動向予測。より多くのボランティアがイーロン・マスクの脳インプラントを受けることになるだろう。しかし、すぐに製品が出てくるとは期待できない。（MITテクノロジーレビュー）
メタのファクトチェックを担ってきた報道機関がAIモデルの訓練を支援する新たな契約を締結。メタは、自社プラットフォームのファクトチェックのために、何年もフランス通信社（AFP）などのメディアに代価を支払ってきた。メタがファクトチェックを停止すると発表した後、ヨーロッパの大手AI企業ミストラルAI（Mistral AI）は、同社のAIモデルで一部の記事を使用する目的で、AFPと契約を締結した。（フィナンシャル・タイムズ）
オープンAIのAI推論モデルはときどき中国語で「考える」。その理由は誰にも分からない。このAIモデルは応答の際、頻繁に中国語に切り替わるが、これはおそらく、訓練データにラベルを付ける業者の多くが中国に拠点を置いているという事実を反映しているのだろう。（テッククランチ）

人気の記事ランキング

ジェームス・オドネル [James O'Donnell]米国版 AI／ハードウェア担当記者: 自律自動車や外科用ロボット、チャットボットなどのテクノロジーがもたらす可能性とリスクについて主に取材。MITテクノロジーレビュー入社以前は、PBSの報道番組『フロントライン（FRONTLINE）』の調査報道担当記者。ワシントンポスト、プロパブリカ（ProPublica）、WNYCなどのメディアにも寄稿・出演している。