New standards for AI clinical trials will help spot snake oil and hype

医療AIの臨床試験で新基準、誇大広告にストップ

医療専門家の国際コンソーシアムが、人工知能（AI）が関わる臨床試験の初の公式基準を導入した。より信頼性の高い医療用AIの実現が期待される。 by Will Douglas Heaven2020.09.16

医療専門家の国際コンソーシアムが、人工知能（AI）が関わる臨床試験の初の公式基準を導入した。医療AIをめぐる誇大広告が盛んになり、特定のツールの有効性について未検証の主張が膨れ上がるなど、AI全体に対する信頼が損なわれつつある中での動きだ。

新基準は、医学雑誌のネイチャー・メディシン（Nature Medicine）、ブリティッシュ・メディカル・ジャーナル（British Medical Journal：BMJ）、およびランセット（Lancet）で発表された。医薬品開発や診断試験、その他の医療行為のために、すでに世界中で使われている臨床試験の実施・報告方法に関する2つの指針を拡張したもので、AI研究者は今後、AIツールの使用に必要となる技能、AIを評価する設定、人間がAIとやり取りする方法の詳細、エラー事例の分析などのさまざまな項目について説明する必要がある。

ランダム化比較試験は、治療や臨床技術の有効性と安全性を証明するための最も信頼性の高い方法であり、現在の医療行為と保健政策の双方を下支えしている。だが、その信頼性は、研究者自身が厳格な指針を遵守して実施、報告しているかどうかに依存している。ここ数年、新たなAIツールが数多く開発され医学雑誌に掲載されてきたが、その有効性を比較評価することは難しかった。試験デザインの質にばらつきがあるからだ。2020年3月にBMJに掲載された論文は、医用画像を分析するAIの性能が誇張されることで、数百万人の患者が危険にさらされると警鐘を鳴らしている。

また、共通の基準がないことで、民間企業は他の種類の医療行為や診断に適用される精査を受けることもなく、自社のAIの有効性を得意げに語ることできる。例えば2018年には、英国に拠点を置くデジタル医療会社であるバビロン・ヘルス（Babylon Health）が、自社の医療診断チャットボットが「人間の医者に匹敵する」と発表して批判を浴びた。評論家は、その根拠となった試験について誤解を招くものだと論じた。

このような企業は、決してバビロン・ヘルスだけではない。開発者はしばらく前から、医療用AIは人間の能力を上回るか、それに匹敵すると主張してきた。新型コロナウイルス感染症（COVID-19）のパンデミックが、この動向に拍車をかけている。企業は競って、自社のツールを注目させようとしている。ほとんどの場合、これらのAIの評価は社内でかつ好都合な条件で行なわれている。

AIが人間の医者に決して勝てないと言っているのではない。実際、2020年8月には、マンモグラフィ画像から人間よりも正確にがんを識別するAI診断ツールの独立評価が発表されたばかりだ。この研究では、医療会社ルニットAI（Lunit AI）が開発し、韓国の特定の病院で使用されているAIツールが、試験対象の放射線科医の中で中位の評価に終わった。このAIツールは、人間の医師と組んで使用されると一層正確だった。今回発表された新基準によって、このような評価が容易になり、良いものと悪いものが選り分けられる。最終的には、より良くかつ信頼性の高い医療用AIにつながるはずだ。

人気の記事ランキング

ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者: AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ（Future Now）」の創刊編集長、ニュー・サイエンティスト（New Scientist）誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。