AI could help scientists fact-check covid claims amid a deluge of research

新型コロナ論文のファクトチェックを支援、研究者向けAIツール

新型コロナウイルスに関する大量の論文の中から、科学的事実を見分けることは難しい。ニューラル・ネットワークを活用した研究者向けの支援ツールが開発されている。 by Karen Hao2020.06.11

新型コロナウイルスに関する膨大な文献を精査し、新たな研究が科学的なコンセンサスに従っているかどうかを確認できる、実験的なツールが登場した。

パンデミックが始まって以来、新型コロナウイルス感染症（COVID-19）に関する論文や査読前論文（プレプリント）が氾濫している。これらの執筆者の専門知識レベルはさまざまであり、査読レベルにもばらつきがある。そのため、新型コロナウイルス感染症への理解を深めようとする研究者にとって、フィクションと科学的事実を見分けることが困難になっている。

シアトルに拠点を置く非営利組織、アレン人工知能研究所（AI2）が開発した「サイファクト（SciFact）」は、このプロセスを円滑に進めるために設計されたツールだ。まず、検索バーに調べたい科学的主張を打ち込む。例えば「高血圧はコロナウイルスの合併症」といった具合だ。すると、その主張を「支持する」「反証する」とラベル付けされた関連文献が表示される。さらに、各論文の要旨が表示され、主張を評価するために最も関連性の高いエビデンス（科学的根拠）を持つ文書を強調して表示する。

このシステムは、ベリサイ（VeriSci）というニューラル・ネットワーク上に構築されている。ウィキペディアから収集された既存のフェクトチェック・データセットで訓練され、5183件の要旨を添えた1409件の科学的主張を含む新しい科学的フェクトチェック・データセットで微調整されたものだ。

データセットの調整にはセマンティック・スカラー（Semantic Scholar）が使用された。セマンティック・スカラーは、AI2が2015年から運用している科学論文の公開データベースだ。研究チームはまず、セル（Cell）やネイチャー（Nature）、JAMA（米国医師会雑誌）など、生命科学・医学分野で高く評価されている数十の学術誌から論文サンプルを無作為に選択し、その中から引用を含む文章を抽出した。次に、専門家のアノテーター（注釈者）に依頼し、文献の立証や反証が可能な科学的主張へと書き換えてもらった。その後、注釈者はすべての主張について、対応する引用文献の要旨に目を通し、立証もしくは反証の根拠を含む文章を特定した。

研究チームが実際に新型コロナウイルス感染症に関する科学的主張についてベリサイをテストしたところ、論文の主張を36回のうち23回正確にラベル付けできたという。不完全ではあるものの、別の既存のファクトチェック・データベースを使用した同様のニューラル・ネットワークの結果を凌ぐものであり、AIベースの科学的ファクトチェック・システムの有用性を初めて示す概念実証となった。将来的には、訓練データが増えることで、誤りは将来的にはある程度減少するだろう。残りのは誤りに関しては、自然言語理解の進歩が必要となる。

サイファクトは、新型コロナウイルス感染症を研究する科学者が、仮説や既存の科学的文献に反する新たな主張をすばやく確認するために作られたものだ。ソーシャルメディア上で出回っているデマや、「新型コロナウイルス（SARS-CoV-2）は生物兵器である」などといった陰謀論、「政府はウイルスの蔓延を遅らせるため、人々に6フィートの間隔を保つよう要請するべきだ」などといった主観的な情報を確認するためのものではない。このツールが試用段階であることを踏まえると、専門家は「支持する」や「反証する」のラベルだけに頼るのではなく、要旨に確実に目を通すべきである。また、このツールは収集された論文の正当性についてはチェックしていないため、開発者は専門家の適切な判断力が求められるとしている。

（関連記事：新型コロナウイルス感染症に関する記事一覧）

人気の記事ランキング

カーレン・ハオ [Karen Hao]米国版寄稿者: 受賞歴のあるフリー・ジャーナリスト。人工知能が社会に与える影響について取材している。ウォール・ストリート・ジャーナル紙の海外特派員として中国のテクノロジー業界を担当。2022年4月まではMITテクノロジーレビューのAI担当上級編集者を務めた。