KADOKAWA Technology Review
×
新型コロナ2万4000本以上の論文データセット、AI2などが公開
Laurence Dutton / Getty
Over 24,000 coronavirus research papers are now available in one place

新型コロナ2万4000本以上の論文データセット、AI2などが公開

新型コロナウイルス感染症(COVID-19)と戦う科学者を支援するため、関連する2万4000本以上の論文をまとめたデータセットが公開された。 by Karen Hao2020.03.18

複数の組織を横断して協力する研究者たちが、「CORD-19(COVID-19オープン・リサーチ・データセット)」を3月16日、公開した。査読済論文を掲載する学術誌と、バイオアーカイブ(bioRxiv)やメドアーカイブ(medRxiv)といったプレプリント(査読前論文)を投稿できるWebサイトなどを情報源とする、2万4000本以上の論文が含まれたデータセットだ(日本版編注:2万4000本はメタ情報。全文1万3000本以上)。新型コロナウイルス(SARS-CoV-2)や新型コロナウイルス感染症(COVID-19)、コロナウイルス属に関する研究を対象とする。現在進行中のパンデミック(世界的な流行)に関する科学文献を集めたものとして最大規模を誇り、新たな研究が発表されれば随時更新される。

同データセットは、米国科学技術政策局(Office of Science and Technology Policy:OSTP)の要請で3つの組織が協力してまとめた。米国立衛生研究所(National Institutes of Health:NIH)の国立医学図書館(National Library of Medicine:NLM)が既存の科学出版物へのアクセスを提供し、マイクロソフトは自社の文献キュレーション・アルゴリズムを使って文献を収集。非営利のアレン人工知能研究所(AI2)が、WebページやPDFの関連記事を、アルゴリズムで処理できる構造化された形式に変換した。同データセットは現在、AI2のWebサイト「セマンティック・スカラー(Semantic Scholar)」で利用可能だ。

AI2のセマンティック・スカラー・サービスは科学コミュニティが学術文献を簡単に検索できるようにするサービスである。AI2は同サービスの一環としてすでに、すべての新たな研究に適用しているものと同じ情報抽出・分析の手法でCORD-19の新たなコーパスを処理している。論文の著者や研究手法、データ、抜粋といった主な情報を抽出し、それぞれの論文が既存の研究に追加している部分をすばやく判断できるようにしている。

またセマンティック・スカラーは「エルモ(ELMo)」や「バート(BERT)」といった最新の自然言語モデルを使い、複数の論文間の類似性をマッピングする。それによって、研究者が自分の関心に基づく個人用研究フィードの作成を実現する。

科学界は今、新型コロナウイルスの拡大を防ぐため、ウイルスの性質に関する差し迫った問題に答えを出そうと寸暇を惜しんで研究に取り組んでいる。今回のデータセットは既存の研究を一か所に集めるだけでなく、自然言語処理アルゴリズムで文献の本文を検索し、知見を得やすくするのに役立つ。米国科学技術政策局はAI研究者に対し、医療コミュニティが大量の情報をすばやく検索できるようなテキストマイニングおよびデータマイニングの新手法を開発するよう広く呼びかけている。

(関連記事:新型コロナウイルス感染症に関する記事一覧

人気の記事ランキング
  1. Astronomers found a giant intergalactic “wall” of galaxies hiding in plain sight 天文学者らが銀河の「壁」を発見、地球から5億光年
  2. Immunity to covid-19 could disappear in months, a new study suggests 新型コロナの免疫は数カ月で消滅か、ロンドン大新研究
  3. Verily Has Built a Robot to Release 20 Million Sterile Mosquitoes in California グーグルが蚊の大量飼育ロボットを開発、2000万匹を放出
  4. If the coronavirus is really airborne, we might be fighting it the wrong way 新型コロナ、空気感染なら対策見直し必至  「換気」優先に
カーレン・ハオ [Karen Hao]米国版 AI担当記者
MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。
10 Breakthrough Technologies 2020

気候変動から量子コンピューティング、人工衛星群まで。
MITテクノロジーレビューが選んだ、世界を変える10大テクノロジー。

記事一覧を見る
人気の記事ランキング
  1. Astronomers found a giant intergalactic “wall” of galaxies hiding in plain sight 天文学者らが銀河の「壁」を発見、地球から5億光年
  2. Immunity to covid-19 could disappear in months, a new study suggests 新型コロナの免疫は数カ月で消滅か、ロンドン大新研究
  3. Verily Has Built a Robot to Release 20 Million Sterile Mosquitoes in California グーグルが蚊の大量飼育ロボットを開発、2000万匹を放出
  4. If the coronavirus is really airborne, we might be fighting it the wrong way 新型コロナ、空気感染なら対策見直し必至  「換気」優先に
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る