KADOKAWA Technology Review
×
【明日まで】10/31締切 日本初開催 「Innovators Under 35」候補者募集中
新型コロナ2万4000本以上の論文データセット、AI2などが公開
Laurence Dutton / Getty
Over 24,000 coronavirus research papers are now available in one place

新型コロナ2万4000本以上の論文データセット、AI2などが公開

新型コロナウイルス感染症(COVID-19)と戦う科学者を支援するため、関連する2万4000本以上の論文をまとめたデータセットが公開された。 by Karen Hao2020.03.18

複数の組織を横断して協力する研究者たちが、「CORD-19(COVID-19オープン・リサーチ・データセット)」を3月16日、公開した。査読済論文を掲載する学術誌と、バイオアーカイブ(bioRxiv)やメドアーカイブ(medRxiv)といったプレプリント(査読前論文)を投稿できるWebサイトなどを情報源とする、2万4000本以上の論文が含まれたデータセットだ(日本版編注:2万4000本はメタ情報。全文1万3000本以上)。新型コロナウイルス(SARS-CoV-2)や新型コロナウイルス感染症(COVID-19)、コロナウイルス属に関する研究を対象とする。現在進行中のパンデミック(世界的な流行)に関する科学文献を集めたものとして最大規模を誇り、新たな研究が発表されれば随時更新される。

同データセットは、米国科学技術政策局(Office of Science and Technology Policy:OSTP)の要請で3つの組織が協力してまとめた。米国立衛生研究所(National Institutes of Health:NIH)の国立医学図書館(National Library of Medicine:NLM)が既存の科学出版物へのアクセスを提供し、マイクロソフトは自社の文献キュレーション・アルゴリズムを使って文献を収集。非営利のアレン人工知能研究所(AI2)が、WebページやPDFの関連記事を、アルゴリズムで処理できる構造化された形式に変換した。同データセットは現在、AI2のWebサイト「セマンティック・スカラー(Semantic Scholar)」で利用可能だ。

AI2のセマンティック・スカラー・サービスは科学コミュニティが学術文献を簡単に検索できるようにするサービスである。AI2は同サービスの一環としてすでに、すべての新たな研究に適用しているものと同じ情報抽出・分析の手法でCORD-19の新たなコーパスを処理している。論文の著者や研究手法、データ、抜粋といった主な情報を抽出し、それぞれの論文が既存の研究に追加している部分をすばやく判断できるようにしている。

またセマンティック・スカラーは「エルモ(ELMo)」や「バート(BERT)」といった最新の自然言語モデルを使い、複数の論文間の類似性をマッピングする。それによって、研究者が自分の関心に基づく個人用研究フィードの作成を実現する。

科学界は今、新型コロナウイルスの拡大を防ぐため、ウイルスの性質に関する差し迫った問題に答えを出そうと寸暇を惜しんで研究に取り組んでいる。今回のデータセットは既存の研究を一か所に集めるだけでなく、自然言語処理アルゴリズムで文献の本文を検索し、知見を得やすくするのに役立つ。米国科学技術政策局はAI研究者に対し、医療コミュニティが大量の情報をすばやく検索できるようなテキストマイニングおよびデータマイニングの新手法を開発するよう広く呼びかけている。

(関連記事:新型コロナウイルス感染症に関する記事一覧

人気の記事ランキング
  1. OSIRIS-REx collected too much asteroid material and now some is floating away NASA探査機、小惑星のサンプル採取に成功も多過ぎて蓋が閉まらず
  2. The deadline for IU35 Japan entries is approaching Innovators Under 35 Japan、候補者の応募・推薦締切迫る
  3. There might be even more underground reservoirs of liquid water on Mars 火星の南極に新たな地下湖、生命体が見つかる可能性も
  4. Satellite mega-constellations risk ruining astronomy forever 増え続ける人工衛星群で天体観測が台無し、解決策はあるか?
  5. Room-temperature superconductivity has been achieved for the first time 世界初、15°C「室温超伝導」達成 夢の新技術へ突破口
カーレン・ハオ [Karen Hao]米国版 AI担当記者
MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。
Innovators Under 35 Japan 2020

MITテクノロジーレビューが主催するグローバル・アワード「Innovators Under 35」が2020年、日本に上陸する。特定の分野や業界だけでなく、世界全体にとって重要かつ独創的なイノベーターを発信していく取り組みを紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. OSIRIS-REx collected too much asteroid material and now some is floating away NASA探査機、小惑星のサンプル採取に成功も多過ぎて蓋が閉まらず
  2. The deadline for IU35 Japan entries is approaching Innovators Under 35 Japan、候補者の応募・推薦締切迫る
  3. There might be even more underground reservoirs of liquid water on Mars 火星の南極に新たな地下湖、生命体が見つかる可能性も
  4. Satellite mega-constellations risk ruining astronomy forever 増え続ける人工衛星群で天体観測が台無し、解決策はあるか?
  5. Room-temperature superconductivity has been achieved for the first time 世界初、15°C「室温超伝導」達成 夢の新技術へ突破口
MITテクノロジーレビュー[日本版] Vol.1/Autumn 2020
MITテクノロジーレビュー[日本版] Vol.1/Autumn 2020AI Issue

技術動向から社会実装の先進事例、倫理・ガバナンスまで、
AI戦略の2020年代のあたらしい指針。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る