KADOKAWA Technology Review
×
クーポン利用で年額5000円オフ
購読キャンペーン実施中!
新型コロナ2万4000本以上の論文データセット、AI2などが公開
Laurence Dutton / Getty
Over 24,000 coronavirus research papers are now available in one place

新型コロナ2万4000本以上の論文データセット、AI2などが公開

新型コロナウイルス感染症(COVID-19)と戦う科学者を支援するため、関連する2万4000本以上の論文をまとめたデータセットが公開された。 by Karen Hao2020.03.18

複数の組織を横断して協力する研究者たちが、「CORD-19(COVID-19オープン・リサーチ・データセット)」を3月16日、公開した。査読済論文を掲載する学術誌と、バイオアーカイブ(bioRxiv)やメドアーカイブ(medRxiv)といったプレプリント(査読前論文)を投稿できるWebサイトなどを情報源とする、2万4000本以上の論文が含まれたデータセットだ(日本版編注:2万4000本はメタ情報。全文1万3000本以上)。新型コロナウイルス(SARS-CoV-2)や新型コロナウイルス感染症(COVID-19)、コロナウイルス属に関する研究を対象とする。現在進行中のパンデミック(世界的な流行)に関する科学文献を集めたものとして最大規模を誇り、新たな研究が発表されれば随時更新される。

同データセットは、米国科学技術政策局(Office of Science and Technology Policy:OSTP)の要請で3つの組織が協力してまとめた。米国立衛生研究所(National Institutes of Health:NIH)の国立医学図書館(National Library of Medicine:NLM)が既存の科学出版物へのアクセスを提供し、マイクロソフトは自社の文献キュレーション・アルゴリズムを使って文献を収集。非営利のアレン人工知能研究所(AI2)が、WebページやPDFの関連記事を、アルゴリズムで処理できる構造化された形式に変換した。同データセットは現在、AI2のWebサイト「セマンティック・スカラー(Semantic Scholar)」で利用可能だ。

AI2のセマンティック・スカラー・サービスは科学コミュニティが学術文献を簡単に検索できるようにするサービスである。AI2は同サービスの一環としてすでに、すべての新たな研究に適用しているものと同じ情報抽出・分析の手法でCORD-19の新たなコーパスを処理している。論文の著者や研究手法、データ、抜粋といった主な情報を抽出し、それぞれの論文が既存の研究に追加している部分をすばやく判断できるようにしている。

またセマンティック・スカラーは「エルモ(ELMo)」や「バート(BERT)」といった最新の自然言語モデルを使い、複数の論文間の類似性をマッピングする。それによって、研究者が自分の関心に基づく個人用研究フィードの作成を実現する。

科学界は今、新型コロナウイルスの拡大を防ぐため、ウイルスの性質に関する差し迫った問題に答えを出そうと寸暇を惜しんで研究に取り組んでいる。今回のデータセットは既存の研究を一か所に集めるだけでなく、自然言語処理アルゴリズムで文献の本文を検索し、知見を得やすくするのに役立つ。米国科学技術政策局はAI研究者に対し、医療コミュニティが大量の情報をすばやく検索できるようなテキストマイニングおよびデータマイニングの新手法を開発するよう広く呼びかけている。

(関連記事:新型コロナウイルス感染症に関する記事一覧

人気の記事ランキング
  1. We’re not going back to normal 「新型コロナ後」の世界は どう変化するか?
  2. How coronavirus is transforming online dating and sex 新型コロナで変わる、「出会い」と「セックス」の形
  3. What if immunity to covid-19 doesn’t last? 新型コロナ、免疫が持続しない可能性も=「風邪」にヒント
  4. How does the coronavirus work? 新型コロナウイルスとは何か? 押さえておきたい基礎知識
  5. Here’s how long the coronavirus can live in the air and on packages 新型コロナはダンボールに1日残存、吊革も感染ルートか
カーレン・ハオ [Karen Hao]米国版 AI担当記者
MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。
コロナウイルス感染症(COVID-19)

新型コロナウイルス「SARS-CoV-2」を原因とする新型コロナウイルス感染症「COVID-19」が猛威を振るっている。パンデミックによって世界はどう変わるのか? 治療薬やワクチンの開発動向から、各国の政策、経済への影響まで、MITテクノロジーレビューならではの多角的な視点で最新情報をお届けする。

記事一覧を見る
人気の記事ランキング
  1. We’re not going back to normal 「新型コロナ後」の世界は どう変化するか?
  2. How coronavirus is transforming online dating and sex 新型コロナで変わる、「出会い」と「セックス」の形
  3. What if immunity to covid-19 doesn’t last? 新型コロナ、免疫が持続しない可能性も=「風邪」にヒント
  4. How does the coronavirus work? 新型コロナウイルスとは何か? 押さえておきたい基礎知識
  5. Here’s how long the coronavirus can live in the air and on packages 新型コロナはダンボールに1日残存、吊革も感染ルートか
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る